恭喜北京達佳互聯信息技術有限公司胡羽藍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜北京達佳互聯信息技術有限公司申請的專利文本分詞方法、裝置、設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114218939B 。
龍圖騰網通過國家知識產權局官網在2025-06-10發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111530194.2,技術領域涉及:G06F40/284;該發明授權文本分詞方法、裝置、設備及存儲介質是由胡羽藍;李佳軒;陳洪亮設計研發完成,并于2021-12-14向國家知識產權局提交的專利申請。
本文本分詞方法、裝置、設備及存儲介質在說明書摘要公布了:本公開關于一種文本分詞方法、裝置、設備及存儲介質,該方法是在分詞解碼階段,根據每個標簽序列對應的分詞序列中每個分詞在其上一個分詞出現的條件下出現的概率得到該標簽序列的困惑度,以用于評價該標簽序列的合理程度,并結合分詞編碼階段學習到的每個標簽序列對應的權重,選擇出最優的標簽序列,從而保證在低資源場景下分詞效果的魯棒性和準確率。相比于相關技術,本申請技術方案無需大量的計算資源即可完成分詞,適用于工業場景,也無需通過堆疊多個任務的模型來促進分詞模型的分詞表現,而是通過改進編碼算法實現上述技術效果。
本發明授權文本分詞方法、裝置、設備及存儲介質在權利要求書中公布了:1.一種文本分詞方法,其特征在于,包括:獲取待分詞文本對應的多個標簽序列,所述標簽序列用于將所述待分詞文本切分成對應的分詞序列;對所述待分詞文本進行編碼處理,得到與每個所述標簽序列對應的權重;所述標簽序列包括與所述待分詞文本中每個字符對應的字符標簽,所述字符標簽用于標注所述字符在分詞中的位置;所述標簽序列對應的權重包括所述標簽序列中每個字符標簽對應的發射權重和狀態轉移權重;根據每個所述標簽序列對應的權重和困惑度,解碼得到目標標簽序列,以利用所述目標標簽序列確定分詞結果;其中,每個所述標簽序列對應的困惑度,根據所述標簽序列對應的分詞序列中,每個分詞在上一個分詞出現的條件下出現的統計概率確定;所述根據每個所述標簽序列對應的權重和困惑度,解碼得到目標標簽序列,包括:確定每個標簽序列對應的第一權重和及第二權重和,所述第一權重和為所述標簽序列中每個字符標簽對應的發射權重的和,所述第二權重和為所述標簽序列中每個字符標簽對應的狀態轉移權重的和;根據所述標簽序列對應的所述第一權重和、第二權重和及困惑度,確定所述標簽序列的分數;將對應最大分數的標簽序列確定為所述目標標簽序列。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京達佳互聯信息技術有限公司,其通訊地址為:100085 北京市海淀區上地西路6號1幢1層101D1-7;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。