恭喜華東師范大學李祥學獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網恭喜華東師范大學申請的專利一種可擴展的通用端到端命名實體識別方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產權局授予,授權公告號為:CN115130475B 。
龍圖騰網通過國家知識產權局官網在2025-04-01發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202210617397.3,技術領域涉及:G06F40/295;該發(fā)明授權一種可擴展的通用端到端命名實體識別方法是由李祥學;李軒舟設計研發(fā)完成,并于2022-06-01向國家知識產權局提交的專利申請。
本一種可擴展的通用端到端命名實體識別方法在說明書摘要公布了:本發(fā)明公開了一種可擴展的通用端到端命名實體識別方法,包括文本預處理過程,構建模型M,訓練模型M,使用模型M進行預測和實體解析過程,模型M包括輸入層、上下文編碼層、圖建模層。文本預處理過程:接收一個文本輸入和一個實體類別,生成輸入序列;訓練模型包括獲取數據集,將數據集轉換為訓練集,使用訓練集對模型進行多輪訓練;模型訓練結束后,將文本預處理過程處理過的輸入序列輸入模型M,模型M的圖建模層計算詞之間的連接關系,最后解析圖中識別到的實體。本發(fā)明可以適應實體重疊和實體非連續(xù)情況下的識別,而且能夠適應需求變動如新增實體類別的情況而無需修改模型結構,因此容易進行擴展和領域遷移學習。
本發(fā)明授權一種可擴展的通用端到端命名實體識別方法在權利要求書中公布了:1.一種可擴展的通用端到端命名實體識別方法,其特征在于,該方法包括以下具體步驟:步驟1:文本預處理過程,生成輸入序列,具體為:接收一個文本輸入和一個實體類別,在文本首尾各加上一個符號,將實體類別添加在文本的尾部;對首尾添加了符號和實體類別的輸入文本進行分詞,獲得詞序列;將詞序列映射為數字,數字和詞一一映射,滿足雙射關系,以映射后的數字序列為輸入序列,輸出為該序列;步驟2:構建模型M,包括:使用上下文編碼層接收文本預處理過程輸出的輸入序列,利用自注意力機制,生成詞向量組,丟棄實體類別名稱對應的詞向量;用有向連接圖來建模詞之間的有向連接關系,使用詞向量組計算各個詞之間的有向連接圖,有向連接圖使用矩陣表示,輸出為矩陣表示的圖;步驟3:訓練模型M;步驟4:使用模型M進行預測;步驟5:對步驟4模型的輸出進行實體解析,具體為:接收模型M輸出的圖,從頭開始,遍歷整張圖,除了首符號直接連接到最后尾符號的路徑,每一條以首符號為開始,以最后的尾符號為結束的路徑對應的詞按路徑順序組合都是一個屬于該類別的實體,輸出為解析出的實體集合;其中:步驟2所述用有向連接圖來建模詞之間的有向連接關系,使用詞向量組計算各個詞之間的有向連接圖,具體為:如果一個詞為實體的開始,則建立一條句首符號連接到該詞有向邊;如果在一個實體中,一個詞B緊跟在詞A之后,則建立一條由詞A連接到詞B的有向邊;如果一個詞為實體的結束,則建立一條該詞連接到尾符號的有向邊;將除了首尾符號以外的詞稱為中間詞,對應的詞向量為中間詞向量;利用第一個詞向量和中間詞向量計算首符號和中間詞的連接關系,表示該中間詞開始實體的概率;利用任意兩個中間詞的詞向量計算兩個詞之間的連接關系;使用尾詞向量和中間詞的詞向量計算中間詞和句尾符號之間的連接關系,表示以該中間詞結束一個實體的概率;計算完成后,得到詞之間用矩陣表示的有向連接圖;所述訓練模型M,具體為:獲取標注好的數據集,數據集中的每一條數據包括文本t和標簽y,標簽y中記錄了該文本包含的所有實體類別以及對應的實體集合,如果文本t不包含任何類型的實體,則標簽y為空;將數據集轉換為訓練集:定義數據集中出現的所有實體類別名稱為集合S,設集合S包含n種實體類別名稱;對于數據集中的每一條數據t,y,t為文本,y為標簽,對于集合S中每一個類別s,如果標簽y中包含對應類別s的實體,即該文本t包含屬于類別s的實體非空集合e,以類別s以及對應的實體集合e作為標簽y′,將文本t和標簽y′作為訓練集中的一條數據;如果該文本t不包含屬于類別s的實體,以類別s以及對應的實體空集e′作為標簽y′,將文本t和標簽y′作為訓練集中的一條數據;使用訓練集對模型M進行多輪訓練,每一輪訓練包括:將訓練集的數據分為多批,每次從訓練集中抽取一批數據,對于取出的每一條數據,利用標簽中的實體集合生成該批數據的鄰接矩陣的真實值;對于一批數據中的每一條,使用步驟1文本預處理過程處理該條數據中的文本和標簽中的實體類別,生成輸入序列;將該輸入序列輸入模型,模型計算包括符號在內的所有詞之間的連接關系,輸出一個鄰接矩陣;最后利用模型預測的矩陣和標簽生成的真實值矩陣計算損失并根據損失更新模型的權重;所述使用模型M進行預測,具體為:輸入一條文本以在其中提取實體,不包含標簽及其他信息;選擇一個實體類別以確定要在該文本中搜索的實體類別;將文本和實體類別輸入步驟1文本預處理過程,得到輸入序列;將輸入序列輸入模型M,模型輸出一個鄰接矩陣表示的圖。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華東師范大學,其通訊地址為:200241 上海市閔行區(qū)東川路500號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。