恭喜大連大學王穎潔獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜大連大學申請的專利基于增強序列特征的中文法律文書命名實體識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114912453B 。
龍圖騰網通過國家知識產權局官網在2025-04-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210549703.4,技術領域涉及:G06F40/295;該發明授權基于增強序列特征的中文法律文書命名實體識別方法是由王穎潔;張程燁;汪祖民設計研發完成,并于2022-05-20向國家知識產權局提交的專利申請。
本基于增強序列特征的中文法律文書命名實體識別方法在說明書摘要公布了:本發明公開了基于增強序列特征的中文法律文書命名實體識別方法,包括:將待識別法律文書中的句子作為字符序列進行處理,對句子中每個字符的拼音、字形和筆畫三個特征進行提取,得到字特征向量,所述字特征向量融合預訓練詞典,得到增強的字特征向量;使用所述增強的字特征向量,對字符序列中的潛在詞語進行表示,并標識詞語位置信息和長度;設置融合過濾器F,對各個長度的詞語進行篩選和融合,得到相同長度的特征向量;使用注意力機制,將字符級特征融入所述,進而得到融合字詞的特征向量;所述融合字詞的特征向量輸入至改進的Transformer法律文書實體抽取模型中,提取所述待識別法律文書中的實體特征序列。本發明大幅提高了實體識別的準確率。
本發明授權基于增強序列特征的中文法律文書命名實體識別方法在權利要求書中公布了:1.基于增強序列特征的中文法律文書命名實體識別方法,其特征在于,包括:將待識別法律文書中的句子S=[c1,c2,...,cn-1,cn]作為字符序列進行處理,對句子中每個字符ci的拼音、字形和筆畫三個特征進行提取,得到字特征向量,所述字特征向量融合預訓練詞典,得到增強的字特征向量使用所述增強的字特征向量,對字符序列中的潛在詞語進行表示,并標識詞語位置信息和長度;設置融合過濾器F,對各個長度的詞語進行篩選和融合,得到相同長度的特征向量使用注意力機制,將字符級特征融入所述特征向量進而得到融合字詞的特征向量具體為:首先設定融合過濾器F的窗口大小,對于各個長度的詞語,使用softmax函數對其進行篩選和融合,得到相同長度詞語的特征向量其中SL-1[*,m:m+1],FL-1K為克羅內克積運算;SL-1表示詞長度為L-1的序列,[*,m,m+1]表示對每兩個相鄰的列進行計算,m表示當前的列數,范圍為[0,d-1],d為該長度詞向量的個數,bL-1表示詞長度為L-1的偏移量,上標K是克羅內克積運算符的表示形式;使用注意力機制,將字符級特征融入所述特征向量得到融合字詞的特征向量其中和為哈達瑪積運算;為輸入控制向量,為特征控制向量,um為輸出控制向量:其中 Wi為輸入權重矩陣,Wf為特征權重矩陣,bi為輸入偏移補償量,bf為特征偏移補償量,Ui為輸入注意力權重矩陣,Uf為特征注意力權重矩陣;表示長度為L-1的潛在詞語;所述融合字詞的特征向量輸入至改進的Transformer法律文書實體抽取模型中,提取所述待識別法律文書中的實體特征序列改進的Transformer法律文書實體抽取模型包括一個編碼器層、一個解碼器層和一個注意力層;將融合字詞的特征向量輸入到編碼器層,所述編碼器層包括淺層的預訓練CNN網絡和兩層Bi-LSTM神經網絡,在CNN網絡的輸出與最后一層Bi-LSTM神經網絡的輸出之間建立一個殘差連接,得到編碼器層的輸出特征向量其中CNN網絡用于提取融合字詞向量的基本特征,Bi-LSTM網絡用于提取融合字詞向量的上下文信息;在解碼器層,將預定義的標簽序列進行向量化嵌入處理,再經過兩層LSTM神經網絡進行信息提取,得到解碼器層的輸出特征向量然后將編碼器層與解碼器層的輸出特征向量進行維度拼接,再加上其位置編碼的計算值pn,共同作為注意力層的輸入其中在注意力層,使用殘差注意力機制學習權重分布系數,加強對關鍵字詞的關注,捕獲輸入文本的序列特征同時采用并行計算方式,縮短模型訓練時間;所述注意力層輸出特征信息向量
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人大連大學,其通訊地址為:116622 遼寧省大連市經濟技術開發區學府大街10號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。