恭喜衡陽市山伊科技有限公司李建強獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜衡陽市山伊科技有限公司申請的專利一種基于句法依存關系的命名實體識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN111783461B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202010556881.0,技術領域涉及:G06F40/295;該發明授權一種基于句法依存關系的命名實體識別方法是由李建強;劉雅琦;白駿設計研發完成,并于2020-06-16向國家知識產權局提交的專利申請。
本一種基于句法依存關系的命名實體識別方法在說明書摘要公布了:本發明涉及一種基于句法依存關系的命名實體識別方法。在命名實體識別中,只有當模型所識別到的實體邊界和類型都與標注實體的邊界和類型相匹配,才算是真陽例TP。在大多數測試樣本中,假陽例FP和假陰例FN往往都是由于實體的邊界判斷不正確造成的,也就是說邊界識別比類型識別困難得多。本發明提出使用自注意力機制來削弱實體與實體以外單詞的聯系,并加強實體內部單詞之間的關系。具體的是在雙向長短期記憶網絡Bi?LSTM網絡之后,添加自注意力機制,把句法依存樹中單詞之間的依存關系編碼進上下文信息,最后根據Bi?LSTM網絡提供的全局特征以及句法依存樹提供的局部特征,共同來判斷實體邊界。本發明提高了命名實體識別的準確率。
本發明授權一種基于句法依存關系的命名實體識別方法在權利要求書中公布了:1.一種基于句法依存關系的命名實體識別方法,其特征在于,包括如下步驟:步驟S1,在模型訓練階段,首先用預訓練過的Word2vec把one-hot單詞向量映射到定義好的低維空間,得到每個單詞的詞向量;步驟S2,使用雙向長短期記憶網絡對句子中每個時間步的詞向量分別進行前向和后向的編碼,并拼接得到擁有上下文信息的全局特征;步驟S3,用句法分析技術得到每個句子的句法依存樹,計算樹上兩兩單詞之間的最短依賴路徑;步驟S4,根據最短依賴路徑得到每個單詞的自頂向下以及自底向上的特征序列并輸入LSTM網絡,計算得到單詞局部特征;步驟S5,通過局部特征點積來計算兩兩單詞之間的關系權重并進行歸一化;步驟S6,使用自注意力機制以歸一化的關系權重將單詞之間的局部關系特征融入全局特征中,得到融合特征;步驟S6中使用自注意力機制以歸一化的關系權重將單詞之間的局部關系特征融入全局特征中,得到融合特征包括:首先對Bi-LSTM1輸出的全局特征做一個線性變換,并左乘歸一化自注意力權重矩陣Q得到實體邊界信息增強的單詞特征S=QH1WvS∈RT×s,其中s為融合特征的長度,為線性變換參數矩陣;步驟S7,根據融合特征初步預測序列標簽,使用CRF對預測序列進行精修,得到最終標簽序列;步驟S8,在模型測試階段,使用上述步驟訓練好的網絡來進行命名實體識別;所述步驟S2中使用雙向長短期記憶網絡對句子中每個時間步的詞向量分別進行前向和后向的編碼,并拼接得到擁有上下文信息的全局特征包括:使用隱藏單元的個數為h1的雙向長短期記憶網絡Bi-LSTM1對給定時間步t的輸入xt進行前向和后向的編碼,并將該時間步正向隱藏狀態記為反向隱藏狀態記為然后,連結兩個方向的隱藏狀態和來得到隱藏狀態便是擁有給定時間步t上下文信息的全局特征,對于輸入序列{x1,x2,…xT},記Bi-LSTM1的輸出特征為所述步驟S3中用句法分析技術得到每個句子的句法依存樹,計算樹上兩兩單詞之間的最短依賴路徑包括:對于輸入樣本序列{w1,w2,…wT},使用依存語法分析技術對其進行句法分析,得到樣本序列的依存句法樹;對于輸入序列中任意兩個單詞a與b,他們之間的最短依存路徑SDP為{a,a1,...,am,c,bn,...,b1,b},其中c表示它們在依存句法樹中的最低共同祖先,a1,...,am表示SDP上a和c之間的單詞,b1,...,bn表示b和c之間的單詞;若a與b表示同一個單詞,則SDP記為{a,b};所述步驟S4中根據最短依賴路徑得到每個單詞的自頂向下以及自底向上的特征序列并輸入LSTM網絡,計算得到單詞局部特征包括:對于輸入文本序列{w1,w2,...wT}中任意兩個單詞a與b,他們之間的最短依存路徑SDP分為兩部分:自底向上的序列{a,a1,...,am,c}和{b,b1,...,bn,c};自頂向下序列{c,am,...,a1,a}和{c,bn,...,b1,b};若a與b表示同一個單詞,則SDP分為:{a};{b}兩部分;使用隱藏單元的個數為h2的雙向長短期記憶網絡Bi-LSTM2從這兩種序列中提取單詞之間的局部關系特征;每個LSTM2單元的輸入是兩個部分的串聯,由 表示,其中是單詞wt在Bi-LSTM1的輸出,embdt表示單詞wt及其依存句法樹上的支配詞之間的依存關系類型dt的分布式表達;前向LSTM2根據自底向上的序列{a,a1,...,am,c}和{b,b1,...,bn,c}計算得到前向隱藏狀態和后向LSTM2根據自頂向下序列{c,am,...,a1,a}和{c,bn,...,b1,b}計算得到后向隱藏狀態和連結兩個方向的隱藏狀態↑ht和↓ht來得到單詞wt的局部特征所述步驟S5中通過局部特征點積來計算兩兩單詞之間的關系權重并進行歸一化包括:對局部特征與局部特征做點積,得到單詞wi與單詞wj的關系緊密系數 按照相同的方法計算得到文本序列中兩兩單詞之間的關系緊密系數,將所有關系緊密系數整理為一個矩陣R∈RT×T,其中矩陣的第i行代表單詞wi與{w1,w2,...wT}中每一個單詞的關系緊密系數,然后按行對R進行歸一化得到自注意力權重矩陣Q=SoftmaxR。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人衡陽市山伊科技有限公司,其通訊地址為:421000 湖南省衡陽市高新區長豐大道電商產業園眾創空間0786號辦公室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。