恭喜浙江工業大學張元鳴獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江工業大學申請的專利一種句法信息注意力引導的圖卷積網絡關系抽取方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114692602B 。
龍圖騰網通過國家知識產權局官網在2025-04-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210290585.X,技術領域涉及:G06F40/211;該發明授權一種句法信息注意力引導的圖卷積網絡關系抽取方法是由張元鳴;楊偉杰;肖剛;陸佳煒;王琪冰;王自立;林正;王學斌設計研發完成,并于2022-03-23向國家知識產權局提交的專利申請。
本一種句法信息注意力引導的圖卷積網絡關系抽取方法在說明書摘要公布了:本發明公開了一種句法信息注意力引導的圖卷積網絡關系抽取方法,包括以下步驟:1基于BERT預訓練模型的字向量表示;2基于雙向長短期記憶網絡來對每個單詞進行上下文編碼,得到包含上下文信息的每個單詞的向量表示;3融合句法依賴類型信息的圖卷積網絡詞節點特征表示;4通過得到的句子向量的特征表示進行關系抽取。本發明在關系抽取模型建模中考慮了依存類型信息,提高了關系抽取模型的性能。
本發明授權一種句法信息注意力引導的圖卷積網絡關系抽取方法在權利要求書中公布了:1.一種句法信息注意力引導的圖卷積網絡關系抽取方法,其特征在于,包括以下步驟:1基于BERT預訓練模型的字向量表示:BERT通過聯合調節所有層中的雙向Transformer來預訓練深度雙向表示,利用BERT的BertModel類構造BERT結構,然后將輸入的自然語言文本序列輸入到BERT特征表示層中,對文本中的每個單詞進行編碼得到單詞的向量表示:x=x1,x2,x3…xn12biLSTM上下文編碼:首先將輸入的單詞向量輸入到一個雙向長短期記憶網絡中,生成上下文表示,然后在模型中作為圖卷積網絡的輸入計算如下:it=σWixxt+Wihht-1+bi2ft=σWfxxt+Wfhht-1+bf3ot=σWoxxt+Wohht-1+bo4 其中,W、b分別表示連接兩層的權重矩陣和偏置向量,σ是sigmoid激活函數,為點乘運算,xt為輸入向量,it,ft和ot分別為t時刻的輸入門、遺忘門和輸出門,表示t時刻的狀態,ht則為t時刻隱藏層的輸出;對輸入序列分別采用順序和逆序的方式計算后得到兩種不同的隱藏層表示和然后通過向量拼接的方式得到最終的隱藏層表示,也就是圖卷積層的輸入表示,公式如下: 3融合句法依賴類型信息的圖卷積網絡詞節點特征表示:將依賴關系類別引入到圖注意力網絡中,利用具有大量有用信息的依賴關系類型,通過注意力機制,根據依賴關系計算不同依賴邊的權重,讓模型能夠區分不同的依賴邊的重要性;3.1構建句法依存樹:對于輸入的句子,通過StanfordParser工具對句子進行句法依存分析,生成句子對應的句法依存樹;3.2構建依賴類型矩陣:首先根據構建的句法依存樹,采用一個鄰接矩陣A=Aijn*n來表示依存樹,其中Aij表示單詞xi和單詞xj是否存在依賴邊,若存在則Aij=1,若不存在則Aij=0,然后根據鄰接矩陣A,構建依賴類型矩陣T=ti,jn*n,其中ti,j表示單詞xi和單詞xj之間的依賴關系類型,將矩陣T中的每個關系類型ti,j映射到對應的向量表示3.3依賴邊權重計算:在圖卷積網絡GCN第l層,單詞xi和單詞xj之間的依賴邊的權重計算如下: 其中,·表示內積運算符,和是單詞xi和單詞xj的中間向量,它們的計算如下: 其中,表示向量拼接操作;其中和分別表示l-1層單詞xi和單詞xj的輸出表示;3.4圖卷積網絡節點特征表示:將得到的作為單詞xi和單詞xj之間的依賴邊的權重,通過圖卷積操作得到每個單詞xi輸出表示,計算如下: 其中,在第l層圖卷積中,Wl是為權重矩陣,bl是一個偏置向量,σ是一個ReLU激活函數,表示融合了依賴類型信息的單詞xj的表示,計算方式如下: 其中,的作用就是將依賴類型向量變成與相同維度的向量;4關系抽取:4.1最大池化層降維:在進行關系抽取前,首先將句子X=x1,x2,…,xn-1,xn通過BERT進行詞嵌入得到每個詞的向量表示xi,并將其輸入到GCN中,經過L層的圖卷積操作之后得到句子X對應的特征向量表示然后將整句句子的表示以及兩個實體的表示和送入一個最大池化層進行降維,計算如下: 其中E1,E2分別表示需要抽取關系的兩個實體;4.2關系預測:將得到的句子表示hx和兩個實體的表示hE1,hE2通過一個可訓練得到的矩陣WR進行如下處理;最后,通過一個softmax分類器從關系集合Y中預測句子中實體E1和E2的關系類別,計算如下: 其中bR表示一個偏置向量; 4.3最小化損失函數:利用帶L2正則項的負對數似然函數作為損失函數: 其中,L2正則項度量的是各個系數的絕對值大小,將其作為懲罰項加入損失函數,迫使最優解的各系數接近0,m代表樣本的個數,t是關系類別的one-hot向量,是softmax的輸出類別概率向量,λ是正則化參數,θ是關系抽取模型的訓練參數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江工業大學,其通訊地址為:310014 浙江省杭州市拱墅區潮王路18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。