恭喜浙江工業大學徐新黎獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江工業大學申請的專利一種中文醫學實體關系聯合抽取方法和系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114036934B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111203313.3,技術領域涉及:G06F40/279;該發明授權一種中文醫學實體關系聯合抽取方法和系統是由徐新黎;尹晶;王萬良;管秋設計研發完成,并于2021-10-15向國家知識產權局提交的專利申請。
本一種中文醫學實體關系聯合抽取方法和系統在說明書摘要公布了:一種中文醫學實體關系聯合抽取方法,包括:醫療關系嵌入表示模塊、醫療文本中頭實體和尾實體的頭尾位置獲取模塊、醫療文本字詞向量及其相對距離計算模塊、詞匯增強后的字向量輸出模塊、醫療文本的關系預測模塊、醫療文本的字符對向量生成模塊、主謂賓三元組輸出模塊、聯合抽取模型訓練模塊、聯合抽取模型的F1分數計算模塊、循環訓練聯合抽取模型模塊、醫療文本實體關系獲取模塊。本發明還包括一種中文醫學實體關系聯合抽取系統。本發明解決了中文醫療文本中復雜語句的實體嵌套和關系重疊問題,緩解了TPLinker解碼矩陣的稀疏,提升了聯合抽取模型的收斂速度,通過詞匯增強編碼單元緩解了中文醫療文本中存在許多專業詞匯即使結合上下文也無法準確識別的難題。
本發明授權一種中文醫學實體關系聯合抽取方法和系統在權利要求書中公布了:1.一種中文醫學實體關系聯合抽取方法,其特征在于:包括如下步驟:步驟一:準備待抽取實體關系的中文醫療文本Text,根據給定的本體約束集合,本體約束集合包括關系名稱、頭實體類型和尾實體類型,使用中文BERT模型,將每個關系名稱表示成嵌入向量,得到關系的語義信息,表示為關系嵌入C={c1,c2,...,cl},其中l為關系總數;步驟二:獲取已標注的中文醫療信息抽取數據集Data,中文醫療信息抽取數據集Data包括各個醫療文本的關系名稱、頭實體和尾實體的名稱及類型,對Data進行預處理,得到每個醫療文本中頭實體和尾實體的頭尾位置;步驟三:基于Flat_Lattice結構對Text和Data進行詞匯增強,計算它們各個醫療文本中任意兩個字或者詞向量的4個相對距離,得到各個醫療文本字或者詞向量及其相對距離矩陣,具體過程如下:3.1對Text和Data的各個醫療文本分別使用中文的BERT模型得到各自的字向量;3.2獲取預訓練好的中文生物醫學詞向量,將Text和Data的各個醫療文本分別與中文生物醫學詞向量的詞表進行匹配,識別出與詞表有交集的詞語進行詞匯增強,得到Text和Data的各個醫療文本的詞語向量;3.3對Text和Data中每個醫療文本的字向量、詞語向量進行頭尾位置編碼,得到字、詞的開始及結束位置,使用Flat_Lattice中的相對位置編碼技術得到任意兩個字或者詞向量xi和xj之間的4個相對距離和放入相對距離矩陣,其中表示xi的開始位置到xj的開始位置的距離,表示xi的開始位置到xj的結束位置的距離,表示xi的結束位置到xj的開始位置的距離,表示xi的結束位置到xj的結束位置的距離;步驟四:從Data中取一批訓練數據集,將其醫療文本的字或者詞向量Z和位置編碼向量R輸入Transformer-XL編碼器得到醫療文本詞匯增強后的字向量H={h1,h2,…,hn},n為醫療文本的長度,Transformer-XL編碼器由自注意力層和前饋層2個子層組成,每個子層之后接殘差連接和層標準化,任意兩個字或者詞向量xi和xj之間的位置編碼Rij由4個相對距離和以絕對位置編碼形式拼接后經過一個激活函數為ReLU的全連接得到: 其中,Wr是待訓練的參數,Pd采用絕對位置編碼,d指代和基于位置編碼向量R的自注意力機制如下:AttentionA*,V=SoftmaxA*V, [Q,K,V]=Ex[Wq,Wk,Wv],其中Wq,Wk,Z,Wk,R,u,v,Wk,Wv都是待訓練的參數;步驟五:根據關系嵌入C和Transformer-XL編碼器輸出的醫療文本字向量H預測關系,得到預測關系列表,具體過程如下:5.1將H輸入兩個全連接得到自注意力值As,其中第一個全連接使用tanh激活函數,第二個全連接使用softmax激活函數,根據As計算基于自注意力機制的醫療文本表示Ms:As=softmaxW2tanhW1H,Ms=AsHT,其中W1和W2是待訓練的參數;5.2根據C和H計算關系注意力值Al和基于關系注意力機制的醫療文本表示Ml:Al=CH,Ml=AlHT;5.3通過注意力融合機制,將Ms和Ml分別輸入一個使用sigmoid激活函數的全連接得到α和β,由α+β=1對α和β進行約束,融合得到M:α=sigmoidMsW3,β=SigmoidMlW4,M=αMs+βMl,其中W3和W4是待訓練的參數;5.4將M輸入兩個全連接得到關系標簽的預測概率第一個全連接使用ReLU激活函數,第二個全連接使用sigmoid激活函數: 其中,W5和W6是待訓練的參數,如果大于閾值0.5,就加入預測關系列表;步驟六:將Transformer-XL編碼器輸出的醫療文本的每兩個字向量hi和hj拼接后作一個全連接,得到字符對向量hij: 其中激活函數使用的是tanh,Wh和bh是待訓練的參數;步驟七:通過融合特定關系嵌入的TPLinker解碼器解碼得到主謂賓三元組,用EH-to-ET標記實體的頭尾字符,用SH-to-OH標記關系頭尾實體的頭字符,用ST-to-OT標記關系頭尾實體的尾字符,其中,EH-to-ET、SH-to-OH和ST-to-OT解碼器由一個相同的全連接實現: 其中,表示字符對hij被標記的預測值,kq表示第q個關系的嵌入,Wt、bt是待訓練的參數,激活函數使用的是softmax,具體過程如下:7.1解碼EH-to-ET得到醫療文本中的所有實體及其頭字符;7.2對于預測關系列表中的每個關系,解碼ST-to-OT得到頭尾實體的尾字符對,將尾字符對和關系存入集合O中,同時解碼SH-to-OH得到頭尾實體的頭字符對,將頭字符對和所有實體的頭字符進行匹配,找到頭字符對對應的頭尾實體存入集合S中;7.3判斷S中每對頭尾實體的尾字符對是否在O中,如果是,那么確定該三元組為頭實體,關系,尾實體;步驟八:計算總的損失函數L,并通過反向傳播算法進行聯合訓練,得到聯合抽取模型:L=Lrel+Ltp, 其中Lrel是關系預測的損失函數,第q個關系的真實值第q個關系的預測值Ltp是加入關系預測后的損失函數,E、H和T分別表示EH-to-ET、SH-to-OH和ST-to-OT,表示字符對hij被標記的預測值,yijq表示字符對hij被標記的真實值,表示解碼第q個關系時,字符對hij被標記為yijq的概率,表示預測得到的關系數,是根據給定的本體約束集合,找到的預測關系對應的頭尾實體類型數,為預測得到的實體類型數;步驟九:從Data中取驗證數據集,將其醫療文本的字或者詞向量及其相對距離矩陣輸入聯合抽取模型,計算聯合抽取模型的F1分數: 其中precision為精確率,recall為召回率;步驟十:重復步驟四到九,直到超過預定的F1分數,保存聯合抽取模型;步驟十一:將Text的各個醫療文本詞匯增強后的字或者詞向量及其相對距離矩陣輸入聯合抽取模型,得到實體關系三元組。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江工業大學,其通訊地址為:310014 浙江省杭州市拱墅區潮王路18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。