恭喜杭州原數科技有限公司楊利獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜杭州原數科技有限公司申請的專利一種基于知識圖譜的數據整合方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN118333059B 。
龍圖騰網通過國家知識產權局官網在2025-04-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202410518299.3,技術領域涉及:G06F40/295;該發明授權一種基于知識圖譜的數據整合方法是由楊利;金海武;鄭熳設計研發完成,并于2024-04-28向國家知識產權局提交的專利申請。
本一種基于知識圖譜的數據整合方法在說明書摘要公布了:本申請公開了一種基于知識圖譜的數據整合方法,涉及知識圖譜技術領域,包括:將文本數據輸入到基于Prompt的大語言模型中;Qwen?14B預訓練模型采用自注意力機制對輸入的文本數據進行編碼,生成詞語和句子級別的語義向量;根據生成的語義向量,獲取實體和關系;抽取主語-謂語?賓語三元組SPO形式的結構化知識;將SPO映射為圖數據庫Neo4j的知識圖譜,采用Neo4jCypher語句,將SPO中的主語和賓語實體映射為節點;將SPO中的謂語關系映射為節點間的關系;采用基于Neo4j的圖存儲引擎,將映射得到的知識圖譜存儲到圖數據庫中,圖數據庫采用鄰接表結構;利用知識圖譜進行數據整合。針對現有技術中數據整合效率低的問題,本申請提高了非結構化文本數據的整合效率。
本發明授權一種基于知識圖譜的數據整合方法在權利要求書中公布了:1.一種基于知識圖譜的數據整合方法,包括:獲取非結構化的文本數據;將獲取的文本數據輸入到基于Prompt的大語言模型中進行特征提取;其中,大語言模型采用通義千億級別參數的Qwen-14B預訓練模型,采用自注意力機制對輸入的文本數據進行編碼,生成詞語和句子級別的語義向量;根據生成的語義向量,采用命名實體識別算法識別文本中的實體;通過依存句法和語義角色標注方法獲取實體間的關系;根據獲取的實體和關系,抽取主語-謂語-賓語三元組SPO形式的結構化知識;將抽取出的三元組SPO映射為圖數據庫Neo4j的知識圖譜,采用Neo4jCypher語句,將三元組SPO中的主語和賓語實體映射為節點,節點的屬性包含實體名詞和實體類型的元數據;將三元組SPO中的謂語關系映射為節點間的關系,關系的屬性包含關系類型和關系強度的元數據;采用基于Neo4j的圖存儲引擎,將映射得到的知識圖譜存儲到圖數據庫中,圖數據庫采用鄰接表結構,將節點和關系分別存儲;利用存儲知識圖譜的圖數據庫進行數據整合;獲取實體間的關系,包括:將語義向量作為A2,作為Stack-Pointer網絡的輸入;Stack-Pointer網絡由堆棧式的LSTM層和指針式的注意力層組成,堆棧式的LSTM層將輸入的特征向量序列A2壓入堆棧并編碼成隱藏狀態,指針式的注意力層根據堆棧的隱藏狀態計算每個詞語的頭詞索引和依存標簽的概率分布;頭詞索引表示每個詞語在句法依存樹中的父節點在輸入序列中的位置索引;采用轉移式的解碼算法對Stack-Pointer網絡的輸出進行解碼,轉移式的解碼算法通過轉移操作和棧操作在輸入的特征向量序列A2上進行移動和彈出,并根據注意力層的概率分布選擇頭詞索引和依存標簽,得到每個詞語的頭詞索引和依存標簽;根據每個詞語的頭詞索引和依存標簽構建句法依存樹,句法依存樹中的節點表示詞語,有向邊表示詞語間的依存關系,邊的方向表示依存關系的方向,邊的標簽表示依存關系的類型;獲取實體間的關系,還包括:將提取的特征向量序列A2中的詞性特征向量序列和構建的句法依存樹作為Bi-LSTM網絡的輸入,句法依存樹提供詞語間的句法結構信息,詞性特征向量序列提供詞語的句法屬性信息;將句法依存樹和詞性特征向量序列輸入到Bi-LSTM網絡中,通過雙向LSTM層從句法結構和句法屬性學習詞語的語義角色表示,雙向LSTM層的輸出向量序列融合了句法結構和句法屬性的上下文信息;將雙向LSTM層的輸出向量輸入到多層感知機中,通過多層感知機對每個詞語的語義角色進行分類,多層感知機的輸出是每個詞語屬于不同語義角色類型的概率分布;獲取實體間的關系,還包括:將多層感知機的輸出概率轉換為語義角色標注的發射矩陣,發射矩陣的行表示詞語,列表示BIO標簽,元素表示詞語被標注為對應BIO標簽的概率;定義語義角色標注的轉移矩陣,轉移矩陣的行和列表示BIO標簽,元素表示前一個BIO標簽轉移到后一個BIO標簽的概率,轉移概率根據語料庫中語義角色標注的先驗知識進行估計;采用維特比算法在發射矩陣和轉移矩陣上進行解碼,維特比算法通過動態規劃找到概率最大的BIO標簽序列,動態規劃的狀態為每個位置的BIO標簽,狀態轉移為前一個位置的BIO標簽到后一個位置的BIO標簽,狀態轉移概率為轉移矩陣的元素,發射概率為發射矩陣的元素,通過狀態轉移概率和發射概率的乘積計算每個狀態序列的得分,并記錄狀態序列的回溯指針;根據回溯指針獲得概率最大的BIO標簽序列,將BIO標簽序列中連續的相同類型的BIO標簽合并為論元的邊界,論元的邊界由B標簽和I標簽的確定,將論元邊界內的詞語作為候選論元;根據BIO標簽的類型確定候選論元的語義角色類型,BIO標簽的類型包含語義角色的類型信息,將候選論元的語義角色類型和對應的中心詞語的語義角色類型進行匹配,過濾不匹配的候選論元,得到每個詞語所屬的語義角色論元和類型;將候選論元的語義角色類型和對應的中心詞語的語義角色類型進行匹配,過濾不匹配的候選論元,得到每個詞語所屬的語義角色論元和類型,包括:根據句法依存樹和論元邊界,確定每個候選論元的中心詞語,中心詞語表示候選論元依存的詞語;根據語義角色標注的詞典和語料庫,獲取每個中心詞語的語義角色類型,詞典定義了每個詞語的語義角色類型,語料庫通過統計方法獲取每個詞語擔任不同語義角色類型的頻率和概率;計算候選論元的語義角色類型和對應的中心詞語的語義角色類型之間的余弦相似度;設置相似度閾值,過濾低于閾值的候選論元,保留高于閾值的候選論元作為最終的語義角色論元;對于每個詞語,將所屬的語義角色論元和類型進行組合,形成詞語-論元-類型的三元組,作為對應詞語在句子中的語義角色標注結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人杭州原數科技有限公司,其通訊地址為:311100 浙江省杭州市余杭區倉前街道向往街1008號10幢401室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。