恭喜浪潮軟件科技有限公司王珂琛獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浪潮軟件科技有限公司申請的專利一種知識圖譜賦能大模型知識庫的方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN118733790B 。
龍圖騰網通過國家知識產權局官網在2025-03-25發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411215565.1,技術領域涉及:G06F16/36;該發明授權一種知識圖譜賦能大模型知識庫的方法及裝置是由王珂琛;林杰;李照川;趙燁;王金超;郭鳳;代吉仁;吳婷婷設計研發完成,并于2024-09-02向國家知識產權局提交的專利申請。
本一種知識圖譜賦能大模型知識庫的方法及裝置在說明書摘要公布了:本發明涉及知識庫領域,具體提供了一種知識圖譜賦能大模型知識庫的方法及裝置,S1、將文件導入知識存儲模塊,加載文檔中文本信息,設置相似度閾值threshold,完成文檔切片;S2、加載Embedding模型;S3、加載Extractor模型;S4、輸入問題,完成query預處理;S5、設定Top?K的數值,召回相似度最高的Top?K個文本切片待用;S6、設定Top?N的數值,提取三元組信息待用;S7、將召回的文本切片和三元組信息融合形成提示詞Prompt,輸入給大模型進行推理;S8、大模型經過推理后,生成回復。本發明能夠增強知識庫輸出內容的穩定性和準確性,并提高知識的可解釋性和可溯源性。
本發明授權一種知識圖譜賦能大模型知識庫的方法及裝置在權利要求書中公布了:1.一種知識圖譜賦能大模型知識庫的方法,其特征在于,所述知識庫分為知識存儲模塊和知識問答模塊,具有如下步驟:S1、將文件導入知識存儲模塊,加載文檔中文本信息,設置相似度閾值threshold,完成文檔切片;將文件導入知識存儲模塊,加載文檔中文本信息,設置相似度閾值threshold,利用BERT模型按照文本順序,從前向后依次判斷相鄰兩個段落的相似度分數是否大于threshold;如果大于,則將兩個段落合并為一段;否則切開,最終形成多層文檔切片;S2、加載Embedding模型,將文檔切片向量化并存儲;加載Embedding模型,將文檔切片輸入模型中,將文檔中的高維度數據映射到低維度空間轉化為數值向量,并且語義相近的詞,在向量空間上具有相似的位置,實現降維存儲;S3、加載Extractor模型,提取文檔切片中三元組信息,寫入圖數據庫,完成圖存儲;進一步包括:S3.1、對文檔片段中文本信息進行標準化處理,統一字符編碼為UTF-8,通過搜索文檔中的字符編碼,篩選出制表符、換行符、空格、空白行及與文本無關的特殊符號并移除,完成對文檔切片的清洗,去除無關的格式化標記、噪聲數據;S3.2、使用自然語言處理工具對文本內容進行分詞,將文本分割成詞組,對于具有定制化含義的關鍵詞,通過導入自定義關鍵詞詞典的方式對特殊詞語進行自定義規范,自定義關鍵詞詞典的建立格式為(詞語,詞性),然后導入自定義停用詞詞典,去除文本中的停用詞;S3.3、加載預訓練的Extractor模型,使用標注的數據集對模型進行微調訓練,然后利用訓練好的Extractor模型對文檔進行實體識別,提取以名詞為主的實體,并獲得提取實體的屬性信息,進一步抽取實體之間的關系,以動詞、描述性語句為主,完成對文檔的實體識別、關系抽取及屬性提取;S3.4、根據抽取到的實體、關系、屬性,構建出“實體-關系-實體”或“實體-屬性-值”形式的三元組,并進行重復信息合并和人工檢驗;S3.5、在圖數據庫中定義節點、邊及屬性,并將構建好的三元組導入圖數據庫中,形成圖形結構并保存;S4、輸入問題query,完成query預處理;在知識問答模塊中,針對輸入的問題query,用Embedding模型對query進行向量化表示,用Extractor模型提取query中的實體關鍵詞;S5、設定Top-K的數值,召回相似度最高的Top-K個文本切片待用;設定Top-K的數值,使用余弦相似度計算方法計算query向量與向量存儲中的切片向量間的相似度,根據相似度大小進行排序,召回相似度最高的Top-K個文本切片待用;S6、設定Top-N的數值,遍歷圖存儲數據,搜索出Top-N跳以內的子圖,提取三元組信息待用;設定Top-N的數值,基于提取的實體關鍵詞利用搜索算法遍歷圖存儲數據,搜索出Top-N跳以內的子圖,提取其實體、實體關系三元組信息,格式化為文本待用;S7、將召回的文本切片和三元組信息融合形成提示詞Prompt,輸入給大模型進行推理;具體包括:假設輸入的問題query用Q表示,將文本切片內容A生成提示詞片段“問題所涉及的文本切片內容‘A’”,將三元組信息格式化為文本后內容B生成提示詞片段“問題所涉及實體、實體關系‘B’”,最后形成提示詞內容為“請根據問題所涉及的文本切片內容‘A’和問題所涉及實體、實體關系‘B’反饋問題Q的回答,反饋內容要嚴格遵守‘B’中的實體和實體關系”;如果大模型推理過程中發現無法從輸入的提示詞中回答輸入的問題query,則啟動追問機制,反饋追問問題,通過多輪引導用戶輸入問題細節來明確用戶問題從而重復步驟S2至S7操作得到合適的答案;S8、大模型經過推理后,生成回復。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浪潮軟件科技有限公司,其通訊地址為:250000 山東省濟南市高新區浪潮路1036號浪潮科技園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。