恭喜粵港澳大灣區(qū)數字經濟研究院(福田)劉曉輝獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網恭喜粵港澳大灣區(qū)數字經濟研究院(福田)申請的專利一種文本結構化抽取方法、系統、終端及介質獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產權局授予,授權公告號為:CN119202144B 。
龍圖騰網通過國家知識產權局官網在2025-03-25發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202411748540.8,技術領域涉及:G06F16/334;該發(fā)明授權一種文本結構化抽取方法、系統、終端及介質是由劉曉輝;孫雙龍;謝育濤設計研發(fā)完成,并于2024-12-02向國家知識產權局提交的專利申請。
本一種文本結構化抽取方法、系統、終端及介質在說明書摘要公布了:本發(fā)明提供的一種文本結構化抽取方法、系統、終端及介質,具體涉及自然語言處理和信息檢索技術領域,方案包括:獲取目標文本的解析文本,基于解析文本添加索引編號并拼接,獲得目標拼接文本;根據多個文本獲得多個訓練數據集;利用多個訓練數據集對預設大語言模型進行微調,得到微調大語言模型;基于目標拼接文本通過微調大語言模型進行處理,生成目標文本的結構化內容。該方案將索引編號融入到文本段落中,能夠通過索引編號指向目標文本的關鍵信息,提高大語言模型對整篇文本結構進行準確且全面的理解能力,不僅能夠確保生成的目標文本的結構化內容保留文本中各個段落之間的層次結構,而且能夠提高目標文本的結構化內容的可讀性和準確性。
本發(fā)明授權一種文本結構化抽取方法、系統、終端及介質在權利要求書中公布了:1.一種文本結構化抽取方法,其特征在于,包括以下步驟:獲取目標文本的解析文本,基于所述解析文本添加索引編號并拼接,獲得目標拼接文本;根據多個文本獲得多個訓練數據集;利用所述多個訓練數據集對預設大語言模型進行微調,得到微調大語言模型;基于所述目標拼接文本通過所述微調大語言模型進行處理,生成所述目標文本的結構化內容;所述根據多個文本獲得多個訓練數據集,包括:根據所述多個文本得到拼接文本集;基于所述拼接文本集通過預設第一大語言模型,得到第一訓練數據集,其中所述第一訓練數據集包含多個第一訓練數據子集;基于所述拼接文本集和所述第一訓練數據集通過所述預設第一大語言模型,得到第二訓練數據集;根據所述拼接文本集構建第一提示集;基于所述第一提示集通過所述預設第一大語言模型,得到第三訓練數據集;所述基于所述拼接文本集通過預設第一大語言模型,得到第一訓練數據集,包括:基于所述拼接文本集中的每個拼接文本通過預設第一大語言模型,得到所述每個拼接文本的第一標題和所述第一標題的索引編號;更新所述每個拼接文本的第一標題和所述第一標題的索引編號,得到多個第一訓練數據子集;根據所述多個第一訓練數據子集,得到第一訓練數據集;基于所述目標拼接文本通過所述微調大語言模型進行處理,生成所述目標文本的結構化內容,包括:基于所述目標拼接文本通過微調大語言模型,得到目標拼接文本的結構化標題;根據所述目標拼接文本構建第三提示;將所述第三提示通過微調大語言模型,獲得所述目標拼接文本的所有抽取對象及每個提取對象的索引編號;對所述目標拼接文本、所述目標拼接文本的結構化標題、所述目標拼接文本的所有抽取對象及每個提取對象的索引編號進行處理,得到多個類型鍵值對;基于所有所述鍵值對,生成所述目標文本的結構化內容;對所述目標拼接文本、所述目標拼接文本的結構化標題、所述目標拼接文本的所有抽取對象及每個提取對象的索引編號進行處理,得到多個類型鍵值對,包括:基于所述目標拼接文本的標識符和所述目標拼接文本的內容構建第一鍵值對,其中將所述目標拼接文本的標識符作為所述第一鍵值對的鍵,所述目標拼接文本的內容作為所述第一鍵值對的值;基于所述目標拼接文本的結構化標題的標識符和所述目標拼接文本的結構化標題的內容構建第二鍵值對,其中將所述目標拼接文本的結構化標題的標識符作為所述第二鍵值對的鍵,所述目標拼接文本的結構化標題的內容作為所述第二鍵值對的值;基于所述目標拼接文本的所有抽取對象及所有提取對象的索引編號構建第三鍵值對,其中將所述目標拼接文本的所有抽取對象的標識符作為所述第三鍵值對的鍵,所有提取對象的索引編號作為所述第三鍵值對的值。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人粵港澳大灣區(qū)數字經濟研究院(福田),其通訊地址為:518045 廣東省深圳市福田區(qū)福保街道市花路長富金茂大廈1號樓39樓3901單元;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。