恭喜南京中孚信息技術有限公司紀翀獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜南京中孚信息技術有限公司申請的專利文檔摘要的提取方法、系統、電子設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119131829B 。
龍圖騰網通過國家知識產權局官網在2025-05-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411629311.4,技術領域涉及:G06V30/42;該發明授權文檔摘要的提取方法、系統、電子設備及存儲介質是由紀翀;徐國龍;羅圣美;劉志遠;張建東設計研發完成,并于2024-11-15向國家知識產權局提交的專利申請。
本文檔摘要的提取方法、系統、電子設備及存儲介質在說明書摘要公布了:本發明實施例提供一種文檔摘要的提取方法、系統、電子設備及存儲介質,屬于導航技術領域。該方法包括:將待提取摘要的文檔解析為片段,生成片段集;并進行光學字符識別形成初步語義文本,并確定第一token序列;對片段集中的插圖進行圖像類型識別,形成結構描述文本,并確定第二token序列;識別待提取摘要的文檔的行業或領域標簽,并確定對應的編碼;將第一第二token序列及標簽對應的編碼輸入至預先構建的摘要提取模型,獲得摘要文本。基于循環神經網絡的圖文型文檔摘要生成方案,利用關鍵語義提取、文檔結構提取、文檔行業或領域識別,從企業文檔中提煉關鍵語義和關鍵插圖,形成圖文型的文檔摘要,其具有針對性,概括能力強。
本發明授權文檔摘要的提取方法、系統、電子設備及存儲介質在權利要求書中公布了:1.一種文檔摘要的提取方法,其特征在于,包括:將待提取摘要的文檔解析為片段,生成片段集;對片段集中的插圖進行光學字符識別,形成初步語義文本,并基于所述初步語義文本確定第一token序列;對片段集中的插圖進行圖像類型識別,形成結構描述文本,并基于所述結構描述文本確定第二token序列;識別待提取摘要的文檔的行業或領域標簽,并確定標簽對應的編碼;將所述第一token序列、所述第二token序列以及標簽對應的編碼輸入至預先構建的摘要提取模型,獲得摘要文本;其中,定義摘要提取模型的目標函數為: ;式中,n表示序列的長度,X表示第一token序列,D表示第二token序列,T表示標簽對應的編碼,log表示對數函數,表示摘要內容,表示t時刻之前的摘要內容、第一token序列X、第二token序列D以及標簽對應的編碼T的條件下,下一個token是的概率;其中,將所述第一token序列、所述第二token序列以及標簽對應的編碼輸入至預先構建的摘要提取模型,獲得摘要文本,包括:利用第一編碼器通過雙向長短期記憶單元將第一token序列轉換為第一隱藏表示;利用第二編碼器通過雙向長短期記憶單元將第二token序列轉換為第二隱藏表示;利用第三編碼器將標簽對應的編碼轉換為密集嵌入向量;利用第一注意力閱讀器單元,以t-1時刻的狀態作為查詢向量,以第一隱藏表示為健向量和值向量進行轉換,輸出語義上下文向量;利用第二注意力閱讀單元,t-1時刻的狀態作為查詢向量,以第二隱藏表示作為健向量和值向量進行轉換,輸出結構上下文向量;利用全連接單元將語義上下文向量、結構上下文向量以及密集嵌入向量連接為一個向量;利用第四解碼器,將全連接單元t-1時刻輸出的詞的向量、語義上下文向量、結構上下文向量以及標簽上下文向量作為輸入,更新t時刻的狀態。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京中孚信息技術有限公司,其通訊地址為:211800 江蘇省南京市浦口區江浦街道仁山路1號園區2號樓辦公室東側ER202室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。