恭喜中圖科信數智技術(北京)有限公司劉銘獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜中圖科信數智技術(北京)有限公司申請的專利一種文本摘要生成方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115905510B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211392513.2,技術領域涉及:G06F16/34;該發明授權一種文本摘要生成方法及系統是由劉銘;張鶴;李沄沨;許若華;田陽杰;吳冠昊;崔赫;候學杰;蔡欣達設計研發完成,并于2022-11-08向國家知識產權局提交的專利申請。
本一種文本摘要生成方法及系統在說明書摘要公布了:本發明是關于一種文本摘要生成方法及系統。該方法包括:對文本進行預處理;提取所述文本中的關鍵詞;采用BERTopic方法預訓練類標簽分類器,提取所述文本的類標簽;根據所述關鍵詞和類標簽對所述文本中的句子進行排名,提取排名靠前的關鍵句;結合所述關鍵句在所述文本中的位置信息進行重新排序,并根據排序結果輸出摘要。本發明提供的技術方案,基于信息論中的信息瓶頸技術,通過融合關鍵詞提取,聚類和預訓練語言模型的表示學習,對長文本進行自動通順摘要生成。不僅對任何領域的長文檔都有效,包括學術文章政府報告等,同時不需要人工構建訓練語料,且不依賴于文本的語言種類。
本發明授權一種文本摘要生成方法及系統在權利要求書中公布了:1.一種文本摘要生成方法,其特征在于,包括:對文本進行預處理;提取所述文本中的關鍵詞;采用BERTopic方法預訓練類標簽分類器,提取所述文本的類標簽;根據所述關鍵詞和類標簽對所述文本中的句子進行排名,提取排名靠前的關鍵句;結合所述關鍵句在所述文本中的位置信息進行重新排序,并根據排序結果輸出摘要;所述采用BERTopic方法預訓練類標簽分類器,提取所述文本的類標簽,具體包括:將預訓練語言模型BERT在所述文本上進行微調;利用微調好的BERT對所述文本進行向量表示;利用UMAP降維算法對所有文本向量進行降維處理,然后利用DBSCAN算法對降維后的文本向量進行聚類;根據聚類結果提取每個簇下面tfidf值超過預設閾值的詞語作為每個簇的類標簽;所述根據所述關鍵詞和類標簽對所述文本中的句子進行排名,提取排名靠前的關鍵句,具體包括:循環判斷所述文本中每個句子含有所述關鍵詞的數量并進行平滑操作得到的第一概率值,以及所述句子輸入所述類標簽分類器得到對應正確類標簽的第二概率值,將所述第一概率值和第二概率值相乘得到該句子的選擇值;提取選擇值排名靠前的句子作為關鍵句;所述結合所述關鍵句在所述文本中的位置信息進行重新排序,并根據排序結果輸出摘要,具體包括:從位置靠前的句子依次向位置靠后的句子進行滑動,通過BERT計算每兩個位置之間的句子連貫值,該連貫值是BERT中下句話預測策略的附屬輸出結果;基于所有的連貫值進行beam檢索,得出不同的檢索路徑;對beam檢索的結果進行排序,挑選出排名最靠前的句子路徑;按照挑選出的句子路徑輸出相應的句子,作為所述文本的摘要。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中圖科信數智技術(北京)有限公司,其通訊地址為:100043 北京市石景山區石景山路68號金安橋1號樓二層215;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。