恭喜北京計算機技術及應用研究所劉琦獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜北京計算機技術及應用研究所申請的專利一種基于門控主題模型的無監督關鍵詞抽取方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN117390157B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202311341725.2,技術領域涉及:G06F16/3329;該發明授權一種基于門控主題模型的無監督關鍵詞抽取方法是由劉琦;楊雨婷;余增文;賀垚;范昕煜;田宗凱;趙勤博設計研發完成,并于2023-10-17向國家知識產權局提交的專利申請。
本一種基于門控主題模型的無監督關鍵詞抽取方法在說明書摘要公布了:本發明涉及一種基于門控主題模型的無監督關鍵詞抽取方法,屬于人工智能、大數據、自然語言處理領域。本發明提出了一種語義自適應的文檔語義表示方法,在整個語料庫上訓練一個神經主題模型來挖掘該領域的相關主題,并采用門控機制對文檔主題進行獨立加權,使具有較高語義豐富度的文檔被分配相對更多的主題;利用文檔主題信息設計了一種新的關鍵詞評分算法,同時考慮了主題相似度與主題重要度對關鍵詞評判的影響。通過這兩方面因素的折衷,避免了對文本核心主題的過度關注,從而提高了所抽取關鍵詞的多樣性。
本發明授權一種基于門控主題模型的無監督關鍵詞抽取方法在權利要求書中公布了:1.一種基于門控主題模型的無監督關鍵詞抽取方法,其特征在于,該方法包括如下步驟:步驟一:分詞及詞性標注在對輸入文本編碼之前,需要先對原始的自然語言文本數據進行預處理;步驟二:名詞短語抽取基于POS標注結果,只保留了原文本中的名詞性短語作為候選關鍵詞;步驟三:文檔編碼及候選詞表示基于GloVe嵌入對文檔單詞和候選關鍵詞進行編碼以獲取詞嵌入表示;步驟四:主題建模S41、首先,對于語料庫中任意一篇文檔d,利用步驟三中得到的詞嵌入構造d的上下文向量表示zd;S42、從主題建模的角度出發,采用門控機制來分配文檔d的主題,文檔表示為主題嵌入的加權求和,進而將文檔上下文表示zd重構為另一種表示主題表示形式S43、在得到了文檔上下文向量表示zd及其主題表示rd之后,采用對比學習策略對模型參數進行優化,對比學習的目標為最小化損失函數S44、以最小化為目標對主題模型進行訓練,在整個語料庫上抽取一組主題表示MT={m1,m2,…,mK},并確定每篇輸入文檔關于這K個主題的權重向量pd={w1,w2,…,wk};步驟五:關鍵詞抽取同時考慮主題相似度與主題重要度對關鍵詞評判的影響,對于每個候選詞npi,計算得到其關于K個主題的得分,npi的最終得分為這K個得分的最大值,根據最終得分對所有候選詞進行排序,并抽取排名靠前的N個候選詞作為文檔d的關鍵詞。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京計算機技術及應用研究所,其通訊地址為:100854 北京市海淀區永定路51號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。