恭喜哈爾濱工業大學趙鐵軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜哈爾濱工業大學申請的專利一種基于圖模型和詞嵌入模型的關鍵詞抽取方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115034216B 。
龍圖騰網通過國家知識產權局官網在2025-05-13發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210606979.1,技術領域涉及:G06F40/289;該發明授權一種基于圖模型和詞嵌入模型的關鍵詞抽取方法是由趙鐵軍;郭常江;朱聰慧;楊沐昀;曹海龍;徐冰設計研發完成,并于2022-05-31向國家知識產權局提交的專利申請。
本一種基于圖模型和詞嵌入模型的關鍵詞抽取方法在說明書摘要公布了:本發明提出了一種基于圖模型和詞嵌入模型面向新聞領域的關鍵詞抽取方法,本發明首先需要將新聞文本進行清洗,去除其中無用信息;然后通過文本處理模塊,得到新聞文本中的潛在關鍵詞和詞頻信息;之后采用圖模型和預訓練的詞嵌入模型對關鍵詞進行語義空間映射,最后融合前述兩個模型對關鍵詞的排序分布獲得最后關鍵的分布,從而獲得新聞文本關鍵詞;本發明能夠改進新聞文本關鍵詞提取的精度,進一步提高輿情分析系統在針對新聞文本分析時內容檢索的準確性,更為全面地覆蓋新聞文本的主要信息,節省人工復核的時間。
本發明授權一種基于圖模型和詞嵌入模型的關鍵詞抽取方法在權利要求書中公布了:1.一種基于圖模型和詞嵌入模型的關鍵詞抽取方法,其特征在于:所述方法具體包括以下步驟:步驟1:對新聞文本進行清理,去除無效信息;步驟2:對步驟1清理后的新聞文本進行處理,獲得待選關鍵詞組、位置與詞頻信息;步驟2.1:使用分詞工具對步驟1中獲得的文本進行分詞,得到分詞結果;步驟2.2:使用詞性標注工具對上述分詞結果進行詞性標注,得到每個分詞的詞性;步驟2.3:構建語法解析樹的規則:保留人物、地點、動詞、名詞一類的分詞,并且如果有連續的名詞或者是形容詞和名詞,則將其組合在一起形成待選關鍵詞組;步驟2.4:使用語法解析工具對上述規則和詞性標注結果進行處理,獲得待選關鍵詞組,同時獲得每個待選關鍵詞組相對于源文本第一個字符的位置偏移,即位置信息;步驟2.5:統計步驟2.4中待選關鍵詞組在源文本中出現的頻率信息;步驟3:使用預訓練的詞嵌入模型,對步驟1和步驟2所獲得的文本進行嵌入并計算,得到每一個分詞以及整篇文章的向量表示,進行相似度計算,得到關鍵詞分布1;步驟3.1:將步驟2.1獲得的分詞結果輸入到預訓練模型ELMO中,獲得每一層每一個分詞的詞嵌入表示其中l∈{0,1,2}分別代表EMLO的第一層、第二層、第三層LSTM表示;i∈[0,N]表示文章分詞結果的第i個位置,表示文章第i個分詞結果在ELMO模型中第l層的詞嵌入表示,N表示文章分詞結果的個數;步驟3.2:ELMO的三層表示具有不同的權重,根據權重和步驟3.1獲得的詞嵌入表示獲得每個詞的Embeddingi,公式如下: 步驟3.3:根據步驟2.3和步驟2.4獲得待選關鍵詞組以及位置信息,將待選關鍵詞所涉及的分詞的詞嵌入表示向量相加得到待選關鍵詞組表示KeyPhrasei,在向量相加的時候考慮每個分詞在當前的待選關鍵詞組中的相對位置信息,具體融合公式如下: 其中m表示待選關鍵詞組由m個分詞結果組成,Embeddingi,j表示第i個待選關鍵詞組中的第j個分詞結果的嵌入表示;步驟3.4:根據步驟2.5所獲得的待選關鍵詞組頻率信息和步驟3.3獲得的每個分詞表示,計算文章的嵌入向量表示,計算公式如下: 其中Frei表示第i個待選關鍵詞組出現的頻率,N表示文章分詞結果個數;步驟3.5:根據步驟3.3和步驟3.4所獲得的待選關鍵詞組表示和文章表示,計算余弦相似度,公式如下:similarityi=cosdocEmbedding,KeyPhrasei步驟3.6:使用結巴分詞自帶的頻率詞典對步驟3.5的結果進行校正,公式如下: 其中JiebaFrei表示第i個待選關鍵詞組在結巴分詞詞表中的默認頻率;步驟3.7:對步驟3.6的結果結合每個待選關鍵詞組位置進行校正,公式如下: 其中posi表示每個待選關鍵詞組在原文中第一次出現的位置;步驟3.8:將步驟3.7的similarity″i組合,得到關鍵詞分布1distribution1:distribution1={similarity″0,…,similarity″N}步驟4:使用步驟1和步驟2的文本信息以及步驟3的文本向量表示,應用于圖模型中,獲得關鍵詞分布2;步驟4.1:依照步驟3獲取dicEmbedding的流程,獲取每一個新聞的標題表示,即titleEmbedding;步驟4.2:構建圖模型TextRank模型,模型中節點代表待選關鍵詞組,節點權重nodeWeight代表待選關鍵詞組的重要程度,節點之間的邊edge僅當兩兩節點在原文中的固定大小的窗口中同時出現過時才會建立;步驟4.3:根據步驟3.3獲得的待選關鍵詞組向量表示,初始化圖模型的節點權重,按照如下公式計算節點初始權重: 其中N表示全部待選關鍵詞組個數,α∈[0,1]是調節因子;步驟4.4:根據步驟3.3獲得的待選關鍵詞組向量表示,初始化圖模型中邊的權重,按照如下公式計算邊的初始權重: 其中Frei,j表示節點i和節點j在固定大小的窗口中出現的頻率,β∈[0,1]是調節因子;步驟4.5:使用以上重新定義的節點權重和邊權重,進行TextRank的計算,待圖模型收斂后,得到節點的收斂權重值,并得到關鍵詞分布2distribution2:distribution2={nodeWeight0,…,nodeWeightN}步驟5:融合關鍵詞分布1和關鍵詞分布2,獲得最終關鍵詞分布,完成新聞文本關鍵詞的獲取;步驟5.1:獲取步驟3.8和步驟4.5的關鍵詞分布1和關鍵詞分布2,得到其關鍵詞分布1和關鍵詞分布2中每個關鍵詞對應的相似度數值和重要程度;步驟5.2:根據步驟5.1的結果,計算得到最終待選關鍵詞組的分布FinalDistribution,公式如下:scorei=γ·similarity″i+1-γ·nodeWeightiFinalDistribution={score0,…,scoreN}步驟5.3:從FinalDistribution中選取數值最高的前K個待選關鍵詞組作為最終的關鍵詞結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人哈爾濱工業大學,其通訊地址為:150001 黑龍江省哈爾濱市南崗區西大直街92號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。