恭喜浙江工業大學江頡獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江工業大學申請的專利一種基于對比學習的專業領域術語挖掘方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115794998B 。
龍圖騰網通過國家知識產權局官網在2025-05-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211632497.X,技術領域涉及:G06F16/334;該發明授權一種基于對比學習的專業領域術語挖掘方法是由江頡;王育涵;呂明琪;陳鐵明設計研發完成,并于2022-12-19向國家知識產權局提交的專利申請。
本一種基于對比學習的專業領域術語挖掘方法在說明書摘要公布了:本發明公開了一種基于對比學習的專業領域術語挖掘方法,屬于機器學習技術領域,包括基于專業領域的語料庫形成術語列表;對術語列表中的術語進行領域分類;基于術語列表構建專業領域的樹型術語關系樹。本發明使用了bert預訓練模型訓練詞向量,并且使用對比學習的方式訓練句子向量,通過預訓練,可以大大增強模型在下游任務進行分類和關系識別的能力,使模型達到最大的效果。同時考慮專業術語詞向量和整體的文段向量,相互融合后提取征,有更好的預測性。
本發明授權一種基于對比學習的專業領域術語挖掘方法在權利要求書中公布了:1.一種基于對比學習的專業領域術語挖掘方法,其特征在于,所述基于對比學習的專業領域術語挖掘方法,包括:步驟1、基于專業領域的語料庫形成術語列表;步驟1-1、采用信息熵算法和互信息算法挖掘語料庫中的新短語;步驟1-2、將挖掘的新短語加入分詞詞庫,以分詞詞庫對語料庫中所有語句進行分詞,并提取每一分詞詞語中的關鍵詞,對提取的關鍵詞去重合并后形成關鍵詞列表;步驟1-3、過濾關鍵詞列表中的非專業詞語,并進行詞條匹配得到術語列表;步驟2、對術語列表中的術語進行領域分類;步驟2-1、取術語列表中每條術語對應的詞條;步驟2-2、將詞條分句,并將各分句輸入基于對比學習的句向量學習模型,輸出詞條中各分句對應的句向量;步驟2-3、將術語對應的bert模型訓練的詞向量和術語對應詞條中各分句對應的句向量拼接后輸入分類模型,得到術語的領域分類結果;步驟3、基于術語列表構建專業領域的樹型術語關系樹;步驟3-1、根據領域分類結果對術語列表中的術語進行聚類;步驟3-2、將術語與術語所在的分句向量進行拼接,拼接后再與術語所在的文段向量進行拼接得到術語的特征向量;所述術語所在的分句向量由對比學習模型基于術語所在專業文獻中的摘要部分訓練得到,所述術語所在的文段向量由bert模型基于術語所在專業文獻中的摘要部分訓練得到;步驟3-3、將屬于同一類別的術語的特征向量成對輸入基于對比學習的關系識別模型,得到每對中兩個術語之間的關系;步驟3-4、根據兩兩術語之間的關系,構建各個專業領域的樹型術語關系樹。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江工業大學,其通訊地址為:310014 浙江省杭州市下城區朝暉六區潮王路18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。