恭喜清華大學吳軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜清華大學申請的專利一種基于深度學習的行業文本匹配模型方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114282592B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111369472.0,技術領域涉及:G06F18/22;該發明授權一種基于深度學習的行業文本匹配模型方法及裝置是由吳軍;王得強;關立文設計研發完成,并于2021-11-15向國家知識產權局提交的專利申請。
本一種基于深度學習的行業文本匹配模型方法及裝置在說明書摘要公布了:本發明公開了一種基于深度學習的行業文本匹配模型方法及裝置,其中,該方法包括:獲取預設個數的跨行業數據作為訓練集以得到待匹配語句;輸入基于深度學習的行業文本匹配模型NERB,經過數據預處理后分別輸入優化后的預訓練模型NEZHA、RoBERTa和ERNIE?Gram;經過化后的預訓練模型匹配后輸出三個文本匹配結果;綜合判斷,當存在任意兩種文本匹配結果或三種文本匹配結果輸出為相似時,行業文本匹配模型的輸出結果判為相似,否則為不相似。本發明通過引入大規模跨行業數據作為訓練集、集成應用多個具有中文特色的預訓練模型優勢,可以解決不同細分行業如制造業中的汽車生產線技術參考、醫療行業中的患者咨詢、商業領域中的交易搜索等多種應用領域的語義匹配問題。
本發明授權一種基于深度學習的行業文本匹配模型方法及裝置在權利要求書中公布了:1.一種基于深度學習的行業文本匹配模型方法,其特征在于,包括以下步驟:獲取預設個數的跨行業數據作為訓練集,以得到待匹配語句;將所述待匹配語句輸入基于深度學習的行業文本匹配模型NERB,經過數據預處理后分別輸入優化后的預訓練模型NEZHA、RoBERTa和ERNIE-Gram;其中,所述優化后的預訓練模型NEZHA,包括:對函數式相對位置編碼、全詞覆蓋、混合精度訓練和優化器的優化;基于所述優化后的預訓練模型,經過所述優化后的預訓練模型匹配后輸出三個文本匹配結果;根據所述三個文本匹配結果進行綜合判斷,當存在任意兩種文本匹配結果或三種文本匹配結果輸出為相似時,所述行業文本匹配模型的輸出結果判為相似,否則為不相似;所述對函數式相對位置編碼優化,包括:所述預訓練模型NEZHA通過采用函數式相對位置編碼,輸出與注意力得分的計算涉及到相對位置的正弦函數,則函數式相對位置編碼公式,如下所示: 所述對全詞覆蓋優化,包括:所述預訓練模型NEZHA,采用全詞覆蓋策略,當一個漢字被覆蓋時,屬于同一個漢字的其他漢字都被一起覆蓋;所述對混合精度訓練優化,包括:所述預訓練模型NEZHA采用混合精度訓練,在每次訓練迭代中,將主權值舍入半精度浮點格式,并使用所述半精度浮點格式存儲的權值、激活和梯度執行向前和向后傳遞;將所述梯度轉換為單精度浮點格式,并使用所述單精度浮點格式梯度更新主權重;所述對優化器優化,包括:所述預訓練模型NEZHA采用LAMB優化器,自適應策略為所述LAMB優化器中的每個參數調整學習率;所述方法,還包括:對所述優化后的預訓練模型NEZHA、RoBERTa和ERNIE-Gram進行驗證,包括:對于所述行業文本匹配模型NERB,當存在任意兩種或兩種以上預訓練模型的結果輸出為“相似”時,所述行業文本匹配模型NERB的輸出結果就判為“相似”,否則為“不相似”,則所述行業文本匹配模型NERB的準確率為:P=p1*p2*1-p3+p1*p3*1-p2+p2*p3*1-p1+p1*p2*p3=p1*p2+p1*p3+p2*p3–2*p1*p2*p3其中,p1、p2、p3分別為預訓練模型NEZHA、RoBERTa和ERNIE-Gram三個語義匹配模型在進行語義匹配時的準確率;若所述三個語義匹配模型在包含第一預設數量個樣本的數據集中都能做到正確判斷其中的第二預設數量個樣本是否匹配,剩下的第三預設數量個無法正確判斷的樣本經排序處理后在一個連續的子序列中。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人清華大學,其通訊地址為:100084 北京市海淀區清華園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。