恭喜廈門快商通科技股份有限公司江豪獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜廈門快商通科技股份有限公司申請的專利一種訓練文本匹配模型的方法、裝置以及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114781477B 。
龍圖騰網通過國家知識產權局官網在2025-05-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210231382.3,技術領域涉及:G06F18/214;該發明授權一種訓練文本匹配模型的方法、裝置以及存儲介質是由江豪;肖龍源;李稀敏;李威設計研發完成,并于2022-03-09向國家知識產權局提交的專利申請。
本一種訓練文本匹配模型的方法、裝置以及存儲介質在說明書摘要公布了:本發明涉及人工智能領域,其公開了一種訓練文本匹配模型的方法,包括:使用第三訓練集訓練預先訓練的語言模型得到第一教師模型,使用第一教師模型對預先建立的待蒸餾模型進行知識蒸餾得到第一學生模型;使用第一訓練集訓練第一教師模型得到第二教師模型,將第二訓練集存儲到搜索引擎,使用第二教師模型提取第二訓練集的特征向量,將特征向量存儲到近似近鄰搜索庫;通過第一訓練集中的已標注數據包含的第一文本和第二文本從搜索引擎和近似近鄰搜索庫中分別獲取第一結果集和第二結果集,并確定蒸餾數據;基于蒸餾數據訓練第一學生模型,生成訓練好的目標模型。本發明可以在訓練過程中有針對性地對訓練集的數據進行增強,提高知識蒸餾的效果。
本發明授權一種訓練文本匹配模型的方法、裝置以及存儲介質在權利要求書中公布了:1.一種訓練文本匹配模型的方法,其特征在于,包括步驟:S1,獲取第一訓練集、第二訓練集和第三訓練集,所述第一訓練集包含第一領域內的用于文本匹配的已標注數據,所述第二訓練集包含所述第一領域內的用于文本匹配的未標注數據,所述第三訓練集包含第二領域內用于文本匹配的已標注數據;S2,將所述第三訓練集輸入預先訓練的語言模型,基于文本匹配任務對所述預先訓練的語言模型進行訓練,得到候選語言模型,將所述候選語言模型作為知識蒸餾中的第一教師模型,使用所述第一教師模型對預先建立的待蒸餾模型進行知識蒸餾,得到第一學生模型;S3,使用所述第一訓練集對所述第一教師模型進行訓練,得到訓練好的第二教師模型,將所述第二訓練集中的未標注數據存儲到搜索引擎,使用所述第二教師模型提取與所述第二訓練集中的未標注數據對應的特征向量,將所述特征向量存儲到近似近鄰搜索庫,所述搜索引擎對所述第二訓練集中的未標注數據進行分詞建立倒排索引,所述近似近鄰搜索庫使用預定的近似最近鄰搜索算法對所述特征向量建立索引;S4,所述第一訓練集中的已標注數據包含第一文本和第二文本,根據所述第一文本從所述搜索引擎和所述近似近鄰搜索庫中獲取第一結果集,根據所述第二文本從所述搜索引擎和所述近似近鄰搜索庫中獲取第二結果集,通過將所述第一文本和所述第二結果集進行拼接以及將所述第二文本和所述第一結果集進行拼接確定用于知識蒸餾的蒸餾數據;S5,基于所述蒸餾數據和所述第二教師模型,使用知識蒸餾方法對所述第一學生模型進行訓練,生成訓練好的目標模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門快商通科技股份有限公司,其通訊地址為:361000 福建省廈門市軟件園三期誠毅北大街63號1301單元;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。