恭喜浙江大學陳珂獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江大學申請的專利一種基于注意力特征信息的BERT模型融合方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114580660B 。
龍圖騰網通過國家知識產權局官網在2025-04-01發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210176600.8,技術領域涉及:G06F18/25;該發明授權一種基于注意力特征信息的BERT模型融合方法是由陳珂;楊浩磊;壽黎但;胡天磊;陳剛;江大偉;駱歆遠設計研發完成,并于2022-02-25向國家知識產權局提交的專利申請。
本一種基于注意力特征信息的BERT模型融合方法在說明書摘要公布了:本發明公開了一種基于注意力特征信息的BERT模型融合方法,該方法利用每個原模型對輸入文本的隱藏表示信息,來計算每個原模型的權重,然后利用每個原模型的權重信息,對原模型的注意力特征信息進行加權融合,最后利用融合后的注意力特征信息對新模型進行調整,提高新模型的表現效果。該方法可以充分利用BERT模型的注意力特征信息,提高融合后BERT模型的表現效果。相比于其他融合方法,本方法可以有效地完善融合后模型的注意力特征信息,使得融合后的模型對文本的注意力特征更加完整,進而提高融合后模型的表現效果。
本發明授權一種基于注意力特征信息的BERT模型融合方法在權利要求書中公布了:1.一種基于注意力特征信息的BERT模型融合方法,其特征在于,該方法的具體步驟如下:1首先,對于給定的多個原模型,構建出每個模型對于輸入文本的隱藏表示信息,用來表征對應模型對于輸入文本的編碼信息;2然后,利用每個原模型的隱藏表示信息與輸入文本的特征信息的差異,來計算每個模型的權重信息;3之后,利用每個原模型的權重信息,對模型內部的注意力特征信息進行加權融合,生成融合后的注意力特征信息;4最后,利用融合后的注意力特征信息,來完成新模型的訓練,生成表現效果更好和泛化能力更強的新模型;步驟1給定的原模型為教師模型,用Ti表示;步驟4生成的新模型為學生模型,用S表示;Hx代表教師模型的隱藏層表示信息,Ax代表教師模型的注意力特征信息,Px代表教師模型的響應知識信息;所述步驟2中,利用教師模型隱式表示因子FT和學生模型輸出的隱藏層特征信息HS,來計算每個教師模型的權重信息;其輸入是每個教師模型隱式表示因子FT和學生模型最后一層Transformer輸出的隱藏層特征HS;其輸出是每個教師模型的權重信息WT;權重計算過程如下:首先通過計算教師模型隱式表示因子FT與學生模型隱藏層表示特征HS之間的均方差函數值,來獲取到每個教師模型對應的重要程度,其中均方差函數值越大,則對應的教師模型權重越小;之后再利用softmax函數對每個教師模型的重要程度進行歸一化,得到最終每個教師模型對應的權重信息WT;所述步驟3中,利用步驟2獲得的每個教師模型對應的權重信息WT來對教師模型的注意力特征信息進行融合,同時也對隱藏層特征信息和響應知識信息進行了融合;其輸入是教師模型最后一層Transformer輸出的注意力特征AT和隱藏層特征HT,教師模型輸出的響應知識PT,以及動態權重計算所得到的教師模型的權重信息WT;其輸出是融合后的注意力特征AM,融合后的隱藏層特征HM,以及融合后的響應知識PM;注意力融合的計算過程,主要是利用每個教師模型的權重信息,對不同教師的注意力特征進行加權平均;而隱藏層特征融合和響應知識融合的計算過程同樣是利用加權平均的方法來進行融合;所述步驟4中,利用融合后的教師模型知識來對學生模型進行訓練和調整;其輸入是融合后的教師模型知識AM,HM,PM和學生模型的輸出AS,HS,PS,其輸出是學生模型參數θ和教師模型隱式表示因子FT;學生模型訓練,主要是針對三類不同的知識計算損失函數,并根據最終的損失函數,來對學生模型參數和教師模型隱式表示因子進行調整;三類損失函數分別是注意力特征損失函數LossA,隱藏層特征損失函數LossH和響應知識損失函數LossP,其中注意力特征的損失函數采用KL散度來計算,隱藏層特征的損失函數采用均方差函數計算,響應知識的損失函數采用交叉熵來計算;之后利用這三類損失函數來計算最終的損失函數Loss,最終損失函數主要采用加權和的方式來計算;最后利用損失函數結果,來更新學生模型參數θ和隱式表示因子FT。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區余杭塘路866號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。