恭喜航天信息股份有限公司;河北航天信息技術有限公司王亞平獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜航天信息股份有限公司;河北航天信息技術有限公司申請的專利一種建立短文本多層級分類模型的方法和系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114579737B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111636972.6,技術領域涉及:G06F16/353;該發明授權一種建立短文本多層級分類模型的方法和系統是由王亞平;林文輝;王志剛;馬蘭;李瑞祥;伺彥偉;祁洪波設計研發完成,并于2021-12-29向國家知識產權局提交的專利申請。
本一種建立短文本多層級分類模型的方法和系統在說明書摘要公布了:本發明實施例公開了一種建立短文本多層級分類模型的方法和系統,所述方法包括:對同一份短文本數據集,按照設置的不同層級的短文本類別標簽進行標注后生成的不同層級的標注數據集,并將其作為輸入,對基于公開的預訓練模型Bertbase后接全連接層建立的分類模型分層級進行訓練,生成不同層級的分類模型,并在訓練下一層級分類模型時,將上一層級經過微調的預訓練模型Bertbase的部分訓練參數遷移到下一層級初始預訓練模型Bertbase的對應部分,最后將生成的多層級的分類模型進行組合生成最終的分類模型。所述方法和系統可有效擴增每種類別下的數據總量,解決模型訓練的數據稀疏度問題;并對低層級的分類學習,通過遷移高層級分類模型的通用參數提升訓練效果。
本發明授權一種建立短文本多層級分類模型的方法和系統在權利要求書中公布了:1.一種建立短文本多層級分類模型的方法,其特征在于,所述方法包括:步驟101、獲取第一層級標注數據集,其中,所述第一層級標注數據集是按照預先設置的第一層級類別標簽對短文本數據集中的每個短文本進行標注后生成的數據集;步驟102、將第一層級標注數據集輸入初始第一層級分類模型進行模型訓練,生成最優第一層級分類模型,其中,所述初始第一層級分類模型是公開的預訓練模型Bertbase后接初始第一層級全連接層,所述最優第一層級分類模型是最優第一層級預訓練模型Bertbase后接最優第一層級全連接層,所述最優第一層級預訓練模型Bertbase是對公開的預訓練模型Bertbase進行微調得到的預訓練模型Bertbase,所述最優第一層級全連接層是對初始第一層級全連接層調整參數后得到的全連接層;步驟103、獲取第二層級標注數據集,其中,所述第二層級標注數據集是按照預先設置的第二層級類別標簽對短文本數據集中的每個短文本進行標注后生成的數據集;步驟104、將第二層級標注數據集輸入初始第二層級分類模型進行模型訓練,生成最優第二層級分類模型,其中,所述初始第二層級分類模型是初始第二層級預訓練模型Bertbase后接初始第二層級全連接層,所述初始第二層級預訓練模型Bertbase是將最優第一層級預訓練模型Bertbase的前N層的訓練參數遷移到公開的預訓練模型Bertbase的前N層后得到的預訓練模型Bertbase,最優第二層級分類模型是最優第二層級預訓練模型Bertbase后接最優第二層級全連接層,所述最優第二層級預訓練模型Bertbase是對初始第二層級預訓練模型Bertbase進行微調得到的預訓練模型Bertbase,所述最優第二層級全連接層是對初始第二層級全連接層調整參數后得到的全連接層,N為自然數;步驟105、獲取第i層級標注數據集,其中,所述第i層級標注數據集是按照預先設置的第i層級類別標簽對短文本數據集中的每個短文本進行標注后生成的數據集,其中,3≤i≤I,i的初始值為3,I為自然數;步驟106、將第i層級標注數據集輸入初始第i層級分類模型進行模型訓練,生成最優第i層級分類模型,其中,所述初始第i層級分類模型是初始第i層級預訓練模型Bertbase后接初始第i層級全連接層,所述初始第i層級預訓練模型Bertbase是將最優第i-1層級預訓練模型Bertbase的前N層的訓練參數遷移到初始第i層級預訓練模型Bertbase的前N層后得到的預訓練模型Bertbase,最優第i層級分類模型是最優第i層級預訓練模型Bertbase后接最優第i層級全連接層,所述最優第i層級預訓練模型Bertbase是對初始第i層級預訓練模型Bertbase進行微調得到的預訓練模型Bertbase,所述最優第i層級全連接層是對初始第i層級全連接層調整參數后得到的全連接層;步驟107、令i=i+1,當i≤I時,返回步驟105,當iI時,轉至步驟108;步驟108、將最優第一層級分類模型至最優第I層級分類模型按照從第一層級至第I層級的順序組合生成的模型作為短文本多層級分類模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人航天信息股份有限公司;河北航天信息技術有限公司,其通訊地址為:100195 北京市海淀區杏石口路甲18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。