恭喜四川啟??丝萍加邢薰緱钐m獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜四川啟??丝萍加邢薰?/a>申請的專利一種簡單易用的增量學習文本分類方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116127065B 。
龍圖騰網通過國家知識產權局官網在2025-04-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211618549.8,技術領域涉及:G06F16/35;該發明授權一種簡單易用的增量學習文本分類方法及系統是由楊蘭;周興發;饒璐;孫銳;展華益設計研發完成,并于2022-12-15向國家知識產權局提交的專利申請。
本一種簡單易用的增量學習文本分類方法及系統在說明書摘要公布了:本發明公開了一種簡單易用的增量學習文本分類方法及系統,該方法通過將文本分類任務轉化為基于預訓練模型的掩碼語言任務,結合提示模板和標簽詞映射函數,設計了一種增量學習文本分類模型,該模型在增量學習中可以不改變模型原有的網絡結構,減少人工介入,同時學習新、舊類別數據,降低了模型增量學習難度。
本發明授權一種簡單易用的增量學習文本分類方法及系統在權利要求書中公布了:1.一種簡單易用的增量學習文本分類方法,其特征在于,包括以下步驟:S1、獲取已標注的原始分類數據集Dori,類別集合為Yn,并將原始分類數據集Dori轉化為帶提示模板的MLM訓練樣本集;S11、制定提示模板prompt;S12、構建標簽詞映射函數f,通過標簽詞映射函數f將類別集合Yn中的類別映射為類別標簽,形成類別標簽集合Ln;S13、基于所述提示模板prompt和標簽詞映射函數f,將原分類文本轉換為包含掩碼填寫位置[MASK]的帶提示模板數據,所述掩碼填寫位置[MASK]用于填寫與待分類文本匹配的類別標簽;S2、將文本分類任務轉化掩碼語言任務,搭建MLM模型,模型后續以M表示,作為分類模型,并基于上述原始MLM訓練樣本集Tn進行模型初始訓練,將訓練完成的分類模型標記為Mn;S3、從原始分類數據集Dori中篩選信息內容豐富的歷史數據集Dold;S31、對原始分類數據Dori做特征提取,將原始MLM訓練樣本Tn輸入至已訓練完成的模型M中,將模型輸出的[CLS]向量表示作為輸入樣本的特征;S32、基于提取的樣本特征表示,對樣本進行聚類;S33、挑選典型樣本Dold,對聚類后的每一個簇進行處理,計算樣本與簇心的歐式距離,將靠近簇心的Top-K個樣本作為代表性樣本挑選出來進行存儲;S4、搜集新增類別數據集Dnew,并和歷史數據集Dold匯總,形成新的訓練數據集Dt,并將Dt轉換為帶提示模板的MLM訓練樣本集Tn+1;S5、基于所述新的MLM訓練樣本Tn+1對分類模型Mn進行增量訓練,得到可以預測新、舊類別數據的新模型Mn+1。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人四川啟??丝萍加邢薰?/a>,其通訊地址為:610000 四川省成都市中國(四川)自由貿易試驗區成都高新區天府四街199號1棟33層;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。