恭喜浙江工業大學錢麗萍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江工業大學申請的專利一種基于深度學習的中文文本分類方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114912461B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210614817.2,技術領域涉及:G06F40/30;該發明授權一種基于深度學習的中文文本分類方法是由錢麗萍;錢江;王寅生;張文杰;王倩設計研發完成,并于2022-05-31向國家知識產權局提交的專利申請。
本一種基于深度學習的中文文本分類方法在說明書摘要公布了:一種基于深度學習的中文文本分類方法,結合Word2Vec詞向量與LDA詞向量作為詞嵌入以增強文本主題特征;編碼階段將自注意力機制以及RNN網絡結合可以實現對文本進行深度語義特征提取的同時保留序列特征。本發明對于輸入的一篇中文文本,運用系統模型,能夠有效提升文本分類的準確率。本發明融合了Word2Vec詞向量與LDA詞向量作為詞嵌入,并結合了循環神經網絡RNN以及自注意力機制Self?Attention的特征提取優勢,極大程度上改善了文本分類準確率,從而使得人們的信息處理效率進一步提升。
本發明授權一種基于深度學習的中文文本分類方法在權利要求書中公布了:1.一種基于深度學習的中文文本分類方法,其特征在于,所述方法包括以下步驟:1首先對輸入文本進行預處理操作,過程如下:去除停用詞、特殊符號;利用Jieba中文分詞工具進行分詞處理,得到w1,w2,w3,···,wn,接著運用Word2Vec中文預訓練模型輸出每一個單詞所對應的詞向量,用c1,c2,c3,···,cn表示,詞向量組c1,c2,c3,···,cn記作矩陣WC;運用訓練好的LDA模型輸出文本的主題-詞矩陣記為WT,最后將矩陣WC和矩陣WT按對應向量進行拼接操作得到n×dmodel維矩陣WE,dmodel為詞向量維數,滿足WE=[WC,WT]12將矩陣WE輸入至編碼器,首先進行位置編碼得到矩陣P,計算過程說明如下: 3將矩陣P與矩陣WE相加得到最終的n×dmodel維詞嵌入矩陣WI,公式如下:WI=WE+P34將矩陣輸入WI至自注意力機制,生成n×dmodel維矩陣M,公式如下: Q=WI×WQ5K=WI×WK6V=WI×WV7其中,WQ、WK、WV為可訓練dmodel維參數方陣,dk為可調超參數;5將矩陣M和WI進行殘差與歸一化操作,得到n×dmodel維矩陣N1,公式如下:N1=LayerNormΜ+WI86將矩陣N1輸入至前饋神經網絡,得到n×dmodel維矩陣F,公式如下:F=max0,N1W1+B1W2+B29其中W1、W2為神經網絡權重矩陣,B1、B2為神經網絡偏置項;7下一步,將矩陣WI輸入至單隱藏層循環神經網絡,將每一個時刻隱藏層輸出向量保存,記為矩陣R1,dr為RNN網絡維數;8將矩陣R1進行線性變換為n×dmodel維矩陣公式如下 其中,WL為dr×dmodel維可訓練參數矩陣;9將矩陣F、以及N1進行殘差和歸一化操作得到矩陣N2,公式如下 10取矩陣N2的首個向量輸入至分類器,首先經過前饋神經網絡,輸出df維向量f,公式如下:f=vCLS·w1+b1w2+b212其中,vCLS為N2的首個向量,w1、w2為神經網絡權重,b1、b2為神經網絡偏置項,df為神經網絡維數;11將向量f元素進行Softmax運算,數值最大的維度便對應文本類別yp,公式如下:yp=softmaxf1312通過交叉熵損失函數來訓練模型參數,模型參數包括矩陣元素與神經網絡權重及偏置項,損失函數如下所示: 其中,S為訓練樣本總數,yt為真實類別,yp為預測類別。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江工業大學,其通訊地址為:310014 浙江省杭州市拱墅區潮王路18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。