恭喜南京工業(yè)大學何震宇獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網恭喜南京工業(yè)大學申請的專利一種基于注意力機制和多任務學習的語音情感識別方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產權局授予,授權公告號為:CN114927144B 。
龍圖騰網通過國家知識產權局官網在2025-05-30發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202210546156.4,技術領域涉及:G10L25/63;該發(fā)明授權一種基于注意力機制和多任務學習的語音情感識別方法是由何震宇;劉斌設計研發(fā)完成,并于2022-05-19向國家知識產權局提交的專利申請。
本一種基于注意力機制和多任務學習的語音情感識別方法在說明書摘要公布了:本發(fā)明的一種基于注意力機制和多任務學習的語音情感識別方法,包括如下步驟:步驟1:獲取用于語音情感識別的CASIA漢語情感數(shù)據集;步驟2:LSTM_att?MTL語音情感識別模型由特征提取模塊、序列建模模塊和多任務學習模塊組成,將步驟一中語音情感數(shù)據輸入識別模型進行協(xié)同訓練;步驟3:由步驟二中通過softmax分類器得到識別結果,計算識別結果與訓練集標簽的損失函數(shù)由此調整損失大小;步驟4:將測試集語音情感數(shù)據輸入步驟三訓練好的網絡中,以實現(xiàn)對測試集語音情感數(shù)據識別。本發(fā)明構建一個LSTM_att?MTL模型,該模型解決了傳統(tǒng)的特征提取方法計算復雜度較高,訓練過程效果不好,導致識別性能降低等問題。
本發(fā)明授權一種基于注意力機制和多任務學習的語音情感識別方法在權利要求書中公布了:1.一種基于注意力機制和多任務學習的語音情感識別方法,其特征在于:包括如下步驟:步驟1:獲取語音情感數(shù)據集:獲取用于語音情感識別的CASIA漢語情感數(shù)據集;步驟2:構建LSTM_att-MTL語音情感識別模型:LSTM_att-MTL語音情感識別模型由特征提取模塊、序列建模模塊和多任務學習模塊組成,將步驟1中語音情感數(shù)據輸入識別模型進行協(xié)同訓練;步驟3:計算模型的損失函數(shù):由步驟2中通過softmax分類器得到識別結果,計算識別結果與訓練集標簽的損失函數(shù)由此調整損失大小;步驟4:訓練模型獲得識別結果:將測試集語音情感數(shù)據輸入步驟3訓練好的模型中,以實現(xiàn)對測試集語音情感數(shù)據識別;步驟2所述的構建LSTM_att-MTL語音情感識別模型包括以下步驟:步驟21:首先原始語音進行預處理,包括如下操作:對語音進行分幀加窗,幀長為25ms,幀移為10ms;進行短時傅里葉變換,得到語音信號的語譜圖;對語譜圖進行最大-最小歸一化處理,將語譜圖量化為灰度圖,進入步驟2;步驟22:將語譜圖輸入到CNN網絡,卷積層通過卷積計算從語譜圖中學習語音特征,選擇ReLU函數(shù)作為激活函數(shù),進入步驟3;步驟23:使用兩個循環(huán)神經網絡作為共享層,使用LSTM_att作為基本單元,隱藏層單元個數(shù)為128;為防止過擬合,訓練過程中引入dropout,參數(shù)設置為0.5;第一層輸出所有時間序列到下一層,第二層輸出最后一個時間步的結果;LSTM_att注意門的輸出attt:attt=σVatt×tanhWatt×ct-11其中,Vatt,Watt∈Rn×n是需要訓練的參數(shù),從訓練數(shù)據中學習;ct-1為上一個時刻節(jié)點狀態(tài);σ·和tanh·分別為logisticsigmoid和雙曲正切激活函數(shù);具體各個門單元輸出:it=σWi×[ct-1,ht-1,xt]+bi2 ot=σWo×[ht-1,xt]+bo5ht=ot·tanhct6其中it表示t時刻的輸入門,Wi和bi表示輸入門單元中的權重矩陣和偏置項,Ct-1和ht-1分別為前一時刻的單元狀態(tài)和隱藏層輸出,xt表示當前時刻的輸入;表示t時刻更新單元狀態(tài)的候選值,Wc和bc表示更新狀態(tài)時的權重矩陣和偏置項;ct表示t時刻的單元狀態(tài),·表示哈達瑪積;ot表示t時刻的輸出門,Wo和bo表示輸出門單元中的權重矩陣和偏置項;ht表示t時刻隱藏層的輸出;步驟24:采用具有參數(shù)硬共享的多任務學習方法,采用講話人性別作為輔助任務,因為男性和女性語音的差異會影響語音相關任務的系統(tǒng)性能,特定于性別的情感識別模型的性能優(yōu)于其他不分性別的情感識別模型;多任務學習模塊中的注意力層對LSTM_att輸出進行注意力加權: ν=Σiαihi8式7中,αi表示注意力權重,向量μ表示注意力參數(shù),μ=θ1,θ2,…,θT,T為幀長,{h1,h2,…,hT}為最后一層LSTM_att的輸出,計算注意力參數(shù)向量μ與hi的內積,作為每個時間幀重要性的分數(shù),并對其進行歸一化處理,歸一化后的分數(shù)即為每幀包含關鍵信息的權重;式8將得到的權重αi與LSTM_att輸出hi進行點乘,得到的加權和v作為全局更新權重的特征向量。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人南京工業(yè)大學,其通訊地址為:210000 江蘇省南京市浦珠南路30號;或者聯(lián)系龍圖騰網官方客服,聯(lián)系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數(shù)據和信息,力求客觀、公正,但并不保證數(shù)據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。