恭喜西安理工大學孫強獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜西安理工大學申請的專利動態時域卷積網絡驅動的多模態情感識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114998698B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210640854.0,技術領域涉及:G06F18/25;該發明授權動態時域卷積網絡驅動的多模態情感識別方法是由孫強;黨鑫豪設計研發完成,并于2022-06-08向國家知識產權局提交的專利申請。
本動態時域卷積網絡驅動的多模態情感識別方法在說明書摘要公布了:本發明公開了動態時域卷積網絡驅動的多模態情感識別方法,利用三種模態特征生成查詢向量,通過注意力機制增強各模態特征,明確捕捉到各模態特征中與模態間交互作用相關的信息,使模型更容易地建模不同模態之間的交互作用;通過具有動態卷積特性的時域卷積網絡來學習查詢向量,不僅使查詢向量的學習過程更加充分合理,而且通過動態卷積,使查詢向量的生成隨輸入特征動態變化,更貼合目標任務;給出的時域卷積網絡通過動態卷積的方式來生成卷積核,使卷積核隨輸入特征呈現動態變化,與輸入特征更適配,有助于更靈活地建模多模態特征之間的交互作用;這種具有動態卷積特性的時域卷積網絡還能夠融合來自不同模態的特征,產生有效的多模態融合特征。
本發明授權動態時域卷積網絡驅動的多模態情感識別方法在權利要求書中公布了:1.動態時域卷積網絡驅動的多模態情感識別方法,其特征在于,具體按照以下步驟實施:步驟1、從視頻數據庫中提取多個視頻樣本,通過多模態軟件開發工具包從每個視頻樣本中分別提取音頻模態特征xa、圖像模態特征xv和文本模態特征xl,以及對應的情感類別標簽;步驟2、分別建立三個時域卷積神經網絡,將每個視頻樣本的音頻模態特征xa、圖像模態特征xv和文本模態特征xl送入對應的時域卷積神經網絡中,濾除各模態特征的冗余噪聲,對各模態特征做時域關系上的建模,得到包含上下文信息的音頻特征圖像特征和文本特征步驟3、構建具有動態卷積特性的時域卷積網絡,將音頻特征圖像特征和文本特征按特征向量維度拼接在一起,并輸入具有動態卷積特性的時域卷積網絡進行壓縮,得到一個壓縮特征xkey;所述具有動態卷積特性的時域卷積網絡由五個卷積層堆疊組成,每個卷積層由兩個卷積神經網絡組成,每個卷積神經網絡的卷積核由動態卷積網絡生成;將特征輸入到具有動態卷積特性的時域卷積網絡執行壓縮的具體過程為:步驟a、將輸入特征xinput輸入動態卷積網絡,得到動態卷積核其中dort為輸出的特征向量維度,3d為輸入的特征向量維度,ksize為卷積核大小;步驟b、以xinput作為輸入特征,k作為卷積核,進行一次膨脹卷積操作,得到輸出特征步驟c、以作為輸入特征重復步驟a、步驟b,重復4次之后將得到的輸出特征作為壓縮特征xkey;步驟4、將音頻特征圖像特征和文本特征作為輸入特征,并將壓縮特征xkey作為查詢向量,分別執行一個注意力操作,得到注意力音頻特征注意力圖像特征和注意力文本特征步驟5、將注意力音頻特征注意力圖像特征和注意力文本特征分別送入一個自注意力網絡,輸出自注意力音頻特征自注意力圖像特征和自注意力文本特征步驟6、將自注意力音頻特征自注意力圖像特征和自注意力文本特征按特征向量維度拼接,得到拼接特征將拼接特征輸入到具有動態卷積特性的時域卷積網絡執行多模態特征融合,得到一個融合特征xfusion;步驟7、將多模態融合特征xfusion送入一個三層的全連接神經網絡執行情感類別預測;步驟8、將模型預測到的情感類別與步驟1中的情感類別標簽進行對比,并通過反向傳播算法去更新三個時域卷積神經網絡、具有動態卷積特性的時域卷積網絡、自注意力網絡和三層全連接神經網絡中的參數,然后不斷重復步驟1-步驟7,直至模型能正確預測出情感類別,輸出更新后的三個時域卷積神經網絡、具有動態卷積特性的時域卷積網絡、自注意力網絡和三層全連接神經網絡;步驟9、通過更新后的三個時域卷積神經網絡、具有動態卷積特性的時域卷積網絡、自注意力網絡和三層全連接神經網絡識別待識別的視頻情感。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人西安理工大學,其通訊地址為:710048 陜西省西安市碑林區金花南路5號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。