恭喜大連理工大學(xué)諸葛云志獲國(guó)家專(zhuān)利權(quán)
買(mǎi)專(zhuān)利賣(mài)專(zhuān)利找龍圖騰,真高效! 查專(zhuān)利查商標(biāo)用IPTOP,全免費(fèi)!專(zhuān)利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜大連理工大學(xué)申請(qǐng)的專(zhuān)利一種集成頻域設(shè)計(jì)的視聽(tīng)分割方法獲國(guó)家發(fā)明授權(quán)專(zhuān)利權(quán),本發(fā)明授權(quán)專(zhuān)利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN119693857B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-05-27發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專(zhuān)利申請(qǐng)?zhí)?專(zhuān)利號(hào)為:202510192687.1,技術(shù)領(lǐng)域涉及:G06V20/40;該發(fā)明授權(quán)一種集成頻域設(shè)計(jì)的視聽(tīng)分割方法是由諸葛云志;朱夢(mèng)圓;盧湖川設(shè)計(jì)研發(fā)完成,并于2025-02-21向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專(zhuān)利申請(qǐng)。
本一種集成頻域設(shè)計(jì)的視聽(tīng)分割方法在說(shuō)明書(shū)摘要公布了:本發(fā)明公開(kāi)一種集成頻域設(shè)計(jì)的視聽(tīng)分割方法。首先引入空間域和頻域相結(jié)合探索全面的視聽(tīng)對(duì)齊和融合的方法,集成頻域信息提升了視聽(tīng)一致性,并增強(qiáng)了多模態(tài)特征的精細(xì)對(duì)齊。提出頻域?qū)虻囊纛l集成模塊和基于頻域的跨模態(tài)融合模塊。其中,頻域?qū)虻囊纛l集成模塊通過(guò)基于頻域增強(qiáng)的早期融合將音頻信息編碼到視覺(jué)表征中,從而生成更細(xì)致的音頻感知的視覺(jué)表征,有助于后續(xù)生成更魯棒的多模態(tài)表征;基于頻域的跨模態(tài)融合模塊旨在結(jié)合空間域和頻域探索視聽(tīng)關(guān)聯(lián),增強(qiáng)跨模態(tài)特征對(duì)齊,從而提高模型的分割性能。頻域?qū)虻囊纛l集成模塊被集成到編碼器的各階段,充分利用頻域信息和音頻線索,減小視聽(tīng)模態(tài)間的差異,有助于更精確的視聽(tīng)融合和對(duì)齊。
本發(fā)明授權(quán)一種集成頻域設(shè)計(jì)的視聽(tīng)分割方法在權(quán)利要求書(shū)中公布了:1.一種集成頻域設(shè)計(jì)的視聽(tīng)分割方法,其特征在于,步驟如下:步驟1:通過(guò)頻域?qū)虻囊纛l集成模塊優(yōu)化的特征編碼在音頻編碼階段,使用VGGish模型作為音頻編碼器提取音頻特征;在視覺(jué)編碼階段,設(shè)計(jì)了一個(gè)頻域?qū)虻囊纛l集成模塊,在圖像編碼的過(guò)程中引入頻域增強(qiáng)與早期融合相結(jié)合的設(shè)計(jì),生成更有效的視覺(jué)表示;具體如下:采用ResNet-50或PVT-v2作為視覺(jué)編碼器,視覺(jué)編碼器包含四個(gè)stage用于逐步提取特征,表示為stage1、stage2、stage3和tage4;ResNet-50基于卷積神經(jīng)網(wǎng)絡(luò),通過(guò)殘差連接和卷積操作逐步降低特征圖分辨率,同時(shí)增加通道數(shù);PVT-v2采用Transformer架構(gòu),通過(guò)自注意力機(jī)制和patch嵌入方式進(jìn)行特征提取,在每個(gè)stage中通過(guò)空間降采樣和優(yōu)化的計(jì)算方式有效捕捉全局信息;頻域?qū)虻囊纛l集成模塊被插入到每個(gè)stage的輸出之后,用于對(duì)對(duì)應(yīng)stage生成的特征圖進(jìn)行處理;經(jīng)過(guò)頻域?qū)虻囊纛l集成模塊處理后,得到的視覺(jué)增強(qiáng)特征作為當(dāng)前stage的輸出,被傳遞給下一stage作為輸入;每個(gè)頻域?qū)虻囊纛l集成模塊的細(xì)節(jié)表述如下:對(duì)于音頻編碼器輸出的音頻特征和來(lái)自視覺(jué)編碼器當(dāng)前stage的空間域視覺(jué)特征圖,首先使用快速傅里葉變換將空間域視覺(jué)特征轉(zhuǎn)換到頻域: 其中,表示頻域特征圖,表示快速傅里葉變換,分別表示視覺(jué)特征圖的高和寬的索引,分別表示轉(zhuǎn)換后的頻域特征圖的高和寬的索引;再引入一個(gè)閾值將頻域特征圖劃分為高頻分量和低頻分量,具體如公式下: 進(jìn)一步,通過(guò)引入可學(xué)習(xí)參數(shù)和自適應(yīng)地調(diào)整解耦后的頻率分量,生成頻域增強(qiáng)的視覺(jué)表征,該過(guò)程表示如下: 其中,表示頻域增強(qiáng)后的視覺(jué)表征,表示逆快速傅里葉變換,用于將頻域特征映射回空間域;之后,引入跨模態(tài)注意力機(jī)制將音頻編碼器生成的音頻特征到視覺(jué)表征,并使用殘差連接得到音頻感知的視覺(jué)表征,作為當(dāng)前stage的最終輸出和下一stage的輸入;該過(guò)程用公式表述如下: 其中,表示跨模態(tài)注意力機(jī)制;最終,視覺(jué)編碼器輸出四個(gè)多尺度編碼特征{},其中,T表示輸入視頻幀的時(shí)間,H和W分別表示輸入的視頻每幀的高和寬,表示每個(gè)編碼特征的通道數(shù);之后,使用一個(gè)基于多尺度可變形Transformer的像素解碼器進(jìn)行多尺度視覺(jué)特征融合;具體細(xì)節(jié)如下:視覺(jué)編碼器提取的多尺度編碼特征被進(jìn)一步送入像素解碼器中,多尺度編碼特征{中的后三個(gè)尺度的視覺(jué)特征被展開(kāi),沿通道維度連接,再通過(guò)多尺度可變形Transformer層進(jìn)行特征融合,獲得增強(qiáng)的多尺度視覺(jué)特征{;步驟2:基于頻域的跨模態(tài)融合設(shè)計(jì)一個(gè)基于頻域的跨模態(tài)融合模塊,用于充分探索視聽(tīng)對(duì)應(yīng)關(guān)系;基于頻域的跨模態(tài)融合模塊包含兩個(gè)分支:空間引導(dǎo)分支和頻域感知分支;具體如下:(1)空間引導(dǎo)的分支:包括空間域跨模態(tài)注意力運(yùn)算:使用跨模態(tài)注意力機(jī)制進(jìn)行空間域的視聽(tīng)融合,對(duì)于音頻編碼器輸出的音頻特征和像素解碼器輸出的多尺度視覺(jué)特征{中的最大分辨率視覺(jué)特征,分別將編碼音頻特征作為查詢,空間域視覺(jué)特征作為鍵和值輸入到跨模態(tài)注意力機(jī)制中,得到融合的多模態(tài)特征,該過(guò)程表述如下: 其中,、、是將特征映射到維度為的中間層特征的可學(xué)習(xí)投影矩陣;之后,多模態(tài)特征用于后續(xù)優(yōu)化和調(diào)整視覺(jué)特征,通過(guò)一個(gè)帶有可學(xué)習(xí)參數(shù)加權(quán)的殘差連接,與編碼音頻特征相結(jié)合,得到增強(qiáng)的音頻特征: (2)頻域感知的分支:頻域感知的分支與空間引導(dǎo)的分支并行工作;首先使用快速傅里葉變換將空間域的最大分辨率視覺(jué)特征轉(zhuǎn)換到頻域,得到頻域視覺(jué)特征圖,然后使用全局平均池化減少頻域視覺(jué)特征維度同時(shí)保留全局信息;考慮到頻域視覺(jué)特征的主要結(jié)構(gòu)和紋理信息體現(xiàn)在幅度譜中,并且音頻特征通過(guò)提取音頻頻譜圖并使用音頻編碼器進(jìn)行編碼得到,進(jìn)一步對(duì)頻域視覺(jué)特征圖提取頻譜特征,以促進(jìn)后續(xù)的視聽(tīng)交互與對(duì)齊;該過(guò)程表示如下: 其中,、、、、分別表示傅里葉變換后的頻域視覺(jué)特征圖、全局平均池化后的頻域特征、全局平均池化操作、的實(shí)部和的虛部;最終,頻域感知的分支與空間引導(dǎo)的分支協(xié)同工作,以優(yōu)化和調(diào)整視覺(jué)表征;頻譜特征和融合的多模態(tài)特征首先各自獨(dú)立地經(jīng)過(guò)一層卷積層處理,隨后,兩者通過(guò)逐元素相加和卷積層實(shí)現(xiàn)深度融合,使得頻譜特征與融合的多模態(tài)特征相互補(bǔ)充和增強(qiáng),促進(jìn)多模態(tài)信息在頻域內(nèi)的有效交互與融合;該過(guò)程表述為: 其中,表示卷積操作,表示輸出結(jié)果,用于加權(quán)調(diào)整原始視覺(jué)特征;通過(guò)乘法調(diào)整,同樣經(jīng)過(guò)帶有可學(xué)習(xí)參數(shù)加權(quán)的殘差連接,得到增強(qiáng)的視覺(jué)特征; 其中,表示加權(quán)可學(xué)習(xí)參數(shù);通過(guò)基于頻域的跨模態(tài)融合模塊,最終得到優(yōu)化的音頻特征和視覺(jué)特征;步驟3:通過(guò)解碼器實(shí)現(xiàn)掩碼生成采用Mask2Former架構(gòu)作為解碼器,生成發(fā)聲物體查詢嵌入;再由發(fā)聲物體查詢嵌入與步驟2得到的相結(jié)合生成預(yù)測(cè)掩碼;具體如下:基于頻域的跨模態(tài)融合模塊得到的優(yōu)化后音頻特征與可學(xué)習(xí)參數(shù)初始化得到的可學(xué)習(xí)查詢通過(guò)逐點(diǎn)加法相結(jié)合,作為解碼器的查詢;同時(shí),像素解碼器進(jìn)行多尺度特征融合輸出的增強(qiáng)的多尺度視覺(jué)特征{依次作為鍵和值,并通過(guò)逐層跨模態(tài)注意力機(jī)制與基于音頻的查詢進(jìn)行交互,生成發(fā)聲物體查詢嵌入;最后,通過(guò)線性層得到分類(lèi)預(yù)測(cè),與基于頻域的跨模態(tài)融合模塊得到的優(yōu)化后最大分辨率視覺(jué)特征相乘,得到預(yù)測(cè)掩碼;步驟4:模型訓(xùn)練在訓(xùn)練過(guò)程中同時(shí)考慮類(lèi)別損失和預(yù)測(cè)掩碼損失,為了利用視聽(tīng)分割潛在的時(shí)間耦合性來(lái)提高模型的性能,采用自適應(yīng)幀間一致性損失;三種損失相結(jié)合得到總損失并反向傳播優(yōu)化模型: 其中,表示真實(shí)類(lèi)別,表示模型預(yù)測(cè)類(lèi)別,類(lèi)別損失函數(shù)由交叉熵函數(shù)計(jì)算;和分別表示真實(shí)掩碼和預(yù)測(cè)掩碼上某個(gè)點(diǎn)的標(biāo)簽,掩碼損失函數(shù)由二分類(lèi)交叉熵和Diceloss構(gòu)成;表示第t幀的預(yù)測(cè)掩碼,即自適應(yīng)幀間一致性損失;、、分別表示加權(quán)參數(shù),即總損失函數(shù)。
如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類(lèi)似專(zhuān)利技術(shù),可聯(lián)系本專(zhuān)利的申請(qǐng)人或?qū)@麢?quán)人大連理工大學(xué),其通訊地址為:116024 遼寧省大連市甘井子區(qū)凌工路2號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 恭喜英特爾公司B.溫布獲國(guó)家專(zhuān)利權(quán)
- 恭喜珠海廣通汽車(chē)有限公司劉楊獲國(guó)家專(zhuān)利權(quán)
- 恭喜OPPO廣東移動(dòng)通信有限公司雷藝學(xué)獲國(guó)家專(zhuān)利權(quán)
- 恭喜華為技術(shù)有限公司理查德·斯特林-加拉赫獲國(guó)家專(zhuān)利權(quán)
- 恭喜ASM IP私人控股有限公司M·明喬夫獲國(guó)家專(zhuān)利權(quán)
- 恭喜青島海爾洗碗機(jī)有限公司孔成獲國(guó)家專(zhuān)利權(quán)
- 恭喜福特全球技術(shù)公司J·E·羅林格獲國(guó)家專(zhuān)利權(quán)
- 恭喜杭州小米環(huán)境科技有限公司王啟定獲國(guó)家專(zhuān)利權(quán)
- 恭喜臺(tái)灣積體電路制造股份有限公司蔡俊雄獲國(guó)家專(zhuān)利權(quán)
- 恭喜上海微創(chuàng)心通醫(yī)療科技有限公司吳旭聞獲國(guó)家專(zhuān)利權(quán)


熱門(mén)推薦
- 恭喜邵碧璐獲國(guó)家專(zhuān)利權(quán)
- 恭喜青島海爾洗碗機(jī)有限公司張敏獲國(guó)家專(zhuān)利權(quán)
- 恭喜瓦里安半導(dǎo)體設(shè)備公司法蘭克·辛克萊獲國(guó)家專(zhuān)利權(quán)
- 恭喜南昌歐菲光科技有限公司劉統(tǒng)輝獲國(guó)家專(zhuān)利權(quán)
- 恭喜杭州小米環(huán)境科技有限公司王啟定獲國(guó)家專(zhuān)利權(quán)
- 恭喜株式會(huì)社國(guó)際電氣通信基礎(chǔ)技術(shù)研究所朱塞佩·里斯獲國(guó)家專(zhuān)利權(quán)
- 恭喜精密生物制品股份有限公司P·M·阿蘭獲國(guó)家專(zhuān)利權(quán)
- 恭喜杭州小米環(huán)境科技有限公司王啟定獲國(guó)家專(zhuān)利權(quán)
- 恭喜OPPO廣東移動(dòng)通信有限公司唐海獲國(guó)家專(zhuān)利權(quán)
- 恭喜無(wú)錫天極芯科技有限公司張懷東獲國(guó)家專(zhuān)利權(quán)