恭喜浙江大學;杭州一知智能科技有限公司趙洲獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江大學;杭州一知智能科技有限公司申請的專利一種無約束唇語到語音合成方法、系統和存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114974206B 。
龍圖騰網通過國家知識產權局官網在2025-05-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210677656.1,技術領域涉及:G10L13/02;該發明授權一種無約束唇語到語音合成方法、系統和存儲介質是由趙洲;王泳淇;佘清順;陳哲乾設計研發完成,并于2022-06-15向國家知識產權局提交的專利申請。
本一種無約束唇語到語音合成方法、系統和存儲介質在說明書摘要公布了:本發明公開了一種無約束唇語到語音合成方法、系統和存儲介質,屬于語音合成領域。通過視覺編碼器從唇語視頻序列中提取并編碼得到視覺特征向量;將視覺特征向量的長度調整至對應音頻內容的長度,得到與對應音頻內容對齊后的視覺特征向量;通過聲學編碼器將對齊后的視覺特征向量轉換成對應的聲學特征向量;根據聲學特征向量生成對應的梅爾頻譜,結合真實的梅爾頻譜對所述的視覺編碼器和聲學編碼器進行訓練;固定視覺編碼器和聲學編碼器的參數,訓練音頻生成器,利用訓練好的音頻生成器將聲學特征向量合成音頻波形,轉化為預測音頻。本發明可以直接在無約束的視頻上以更快地的推理速度合成更高質量的語音。
本發明授權一種無約束唇語到語音合成方法、系統和存儲介質在權利要求書中公布了:1.一種無約束唇語到語音合成方法,其特征在于,包括如下步驟:S1:通過視覺編碼器從唇語視頻序列中提取并編碼得到視覺特征向量;所述的視覺編碼器包括視覺標記層、空間transformer和時序transformer;所述的步驟S1包括:S1-1:獲取唇語視頻序列V={v1,v2,……,vn},其中vi代表視頻序列中第i幀,n代表視頻序列長度;利用視覺標記層提取唇語視頻序列V的局部特征,并生成包含時空信息的視覺標記;并對視覺標記進行位置編碼,得到視覺標記序列T={t1,t2,……,tn},其中ti代表視頻序列中第i幀的視覺標記;S1-2:通過空間transformer對步驟S1-1得到的視覺標記序列T進行相鄰視覺標記之間的空間相關性編碼,得到空間編碼后的視覺標記序列T′;S1-3:將步驟S1-2得到的空間編碼后的視覺標記序列T′中具有相同時序索引的多個隱藏層線性映射成一個低維的單個隱藏層,并進行位置編碼,得到視覺特征向量F′;S1-4:通過時序transformer對步驟S1-3得到的視覺特征向量F′進行時序相關性編碼,將時序編碼后的視覺特征向量作為最終視覺特征向量F;S2:將步驟S1得到的視覺特征向量的長度調整至對應音頻內容的長度,得到與對應音頻內容對齊后的視覺特征向量;S3:通過聲學編碼器將步驟S2得到的對齊后的視覺特征向量轉換成對應的聲學特征向量;S4:根據步驟S3得到的聲學特征向量生成對應的梅爾頻譜,結合真實的梅爾頻譜對所述的視覺編碼器和聲學編碼器進行訓練;S5:固定視覺編碼器和聲學編碼器的參數,訓練音頻生成器,利用訓練好的音頻生成器將步驟S3得到的聲學特征向量合成音頻波形,轉化為預測音頻。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江大學;杭州一知智能科技有限公司,其通訊地址為:310058 浙江省杭州市西湖區余杭塘路866號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。