恭喜平安科技(深圳)有限公司郭洋獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜平安科技(深圳)有限公司申請的專利一種端到端語音轉換方法、系統、終端及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114974274B 。
龍圖騰網通過國家知識產權局官網在2025-04-01發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210374176.8,技術領域涉及:G10L21/013;該發明授權一種端到端語音轉換方法、系統、終端及存儲介質是由郭洋;王健宗;程寧設計研發完成,并于2022-04-11向國家知識產權局提交的專利申請。
本一種端到端語音轉換方法、系統、終端及存儲介質在說明書摘要公布了:本發明公開了一種端到端語音轉換方法、系統、終端及存儲介質。所述方法包括:獲取源說話人的源語音數據以及所述源語音數據的梅爾譜;將所述源語音數據和梅爾譜輸入預訓練好的語音轉換模型,通過所述語音轉換模型計算出源語音數據的第一隱變量,所述第一隱變量包含所述源語音數據中的語音內容信息以及所述源說話人的音色信息;基于所述第一隱變量從所述源語音數據中分離出僅包含語音內容信息的第二隱變量;根據所述第二隱變量和目標說話人進行語音轉換,得到轉換后的目標說話人的語音數據。本發明無需依賴平行數據集,節省了大量數據集制作成本。同時,無需依賴聲碼器,避免了語音轉換模型與聲碼器直接特征不匹配的問題,提高了語音轉換質量。
本發明授權一種端到端語音轉換方法、系統、終端及存儲介質在權利要求書中公布了:1.一種端到端語音轉換方法,其特征在于,包括:獲取源說話人的源語音數據以及所述源語音數據的梅爾譜;將所述源語音數據和梅爾譜輸入預訓練好的語音轉換模型,通過所述語音轉換模型計算出源語音數據的第一隱變量,所述第一隱變量包含所述源語音數據中的語音內容信息以及所述源說話人的音色信息;所述語音轉換模型基于條件式變換自編碼機結構,所述語音轉換模型包括encoder、decoder和鑒別器,所述encoder和decoder分別包括殘差層、降采樣層和升采樣層,殘差層用于從輸入中計算提取隱狀態,以說話人嵌入作為條件輸入,用于建模不同說話人;所述降采樣層和升采樣分別用于對輸入進行降采樣和升采樣處理;所述鑒別器用于辨別decoder產生的輸出與真實數據樣本,對所述語音轉換模型進行對抗性訓練;所述通過所述語音轉換模型計算出源語音數據的第一隱變量包括,通過encoder根據輸入的源語音數據和梅爾譜x計算出包含源語音數據中的語音內容信息以及源說話人s的音色信息的第一隱變量z;所述第一隱變量z服從以源說話人s和梅爾譜x為前提的條件概率分布,所述第一隱變量z的計算公式為:z~qφz|x,s;基于所述第一隱變量從所述源語音數據中分離出僅包含語音內容信息的第二隱變量;所述基于所述第一隱變量從所述源語音數據中分離出僅包含語音內容信息的第二隱變量包括,基于第一隱變量z,decoder通過normalizingflow函數fθ對所述源語音數據中的語音內容信息以及源說話人s的音色信息進行分離,分別得到僅包含語音內容信息的第二隱變量c以及用于表征源說話人s音色信息的第三隱變量e,所述第二隱變量c的計算公式為:c=fθz|s;根據所述第二隱變量和目標說話人進行語音轉換,得到轉換后的目標說話人的語音數據;所述根據所述第二隱變量和目標說話人進行語音轉換,得到轉換后的目標說話人的語音數據包括基于第二隱變量c和目標說話人利用normalizingflow函數fθ的逆變換計算得到音色轉換后的第四隱變量所述第四隱變量與所述第一隱變量z包含同樣的語音內容信息,且包含目標說話人的音色信息;將所述音色轉換后的第四隱變量通過decoder網絡,生成音色轉換后的目標說話人的語音數據G表示解碼器decoder。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人平安科技(深圳)有限公司,其通訊地址為:518000 廣東省深圳市福田區福田街道福安社區益田路5033號平安金融中心23樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。