恭喜華南理工大學劉江楓獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜華南理工大學申請的專利一種基于端到端的音色及情感遷移的跨語言語音合成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115359774B 。
龍圖騰網通過國家知識產權局官網在2025-04-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210782542.3,技術領域涉及:G10L13/02;該發明授權一種基于端到端的音色及情感遷移的跨語言語音合成方法是由劉江楓;毛愛華;郭勇彬;張柳堅設計研發完成,并于2022-07-05向國家知識產權局提交的專利申請。
本一種基于端到端的音色及情感遷移的跨語言語音合成方法在說明書摘要公布了:本發明公開了一種基于端到端的音色及情感遷移的跨語言語音合成方法,步驟如下:S1、采集并處理中英文的語音訓練數據,提取出所需的語音特征;S2、訓練中文和英文的語音合成的學習網絡架構,包括說話人編碼器、合成器和聲碼器三部分;S3、利用訓練完成的學習網絡架構,對說話人輸入的實時語音進行跨語言的語音合成,合成語音能夠有效保留說話人的音色和情感。本方法提供了跨語言的語音合成方法,在給定說話人少量語音的條件下,能夠合成跨語言的語音,且可以在合成語音中保留說話人的音色和情感。
本發明授權一種基于端到端的音色及情感遷移的跨語言語音合成方法在權利要求書中公布了:1.一種基于端到端的音色及情感遷移的跨語言語音合成方法,其特征在于,所述語音合成方法包括以下步驟:S1、采集訓練數據:采集多個說話人的多句短錄音文件,對每個多句短錄音文件建立一一對應的文本標記,其中多句短錄音文件不超過15秒,總時長不小于30小時,錄音環境應為安靜的室內環境;S2、預處理:對多句短錄音文件進行語音處理,轉換為所需的音頻文件,以及生成一個或多個JSON格式的文件;過程如下:S2.1、對多句短錄音文件使用進行語音處理,多句短錄音文件將被轉換為音頻采樣率16000Hz、音頻格式wav格式、位深16bits、單聲道的音頻文件;S2.2、將文本標記、說話人、說話人ID、語音處理得到的音頻文件標記拼接成一個或多個JSON格式的文件,其中文本標記是指說話人和說話內容對應的音頻文件的語音內容,說話人ID是指對說話人進行的編號標記,音頻文件標記是指說話人和說話內容對應的音頻文件名稱;S3、構建用于中文和英文進行語音合成的學習網絡架構,該學習網絡架構包括說話人編碼器、合成器和聲碼器;S4、訓練說話人編碼器:說話人編碼器以步驟S2中音頻文件的梅爾頻譜為輸入,輸出一個固定維度的嵌入向量,該嵌入向量可保留說話人的音色和情感;S5、訓練合成器:合成器由依次連接的編碼器和解碼器組成,其中,編碼器由1個預處理網絡、3個一維卷積層和1個雙向LSTM層組成,輸入為步驟S2中生成的JSON文件,輸出為編碼器隱狀態,解碼器由1個預處理網絡、依次順序連接的兩層LSTM網絡、投影層和后處理網絡組成,對編碼器輸出的隱狀態解碼,生成合成語音的梅爾頻譜,首先編碼器解析預處理生成的JSON文件來生成編碼器隱狀態,接著將編碼器隱狀態輸入解碼器中,解碼器輸出合成語音的梅爾頻譜;S6、訓練聲碼器:聲碼器由并行的WaveRNN聲碼器和HiFi-GAN聲碼器組成,以解碼器生成的梅爾頻譜為輸入,輸出預測語音合成的波形;S7、將實時語音進行預處理操作后,輸入訓練完成的學習網絡架構中,獲得跨語言的合成語音。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華南理工大學,其通訊地址為:510640 廣東省廣州市天河區五山路381號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。