国产精品天干天干在线播放,大尺度揉捏胸床戏视频,樱花草www日本在线观看,狠狠躁夜夜躁人人爽天天天天97

Document
拖動(dòng)滑塊完成拼圖
個(gè)人中心

預(yù)訂訂單
服務(wù)訂單
發(fā)布專利 發(fā)布成果 人才入駐 發(fā)布商標(biāo) 發(fā)布需求

在線咨詢

聯(lián)系我們

龍圖騰公眾號(hào)
首頁 專利交易 科技果 科技人才 科技服務(wù) 國際服務(wù) 商標(biāo)交易 會(huì)員權(quán)益 IP管家助手 需求市場 關(guān)于龍圖騰
 /  免費(fèi)注冊(cè)
到頂部 到底部
清空 搜索
當(dāng)前位置 : 首頁 > 專利喜報(bào) > 恭喜華南理工大學(xué)劉丁瑋獲國家專利權(quán)

恭喜華南理工大學(xué)劉丁瑋獲國家專利權(quán)

買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!

龍圖騰網(wǎng)恭喜華南理工大學(xué)申請(qǐng)的專利一種端到端的音色及情感遷移的中文語音克隆方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN115359775B 。

龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-05-16發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202210846358.0,技術(shù)領(lǐng)域涉及:G10L13/02;該發(fā)明授權(quán)一種端到端的音色及情感遷移的中文語音克隆方法是由劉丁瑋;陳鏵浚;毛愛華;劉江楓;郭勇彬;張柳堅(jiān)設(shè)計(jì)研發(fā)完成,并于2022-07-05向國家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。

一種端到端的音色及情感遷移的中文語音克隆方法在說明書摘要公布了:本發(fā)明公開了一種端到端的音色及情感遷移的中文語音克隆方法,步驟如下:采集用戶錄制的中文語音作為訓(xùn)練數(shù)據(jù),提取出所需的語音特征;訓(xùn)練語音克隆合成模型,包括音色情感編碼器、合成器和聲碼器三部分;利用訓(xùn)練完成的語音克隆合成模型,根據(jù)用戶輸入的語音或文字內(nèi)容,生成語音克隆合成模型已有的指定說話人的語音;或根據(jù)用戶輸入的短時(shí)語音,快速克隆用戶語音中的音色和情感。本發(fā)明實(shí)現(xiàn)端到端的語音合成與克隆,通過多說話人模型,以同一模型和不同說話人向量嵌入合成不同情感和音色的語音。本發(fā)明用短語音產(chǎn)生的說話人嵌入向量,結(jié)合使用較多語料訓(xùn)練的生成模型進(jìn)行語音克隆,實(shí)現(xiàn)了能夠體現(xiàn)特定說話人音色和情感的語音克隆。

本發(fā)明授權(quán)一種端到端的音色及情感遷移的中文語音克隆方法在權(quán)利要求書中公布了:1.一種端到端的音色及情感遷移的中文語音克隆方法,其特征在于,所述中文語音克隆方法包括以下步驟:S1、采集語音數(shù)據(jù):采集多個(gè)說話人的多條中文短句語音文件,每個(gè)說話人根據(jù)給定的文本錄制多條短句語音,并對(duì)每個(gè)語音文件建立其對(duì)應(yīng)的文本標(biāo)記,其中每條語音不超過15秒,語音總時(shí)長不少于30個(gè)小時(shí),并在安靜的環(huán)境下進(jìn)行語音的錄制;S2、數(shù)據(jù)預(yù)處理:對(duì)于步驟S1中采集的語音文件進(jìn)行處理,統(tǒng)一語音文件的采樣率、格式、位深和聲道數(shù),得到所需的音頻文件,同時(shí)生成含有錄音文件標(biāo)記、對(duì)應(yīng)語音文本標(biāo)記和說話人標(biāo)記的JSON文件;過程如下:S2.1、對(duì)多條短句語音文件進(jìn)行語音處理,將多條短句錄音文件轉(zhuǎn)換為音頻采樣率為16000Hz、音頻格式為wav格式、位深為16bits、單聲道的音頻文件;S2.2、生成含有標(biāo)記的JSON文件,將文本標(biāo)記、說話人、說話人ID、語音處理得到的音頻文件標(biāo)記拼接得到一個(gè)或多個(gè)JSON格式的文件,其中文本標(biāo)記指的是與音頻內(nèi)容對(duì)應(yīng)的中文文本,說話人ID是指對(duì)說話人進(jìn)行的編號(hào)標(biāo)記,音頻文件標(biāo)記是指說話人和說話內(nèi)容對(duì)應(yīng)的音頻文件名稱S3、構(gòu)建中文語音克隆合成模型:中文語音克隆合成模型包括音色情感編碼器、合成器和聲碼器;S4、構(gòu)建音色情感編碼器:音色情感編碼器包括三層依次連接的LSTM網(wǎng)絡(luò),計(jì)算所述音頻文件的頻域特征梅爾頻譜作為音色情感編碼器的輸入,得到固定維度的說話人嵌入向量作為音色情感編碼器的輸出;S5、訓(xùn)練合成器:合成器由依次連接的1個(gè)編碼器和1個(gè)解碼器組成,其中編碼器包括全連接層組成的預(yù)處理網(wǎng)絡(luò)、詞嵌入模塊、3個(gè)依次連接的一維卷積層和1個(gè)雙向LSTM網(wǎng)絡(luò),將所述JSON文件作為編碼器的輸入,以編碼器隱狀態(tài)作為編碼器的輸出;解碼器包括1個(gè)預(yù)處理網(wǎng)絡(luò)、2層依次連接LSTM網(wǎng)絡(luò)、1個(gè)由線性映射層構(gòu)成的投影層和1個(gè)后處理網(wǎng)絡(luò),將編碼器隱狀態(tài)與音色情感編碼輸出的說話人嵌入向量拼接后作為解碼器的輸入,得到合成語音的梅爾頻譜作為解碼器的輸出;S6、訓(xùn)練聲碼器:聲碼器由并行的WaveRNN聲碼器和Griffin-Lim聲碼器組成,將解碼器輸出的合成語音的梅爾頻譜作為聲碼器的輸入,將合成語音的波形預(yù)測作為聲碼器的輸出;S7、生成克隆語音:將用戶輸入的文本或用戶輸入的語音經(jīng)過語音識(shí)別得到的文本,根據(jù)用戶指定的說話人使用不同的說話人嵌入向量,經(jīng)過合成器和聲碼器得到輸出語音;或者語音快速克隆:將用戶音頻經(jīng)過預(yù)處理,輸入音色情感編碼器,得到說話人嵌入向量,保存該說話人嵌入向量用于克隆語音的生成。

如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人華南理工大學(xué),其通訊地址為:510640 廣東省廣州市天河區(qū)五山路381號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。

免責(zé)聲明
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
主站蜘蛛池模板: 南木林县| 铜山县| 商丘市| 扬中市| 福州市| 毕节市| 循化| 竹北市| 信宜市| 安义县| 周至县| 榆树市| 宁城县| 商河县| 江川县| 黔东| 孝义市| 山东省| 高要市| 五莲县| 什邡市| 卓尼县| 西吉县| 永登县| 三江| 罗山县| 临泉县| 东山县| 南丰县| 霞浦县| 芜湖县| 慈溪市| 长宁区| 诸城市| 二连浩特市| 烟台市| 建德市| 边坝县| 陕西省| 宁波市| 西和县|