沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司楊迪獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司申請的專利一種基于迭代降維的詞典翻譯方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114722844B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-03-21發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202210267120.2,技術(shù)領(lǐng)域涉及:G06F40/58;該發(fā)明授權(quán)一種基于迭代降維的詞典翻譯方法是由楊迪;姜炎宏設(shè)計研發(fā)完成,并于2022-03-17向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于迭代降維的詞典翻譯方法在說明書摘要公布了:本發(fā)明公開一種基于迭代降維的詞典翻譯方法,步驟為:收集兩個語種的單語語料,分別進(jìn)行分詞后得到訓(xùn)練數(shù)據(jù),并訓(xùn)練出兩個語種的詞嵌入空間;將兩個單語詞嵌入分別進(jìn)行降維至規(guī)定閾值的維度;將降維后的詞嵌入輸入無監(jiān)督詞典翻譯算法中進(jìn)行訓(xùn)練,保存兩個共享詞嵌入空間;以CSLS作為度量距離在兩個共享詞嵌入空間推斷出詞頻在規(guī)定閾值以上的互譯詞典;以互譯詞典以及降維的詞嵌入輸入到監(jiān)督詞典翻譯算法中進(jìn)行訓(xùn)練,模型收斂后保存兩個共享詞嵌入空間;重復(fù)上述步驟直到模型收斂,從兩個共享的詞嵌入中進(jìn)行詞典翻譯,得到最終的雙語詞典。本發(fā)明可有效提高許多遠(yuǎn)距離語言對詞典翻譯的準(zhǔn)確率,可以廣泛應(yīng)用于機(jī)器翻譯、知識挖掘等下游任務(wù)中。
本發(fā)明授權(quán)一種基于迭代降維的詞典翻譯方法在權(quán)利要求書中公布了:1.一種基于迭代降維的詞典翻譯方法,其特征在于包括以下步驟:1網(wǎng)上收集任意兩個語種的單語語料,使用通用的分詞工具分別進(jìn)行分詞后得到訓(xùn)練數(shù)據(jù),之后將訓(xùn)練數(shù)據(jù)用詞嵌入算法以相同的參數(shù)配置訓(xùn)練出兩個語種的詞嵌入空間X和Y;2利用主成分分析算法將兩個單語詞嵌入X和Y分別進(jìn)行降維至規(guī)定閾值的維度d;3將降維后的詞嵌入輸入到現(xiàn)有的無監(jiān)督詞典翻譯算法中進(jìn)行訓(xùn)練,模型收斂后保存兩個共享詞嵌入空間WX與WY;4以CSLS作為度量距離在兩個共享詞嵌入空間WX與WY推斷出詞頻在規(guī)定閾值以上的互譯詞典D;5以互譯詞典D以及降維至維度為2*d的詞嵌入輸入到監(jiān)督詞典翻譯算法中進(jìn)行訓(xùn)練,模型收斂后保存兩個共享詞嵌入空間WX與WY;6重復(fù)步驟4和步驟5,其中每一輪中詞嵌入維度d為上一輪維度的兩倍,直到與原始詞嵌入維度相等為止;模型收斂后從兩個共享的詞嵌入WX與WY中進(jìn)行詞典翻譯即可得到最終的雙語詞典。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司,其通訊地址為:110004 遼寧省沈陽市和平區(qū)三好街78號東軟電腦城C座11層;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。