恭喜一百分信息技術有限公司王濤獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜一百分信息技術有限公司申請的專利一種基于大數據的語言翻譯方法、電子設備及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119783697B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510288308.9,技術領域涉及:G06F40/58;該發明授權一種基于大數據的語言翻譯方法、電子設備及系統是由王濤;車振英設計研發完成,并于2025-03-12向國家知識產權局提交的專利申請。
本一種基于大數據的語言翻譯方法、電子設備及系統在說明書摘要公布了:本發明涉及自然語言處理技術領域,具體涉及一種基于大數據的語言翻譯方法、電子設備及系統,包括:構建初始NMT模型并翻譯待翻譯句段得到初始譯文;構建網絡語料庫,結合網絡語料庫對待翻譯句段和初始譯文中詞單元在語句結構上的關系進行語義分析,得到詞單元的句結構參數,并通過詞單元在網絡語料庫中的同義詞和近義詞在所屬語句中進行替換,分析替換前后的語義變化特征,得到詞單元的語義特征值,將詞單元的句結構參數與語義特征值結合,得到詞單元的翻譯度,從而對NMT算法進行反饋,并迭代地對待翻譯句段進行翻譯,得到最終譯文。本發明有效優化了譯文的語義表達,提升了翻譯的準確性和語境適應性。
本發明授權一種基于大數據的語言翻譯方法、電子設備及系統在權利要求書中公布了:1.一種基于大數據的語言翻譯方法,其特征在于,該方法包括以下步驟:獲取語料數據,并初步訓練NMT模型得到初始NMT模型;獲取待翻譯句段,通過初始NMT模型對待翻譯句段進行翻譯,得到初始譯文;利用爬蟲技術爬取網絡語料數據,從而構建網絡語料庫;結合網絡語料庫對初始譯文中的每個詞單元在語句結構上的關系進行語義分析,得到初始譯文中每個詞單元的句結構參數,并通過詞單元在網絡語料庫中的同義詞和近義詞在所屬語句中進行替換,分析替換前后的語義變化特征,得到初始譯文中每個詞單元的語義特征值,將初始譯文中任意詞單元的句結構參數與語義特征值結合,得到詞單元的翻譯度;結合詞單元的翻譯度對NMT模型進行反饋,構建反饋函數并迭代地對待翻譯句段進行翻譯,得到最終譯文;所述結合網絡語料庫對初始譯文中的每個詞單元在語句結構上的關系進行語義分析,得到初始譯文中每個詞單元的句結構參數,包括的具體方法為:利用Jieba分詞對初始譯文進行分詞處理,得到的分詞結果中每一個詞組作為一個詞單元;對于任意詞單元,獲取在網絡語料庫中包含所述任意詞單元的若干句段,記為所述任意詞單元的語料句段;對任意詞單元的初始譯文以及語料句段進行文本結構分析,獲取初始譯文和每個語料句段的余弦結構序列;根據初始譯文分別與初始譯文中每個詞單元對應的所有語料句段之間對應的余弦結構序列的相似性,并結合每個詞單元對應語料句段的結構特征,獲取任意詞單元的句結構參數;所述任意詞單元的句結構參數的具體獲取方法為:獲取初始譯文與語料句段之間的結構因子;所述詞單元的句結構參數的具體計算方法為: 其中,為初始譯文中第個詞單元的句結構參數;為初始譯文與初始譯文中第個詞單元的第個語料句段分別對應的余弦結構序列之間的DTW距離;為初始譯文中第個詞單元的語料句段的數量;為初始譯文與初始譯文中第個詞單元的第個語料句段之間的結構因子;為初始譯文中第個詞單元的第個語料句段中所有分詞與初始譯文中詞單元相同的數量;為初始譯文中第個詞單元的第個語料句段中所有分詞的數量;為標準差函數;所述初始譯文與語料句段之間的結構因子的具體獲取方法為:獲取初始譯文與語料句段中相同的分詞;將一個分詞作為一個節點,按照分詞在對應文本中的先后順序進行連接,并將向后順序作為對應的連接方向;將相鄰分詞在對應的文本中之間的間隔作為對應連接邊的邊權,分別構成初始譯文與語料句段對應的鏈式的分詞圖結構;通過圖編輯距離獲取初始譯文與語料句段對應的分詞圖結構之間的圖相似度,作為所述初始譯文與語料句段之間的結構因子。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人一百分信息技術有限公司,其通訊地址為:250000 山東省濟南市中國(山東)自由貿易試驗區濟南片區新濼大街1166號奧盛大廈3號樓10層1006室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。