恭喜浙江大學(xué)劉興高獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜浙江大學(xué)申請(qǐng)的專利一種針對(duì)中文語(yǔ)料拼寫錯(cuò)誤的智能糾錯(cuò)系統(tǒng)獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN114154486B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-04-01發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202111320100.9,技術(shù)領(lǐng)域涉及:G06F40/232;該發(fā)明授權(quán)一種針對(duì)中文語(yǔ)料拼寫錯(cuò)誤的智能糾錯(cuò)系統(tǒng)是由劉興高;王浩;陳圓圓;王文海;張志猛;張澤銀設(shè)計(jì)研發(fā)完成,并于2021-11-09向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種針對(duì)中文語(yǔ)料拼寫錯(cuò)誤的智能糾錯(cuò)系統(tǒng)在說(shuō)明書摘要公布了:本發(fā)明公開一種針對(duì)中文語(yǔ)料拼寫錯(cuò)誤的智能糾錯(cuò)系統(tǒng)。該智能檢測(cè)儀由文本特征提取模塊、文本錯(cuò)誤識(shí)別模塊、文本錯(cuò)誤校正模塊三個(gè)模塊構(gòu)成。本發(fā)明不需要對(duì)含錯(cuò)文本進(jìn)行人工標(biāo)注,具有實(shí)現(xiàn)方法簡(jiǎn)單、識(shí)別精度高、魯棒性好等特點(diǎn)。
本發(fā)明授權(quán)一種針對(duì)中文語(yǔ)料拼寫錯(cuò)誤的智能糾錯(cuò)系統(tǒng)在權(quán)利要求書中公布了:1.一種針對(duì)中文語(yǔ)料拼寫錯(cuò)誤的智能糾錯(cuò)系統(tǒng),由文本特征提取模塊、文本錯(cuò)誤識(shí)別模塊、文本錯(cuò)誤校正模塊三個(gè)模塊構(gòu)成;其中,所述文本特征提取模塊基于預(yù)訓(xùn)練語(yǔ)言模型,獲取語(yǔ)料的動(dòng)態(tài)編碼;所述文本錯(cuò)誤識(shí)別模塊:基于序列語(yǔ)言模型,預(yù)測(cè)文本中每個(gè)字符出現(xiàn)錯(cuò)誤的概率;所述文本錯(cuò)誤校正模塊基于文本錯(cuò)誤識(shí)別模塊輸出的錯(cuò)誤概率進(jìn)行掩碼,并使用語(yǔ)言模型預(yù)測(cè)正確字符;所述文本特征提取模塊通過(guò)以下步驟,將文本數(shù)據(jù)轉(zhuǎn)為語(yǔ)料動(dòng)態(tài)編碼:1尾部補(bǔ)零或截?cái)啵怨潭慷握Z(yǔ)料的長(zhǎng)度,將處理后的語(yǔ)料記為x,語(yǔ)料長(zhǎng)度記作seq;2構(gòu)建字符級(jí)字典D,將所述字典大小記作n,將文本數(shù)據(jù)中的每個(gè)字符按其在D中的順序做獨(dú)熱編碼,將編碼結(jié)果記作o∈Rseq,n;3將獨(dú)熱編碼結(jié)果送入預(yù)訓(xùn)練好的語(yǔ)言模型中,得到包含語(yǔ)義信息的高層字符表示,記作e∈Rseq,d;所述文本錯(cuò)誤識(shí)別模塊通過(guò)以下步驟,基于文本特征輸出每個(gè)字符的出錯(cuò)概率:1構(gòu)建網(wǎng)絡(luò)靜態(tài)計(jì)算圖;2模型訓(xùn)練:將提取出的文本特征輸入所述網(wǎng)絡(luò)靜態(tài)計(jì)算圖中,根據(jù)網(wǎng)絡(luò)輸出結(jié)果和標(biāo)簽信息計(jì)算損失函數(shù)及其對(duì)各層可學(xué)習(xí)參數(shù)的導(dǎo)數(shù),并根據(jù)計(jì)算得到的導(dǎo)數(shù)更新各層參數(shù);3實(shí)時(shí)評(píng)價(jià)和線上部署:每次參數(shù)更新后在驗(yàn)證集上解算模型的性能度量參數(shù),得到最終的分類器并部署上線;針對(duì)所述構(gòu)建的網(wǎng)絡(luò)靜態(tài)計(jì)算圖,上標(biāo)右箭頭的變量代表網(wǎng)絡(luò)從先到后遍歷文本特征,左箭頭的變量代表網(wǎng)絡(luò)從后到先遍歷文本特征在所述序列模型中的每個(gè)時(shí)間步t,先結(jié)合輸入信息et和前一時(shí)間步的隱含層狀態(tài)ht-1,用tanh函數(shù)得到當(dāng)前步記憶細(xì)胞狀態(tài)更新值的候選值; 其中,ht-1是前一時(shí)間步的隱含層狀態(tài),et是當(dāng)前步的輸入信息,WC是線性變換系數(shù),bC是偏置項(xiàng),上標(biāo)箭頭代表網(wǎng)絡(luò)遍歷方向接著,定義門單元:更新門Γu、遺忘門Γf、輸出門Γo這些門單元具有類似的定義方式,且都使用sigmoid函數(shù)做輸出映射 其中Wu,Wf,Wo分別是更新門、遺忘門、輸出門的線性變換系數(shù),bu,bf,bo分別是更新門、遺忘門、輸出門的偏置項(xiàng),上標(biāo)箭頭代表網(wǎng)絡(luò)遍歷方向σ·表示sigmoid函數(shù),它將門單元的輸出值控制0到1,在大多數(shù)情況下總是非常接近0或1對(duì)于上一時(shí)間步的記憶細(xì)胞狀態(tài)c<t-1>,遺忘門Γf決定是不是要遺忘它;對(duì)于當(dāng)前步記憶細(xì)胞狀態(tài)的更新值更新門Γu決定是否要真的更新它;接著,將更新后的細(xì)胞狀態(tài)c<t>通過(guò)輸出門Γo,可得到當(dāng)前步隱含層狀態(tài)a<t> 將各字符雙向特征拼接起來(lái),得到最終的特征表示ht: 最后,通過(guò)稠密連接層實(shí)現(xiàn)給定字符的含錯(cuò)概率預(yù)估:pt=σWeht+be其中,pt是第t個(gè)字符含錯(cuò)的概率,We,be是線性判別系數(shù),σ是sigmoid函數(shù);針對(duì)所述模型訓(xùn)練,給出一種使用基于二元交叉熵?fù)p失的訓(xùn)練方法: 其中,是模型預(yù)測(cè)出的給定字符的含錯(cuò)概率,是給定字符的實(shí)際是否含錯(cuò)標(biāo)簽,m是輸入語(yǔ)料數(shù)量,seq是輸入語(yǔ)料長(zhǎng)度;所述文本錯(cuò)誤校正模塊通過(guò)以下步驟,基于文本特征和出錯(cuò)概率,輸出每個(gè)字符的校正表示:1構(gòu)建軟掩模輸入序列;2構(gòu)建網(wǎng)絡(luò)靜態(tài)計(jì)算圖;3模型訓(xùn)練:將軟掩模輸入序列輸入所述網(wǎng)絡(luò)靜態(tài)計(jì)算圖中,根據(jù)網(wǎng)絡(luò)輸出結(jié)果和標(biāo)簽信息計(jì)算損失函數(shù)對(duì)各層可學(xué)習(xí)參數(shù)的導(dǎo)數(shù),并根據(jù)計(jì)算得到的導(dǎo)數(shù)更新各層參數(shù);4實(shí)時(shí)評(píng)價(jià)和線上部署:每次參數(shù)更新后在驗(yàn)證集上解算模型的性能度量參數(shù),得到最終的分類器并部署上線;針對(duì)其中所述軟掩模輸入序列,構(gòu)造軟掩模輸入序列為:emask,i=pi*ei′+1-pi*ei其中,是預(yù)先給定任意掩模序列,是字符含錯(cuò)概率預(yù)估序列,emask,i是生成的第i個(gè)字符的軟掩膜,ei是所述文本特征提取模塊輸出的第i個(gè)字符的特征嵌入基于文本錯(cuò)誤識(shí)別模塊輸出的錯(cuò)誤概率進(jìn)行掩碼如果模型推斷該字符出錯(cuò)概率很高,軟掩模emask,i接近掩模的嵌入ei′,否則它接近于輸入嵌入ei;針對(duì)其中所述網(wǎng)絡(luò)靜態(tài)計(jì)算圖,本發(fā)明給出一種基于Bert的實(shí)現(xiàn)方法所述BERT由12個(gè)相同的塊組成,以整個(gè)emask序列作為輸入每個(gè)block包含一個(gè)多頭部的self-attention操作:MultiHeadX=Concathead1;…,headhWc其中,Wc是待學(xué)習(xí)參數(shù),每一個(gè)head由如下自注意力方式實(shí)現(xiàn): 其中,是第j個(gè)注意力頭的待學(xué)習(xí)參數(shù)隨后是一個(gè)前饋網(wǎng)絡(luò),將各頭聚合信息進(jìn)行再次變換;將所述BERT最后一層的隱狀態(tài)序列表示為則對(duì)于第t個(gè)字符,誤差修正的概率定義為: 其中為候選列表中第k個(gè)字符作為輸入序列中第t個(gè)字符進(jìn)行修正的條件概率;針對(duì)其中所述模型訓(xùn)練,訓(xùn)練數(shù)據(jù)由原始含錯(cuò)文本序列和對(duì)應(yīng)的無(wú)錯(cuò)文本序列組成創(chuàng)建這種數(shù)據(jù)的方法是對(duì)無(wú)錯(cuò)文本隨機(jī)擾動(dòng),使其生成不同的含錯(cuò)序列,然后將其輸入模型中進(jìn)行有監(jiān)督校準(zhǔn)學(xué)習(xí)目標(biāo)為: 其中,m是輸入語(yǔ)料數(shù)量,seq是輸入語(yǔ)料長(zhǎng)度,K是候選詞典大小,是在輸入的第i段文本中,第t個(gè)字符可以被候選詞典中的第k項(xiàng)校正的概率,是模型預(yù)測(cè)的概率。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人浙江大學(xué),其通訊地址為:310058 浙江省杭州市西湖區(qū)余杭塘路866號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 恭喜酵活英屬哥倫比亞有限公司D·F·豪斯曼獲國(guó)家專利權(quán)
- 恭喜株式會(huì)社KT李培根獲國(guó)家專利權(quán)
- 恭喜株式會(huì)社半導(dǎo)體能源研究所池田隆之獲國(guó)家專利權(quán)
- 恭喜麻省理工學(xué)院阿塞貢·亨利獲國(guó)家專利權(quán)
- 恭喜元平臺(tái)技術(shù)有限公司沃倫·安德魯·亨特獲國(guó)家專利權(quán)
- 恭喜廈門宏發(fā)電力電器有限公司李敏智獲國(guó)家專利權(quán)
- 恭喜阿茲特拉公司T·M·懷特菲爾獲國(guó)家專利權(quán)
- 恭喜布魯克空間生物學(xué)公司D·杜納威獲國(guó)家專利權(quán)
- 恭喜埃努梅拉分子股份有限公司M·塞克達(dá)特獲國(guó)家專利權(quán)
- 恭喜山西文龍中美環(huán)能科技股份有限公司金智新獲國(guó)家專利權(quán)


熱門推薦
- 恭喜貝爾坦技術(shù)有限公司紀(jì)堯姆·富爾內(nèi)爾獲國(guó)家專利權(quán)
- 恭喜廣州市昊志影像科技有限公司冼澎鑄獲國(guó)家專利權(quán)
- 恭喜猶尼蒂知識(shí)產(chǎn)權(quán)有限公司約阿希姆·克里斯托弗·安特獲國(guó)家專利權(quán)
- 恭喜安徽華爾泰化工股份有限公司魏奇獲國(guó)家專利權(quán)
- 恭喜長(zhǎng)春市漫思教育科技有限公司劉恒獲國(guó)家專利權(quán)
- 恭喜湖南長(zhǎng)高電氣有限公司楊偉獲國(guó)家專利權(quán)
- 恭喜中國(guó)石油化工股份有限公司陳歷勝獲國(guó)家專利權(quán)
- 恭喜羅伯特·博世有限公司T·柯尼希獲國(guó)家專利權(quán)
- 恭喜沈陽(yáng)無(wú)距科技有限公司姜林弟獲國(guó)家專利權(quán)
- 恭喜7D外科公司艾德里安·馬里艾姆普萊獲國(guó)家專利權(quán)