国产精品天干天干在线播放,大尺度揉捏胸床戏视频,樱花草www日本在线观看,狠狠躁夜夜躁人人爽天天天天97

Document
拖動滑塊完成拼圖
個人中心

預訂訂單
服務訂單
發布專利 發布成果 人才入駐 發布商標 發布需求

在線咨詢

聯系我們

龍圖騰公眾號
首頁 專利交易 科技果 科技人才 科技服務 國際服務 商標交易 會員權益 IP管家助手 需求市場 關于龍圖騰
 /  免費注冊
到頂部 到底部
清空 搜索
當前位置 : 首頁 > 專利喜報 > 恭喜浙江大學劉興高獲國家專利權

恭喜浙江大學劉興高獲國家專利權

買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!

龍圖騰網恭喜浙江大學申請的專利一種針對中文語料拼寫錯誤的智能糾錯系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114154486B

龍圖騰網通過國家知識產權局官網在2025-04-01發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111320100.9,技術領域涉及:G06F40/232;該發明授權一種針對中文語料拼寫錯誤的智能糾錯系統是由劉興高;王浩;陳圓圓;王文海;張志猛;張澤銀設計研發完成,并于2021-11-09向國家知識產權局提交的專利申請。

一種針對中文語料拼寫錯誤的智能糾錯系統在說明書摘要公布了:本發明公開一種針對中文語料拼寫錯誤的智能糾錯系統。該智能檢測儀由文本特征提取模塊、文本錯誤識別模塊、文本錯誤校正模塊三個模塊構成。本發明不需要對含錯文本進行人工標注,具有實現方法簡單、識別精度高、魯棒性好等特點。

本發明授權一種針對中文語料拼寫錯誤的智能糾錯系統在權利要求書中公布了:1.一種針對中文語料拼寫錯誤的智能糾錯系統,由文本特征提取模塊、文本錯誤識別模塊、文本錯誤校正模塊三個模塊構成;其中,所述文本特征提取模塊基于預訓練語言模型,獲取語料的動態編碼;所述文本錯誤識別模塊:基于序列語言模型,預測文本中每個字符出現錯誤的概率;所述文本錯誤校正模塊基于文本錯誤識別模塊輸出的錯誤概率進行掩碼,并使用語言模型預測正確字符;所述文本特征提取模塊通過以下步驟,將文本數據轉為語料動態編碼:1尾部補零或截斷,以固定每段語料的長度,將處理后的語料記為x,語料長度記作seq;2構建字符級字典D,將所述字典大小記作n,將文本數據中的每個字符按其在D中的順序做獨熱編碼,將編碼結果記作o∈Rseq,n;3將獨熱編碼結果送入預訓練好的語言模型中,得到包含語義信息的高層字符表示,記作e∈Rseq,d;所述文本錯誤識別模塊通過以下步驟,基于文本特征輸出每個字符的出錯概率:1構建網絡靜態計算圖;2模型訓練:將提取出的文本特征輸入所述網絡靜態計算圖中,根據網絡輸出結果和標簽信息計算損失函數及其對各層可學習參數的導數,并根據計算得到的導數更新各層參數;3實時評價和線上部署:每次參數更新后在驗證集上解算模型的性能度量參數,得到最終的分類器并部署上線;針對所述構建的網絡靜態計算圖,上標右箭頭的變量代表網絡從先到后遍歷文本特征,左箭頭的變量代表網絡從后到先遍歷文本特征在所述序列模型中的每個時間步t,先結合輸入信息et和前一時間步的隱含層狀態ht-1,用tanh函數得到當前步記憶細胞狀態更新值的候選值; 其中,ht-1是前一時間步的隱含層狀態,et是當前步的輸入信息,WC是線性變換系數,bC是偏置項,上標箭頭代表網絡遍歷方向接著,定義門單元:更新門Γu、遺忘門Γf、輸出門Γo這些門單元具有類似的定義方式,且都使用sigmoid函數做輸出映射 其中Wu,Wf,Wo分別是更新門、遺忘門、輸出門的線性變換系數,bu,bf,bo分別是更新門、遺忘門、輸出門的偏置項,上標箭頭代表網絡遍歷方向σ·表示sigmoid函數,它將門單元的輸出值控制0到1,在大多數情況下總是非常接近0或1對于上一時間步的記憶細胞狀態c<t-1>,遺忘門Γf決定是不是要遺忘它;對于當前步記憶細胞狀態的更新值更新門Γu決定是否要真的更新它;接著,將更新后的細胞狀態c<t>通過輸出門Γo,可得到當前步隱含層狀態a<t> 將各字符雙向特征拼接起來,得到最終的特征表示ht: 最后,通過稠密連接層實現給定字符的含錯概率預估:pt=σWeht+be其中,pt是第t個字符含錯的概率,We,be是線性判別系數,σ是sigmoid函數;針對所述模型訓練,給出一種使用基于二元交叉熵損失的訓練方法: 其中,是模型預測出的給定字符的含錯概率,是給定字符的實際是否含錯標簽,m是輸入語料數量,seq是輸入語料長度;所述文本錯誤校正模塊通過以下步驟,基于文本特征和出錯概率,輸出每個字符的校正表示:1構建軟掩模輸入序列;2構建網絡靜態計算圖;3模型訓練:將軟掩模輸入序列輸入所述網絡靜態計算圖中,根據網絡輸出結果和標簽信息計算損失函數對各層可學習參數的導數,并根據計算得到的導數更新各層參數;4實時評價和線上部署:每次參數更新后在驗證集上解算模型的性能度量參數,得到最終的分類器并部署上線;針對其中所述軟掩模輸入序列,構造軟掩模輸入序列為:emask,i=pi*ei′+1-pi*ei其中,是預先給定任意掩模序列,是字符含錯概率預估序列,emask,i是生成的第i個字符的軟掩膜,ei是所述文本特征提取模塊輸出的第i個字符的特征嵌入基于文本錯誤識別模塊輸出的錯誤概率進行掩碼如果模型推斷該字符出錯概率很高,軟掩模emask,i接近掩模的嵌入ei′,否則它接近于輸入嵌入ei;針對其中所述網絡靜態計算圖,本發明給出一種基于Bert的實現方法所述BERT由12個相同的塊組成,以整個emask序列作為輸入每個block包含一個多頭部的self-attention操作:MultiHeadX=Concathead1;…,headhWc其中,Wc是待學習參數,每一個head由如下自注意力方式實現: 其中,是第j個注意力頭的待學習參數隨后是一個前饋網絡,將各頭聚合信息進行再次變換;將所述BERT最后一層的隱狀態序列表示為則對于第t個字符,誤差修正的概率定義為: 其中為候選列表中第k個字符作為輸入序列中第t個字符進行修正的條件概率;針對其中所述模型訓練,訓練數據由原始含錯文本序列和對應的無錯文本序列組成創建這種數據的方法是對無錯文本隨機擾動,使其生成不同的含錯序列,然后將其輸入模型中進行有監督校準學習目標為: 其中,m是輸入語料數量,seq是輸入語料長度,K是候選詞典大小,是在輸入的第i段文本中,第t個字符可以被候選詞典中的第k項校正的概率,是模型預測的概率。

如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區余杭塘路866號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。

免責聲明
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。
主站蜘蛛池模板: 巫山县| 温泉县| 揭阳市| 文安县| 平乐县| 晋城| 湘潭县| 丰台区| 七台河市| 团风县| 永平县| 江城| 湘潭县| 阳山县| 南川市| 德江县| 南江县| 台山市| 边坝县| 库车县| 横山县| 岗巴县| 茂名市| 石门县| 汉川市| 天峨县| 穆棱市| 巴里| 达孜县| 中江县| 平原县| 徐州市| 平谷区| 浏阳市| 平和县| 扶余县| 呼图壁县| 安阳县| 陵川县| 正阳县| 灯塔市|