国产精品天干天干在线播放,大尺度揉捏胸床戏视频,樱花草www日本在线观看,狠狠躁夜夜躁人人爽天天天天97

Document
拖動滑塊完成拼圖
個人中心

預訂訂單
服務訂單
發布專利 發布成果 人才入駐 發布商標 發布需求

在線咨詢

聯系我們

龍圖騰公眾號
首頁 專利交易 科技果 科技人才 科技服務 國際服務 商標交易 會員權益 IP管家助手 需求市場 關于龍圖騰
 /  免費注冊
到頂部 到底部
清空 搜索
當前位置 : 首頁 > 專利喜報 > 恭喜浙江工業大學潘建獲國家專利權

恭喜浙江工業大學潘建獲國家專利權

買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!

龍圖騰網恭喜浙江工業大學申請的專利一種基于部首特征和多層注意力機制的中文自動問答方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114118099B

龍圖騰網通過國家知識產權局官網在2025-05-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111325158.2,技術領域涉及:G06F16/3329;該發明授權一種基于部首特征和多層注意力機制的中文自動問答方法是由潘建;祝訓醉;呂思睿;李芋江設計研發完成,并于2021-11-10向國家知識產權局提交的專利申請。

一種基于部首特征和多層注意力機制的中文自動問答方法在說明書摘要公布了:一種基于部首特征和多層注意力機制的中文自動問答方法,包括以下步驟:步驟1、對數據集進行預處理;步驟2、得到詞嵌入矩陣,通過隨機初始化得到部首嵌入矩陣;步驟3、通過詞嵌入和部首嵌入將詞語分別轉化為向量表示,在詞語向量后追加語言學特征;步驟4、將文檔向量序列問題向量序列分別輸入至不同的雙向RNN網絡進行編碼;步驟5、根據文檔向量序列與問題向量,依次計算得到答案開始和結束邊界的概率,生成目標概率分布,步驟6、使用數據集對模型訓練N輪,通過計算損失并對參數進行更新,使用mini?batch策略對模型進行訓練,使用模型對給定的一個文檔和與之相關的問題進行處理,預測得到答案。本發明提高了自動問答的準確率。

本發明授權一種基于部首特征和多層注意力機制的中文自動問答方法在權利要求書中公布了:1.一種基于部首特征和多層注意力機制的中文自動問答方法,其特征在于,所述方法包括以下步驟:步驟1、對數據集S進行預處理,數據集S表示為{Si|Si=Passage,Question,Answer,1≤i≤n},其中Si表示第i個數據,由文檔Passage、問題Question和答案Answer三部分組成,answer是passage的子串,n為數據集S的大小,所進行的數據預處理驟包括:中文分詞、語言學特征標注和統計詞語詞頻信息;步驟2、加載預訓練的wordembedding得到詞嵌入矩陣WEl×d,通過隨機初始化得到部首嵌入矩陣REk×r,其中l為wordembedding中詞語的數量,d表示詞向量的維度,k表示部首字典中部首的數量,r表示部首嵌入的維度,部首嵌入矩陣RE為模型訓練參數;步驟3、通過詞嵌入和部首嵌入將PWList、QWList中的詞語分別轉化為向量表示,然后在詞語向量后追加語言學特征,得到PWList、QWList的向量序列表示vPWList、vQWList,過程如下:3.1將PWList中的詞語pwordi轉化為向量表示其中WEword表示詞語word對應的詞向量,radicalword=[radicalDictw1,…,radicalDictwwcntword]表示詞語word的部首列表,wcntword表示詞語word的漢字數,REradicalword表示詞語word中漢字部首對應的部首向量組成的矩陣,表示向量拼接,c代表卷積輸出通道數,最終vpwordi的維度為1×2d+c+4,函數CNN_RE、fmatch、ftoken、falign返回的結果均為向量;3.2將QWList中的詞語qwordi轉化為向量表示最終vpwordi的維度為1×d+c;PWList的向量序列表示為vPWList=[vpword1,vpword2,…,vpwordlenPWList],QWList的向量序列表示為vQWList=[vqword1,vqword2,…,vqwordlenQWList];步驟4、將文檔向量序列vPWList和問題向量序列vQWList分別輸入至不同的雙向RNN網絡進行編碼,得到包含問題信息的文檔向量序列表示PWC和問題向量表示Q,過程如下;4.1將vPWList輸入至RNN1進行編碼得到向量序列Pl=[pl1,pl2,…,pllenPWList]=RNN1vPWList,其中RNN1網絡輸出結果pli的維度為1×h;4.2將vQWList輸入至RNN2進行編碼得到向量序列Ql=[ql1,ql2,…,qllenQWList]=RNN2vQWList,其中RNN2網絡輸出結果qli的維度為1×h;4.3將編碼得到的向量序列Ql壓縮為一個向量其中w為可訓練的參數向量;4.4對編碼得到的向量序列Pl進一步進行基于注意力機制的處理得到: 其中其中為pli與qlj的注意力權重;4.5將Ph輸入到RNN3中進行編碼得到包含問題信息的文檔向量序列表示PWC=[pwc1,pwc2,…,pwclenPWList]=RNN3Ph,RNN3網絡輸出結果pwci的維度為1×h′;步驟5、根據文檔向量序列表示PWC與問題向量表示Q,依次計算得到PWList中每個詞語PWListi作為答案開始邊界的概率和作為答案結束邊界的概率其中Ws,We為可訓練參數,根據答案AWList在PWList的左邊界l和右邊界r生成目標概率分布PTS=[ptsi=Θi==l|1≤i≤lenPWList]和PTE=[ptei=Θi==r|1≤i≤lenPWList],其中函數Θx在x為真時返回1,在x為假時返回0;步驟6、將數據集S劃分為訓練數據集T和測試數據集V,使用數據集T對模型訓練N輪,通過Pstart、Pend、PTS、PTE計算損失并對參數進行更新,使用mini-batch策略對模型進行訓練,每輪訓練完成后使用測試數據集V對模型進行評估,取N輪中表現最好的參數作為模型參數,包括RNN網絡、CNN網絡和falign函數中全連接層α的參數以及RE、Ws、We、w參數,其中損失計算方式為lossPstart,PTS+lossPsend,PTE;步驟7、加載訓練得到的模型參數,使用模型對給定的一個文檔p和與之相關的問題q進行處理,預測得到答案ans;所述步驟1中,所進行的數據預處理過程如下:1.1使用中文分詞工具對數據集S進行分詞處理,得到Passage的詞語列表PWList=[pword1,pword2,…,pwordlenPassage],QWList=[qword1,qword2,…,qwordlenQuestion],AWList=[aword1,aword2,…,awordlenAnswer],其中lenx表示字符串x中詞語的數量;1.2將中文詞性標注特征和命名實體識別特征映射為數字,得到詞性特征映射POSMap={pos1:1,pos2:2,…,posk:k}、命名實體特征映射NerMap={ner1:1,ner2:2,…,nerl:l},其中k為詞性特征類別數量,l為命名實體識別特征類別數量,posi和nerj分別表示詞性標注特征和命名實體識別特征;1.3使用語言學工具對PWList進行詞性標注、命名實體識別,并將結果保存,定義POSword,Passage表示word在Passage中的詞性特征、Nerword,Passage表示word在Passage中的命名實體特征;1.4統計詞語pwordi在PWList中出現的頻率信息其中countword,PWList表示word在PWList中出現的次數;1.5通過人工標記得到中文漢字的部首字典radicalDict={w1:r1,w2:r2,…,wm:rm},其中wi為漢字,ri為wi的部首,m為部首字典radicalDict的大小。

如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江工業大學,其通訊地址為:310014 浙江省杭州市下城區潮王路18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。

免責聲明
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。
主站蜘蛛池模板: 张北县| 苍梧县| 额济纳旗| 梨树县| 鹤庆县| 盐津县| 宝清县| 鸡东县| 威海市| 泰来县| 淮阳县| 新田县| 合作市| 鹿邑县| 吉安市| 普宁市| 祁连县| 大石桥市| 福安市| 八宿县| 滦南县| 宣化县| 盐城市| 双鸭山市| 宁蒗| 吉木萨尔县| 德安县| 安丘市| 南乐县| 卢氏县| 横峰县| 侯马市| 呼和浩特市| 兰坪| 苍山县| 新乡县| 南京市| 万全县| 溆浦县| 辛集市| 达孜县|