国产精品天干天干在线播放,大尺度揉捏胸床戏视频,樱花草www日本在线观看,狠狠躁夜夜躁人人爽天天天天97

Document
拖動滑塊完成拼圖
個人中心

預(yù)訂訂單
服務(wù)訂單
發(fā)布專利 發(fā)布成果 人才入駐 發(fā)布商標(biāo) 發(fā)布需求

在線咨詢

聯(lián)系我們

龍圖騰公眾號
首頁 專利交易 科技果 科技人才 科技服務(wù) 國際服務(wù) 商標(biāo)交易 會員權(quán)益 IP管家助手 需求市場 關(guān)于龍圖騰
 /  免費注冊
到頂部 到底部
清空 搜索
當(dāng)前位置 : 首頁 > 專利喜報 > 恭喜東南大學(xué)黃婉華獲國家專利權(quán)

恭喜東南大學(xué)黃婉華獲國家專利權(quán)

買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!

龍圖騰網(wǎng)恭喜東南大學(xué)申請的專利一種基于主題特征和隱式句子結(jié)構(gòu)的事件抽取方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN113901813B

龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-05-27發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202111178364.5,技術(shù)領(lǐng)域涉及:G06F40/289;該發(fā)明授權(quán)一種基于主題特征和隱式句子結(jié)構(gòu)的事件抽取方法是由黃婉華;漆桂林;高桓設(shè)計研發(fā)完成,并于2021-10-09向國家知識產(chǎn)權(quán)局提交的專利申請。

一種基于主題特征和隱式句子結(jié)構(gòu)的事件抽取方法在說明書摘要公布了:本發(fā)明公開了一種基于主題特征和隱式句子結(jié)構(gòu)的事件抽取方法,主要用于把含有事件信息的非結(jié)構(gòu)化文本以結(jié)構(gòu)化的形式呈現(xiàn)出來,在自動文摘、自動問答、信息檢索等領(lǐng)域有著廣泛的應(yīng)用。本發(fā)明首先通過結(jié)合BERT和LDA獲得文檔的主題特征為句子級的事件抽取模型引入文檔級的主題信息;其次抽取出BERT詞嵌入表示中隱含的句法信息,并將該抽取過程與事件抽取進行聯(lián)合建模,在避免了錯誤累積問題的同時為事件抽取引入重要的句法信息;最后模型使用基于Bi?LSTM和級聯(lián)式CRF的序列標(biāo)注方法抽取單句中的多個觸發(fā)詞以及抽取實體在多個事件中的元素角色。

本發(fā)明授權(quán)一種基于主題特征和隱式句子結(jié)構(gòu)的事件抽取方法在權(quán)利要求書中公布了:1.一種基于主題特征和隱式句子結(jié)構(gòu)的事件抽取方法,其特征在于,該方法包括以下步驟:1數(shù)據(jù)處理及主題特征抽取:將原始數(shù)據(jù)集重構(gòu)成JSON格式,對于讀取的數(shù)據(jù)集中的每個樣本發(fā)明檔,進行主題特征抽取,然后利用NLTK包中的分句工具對樣本發(fā)明檔進行分句得到樣本句子;2隱式句子結(jié)構(gòu)抽取:對于每個樣本句子,首先利用語言模型Bert獲得句子中的詞嵌入作為句子上下文特征,然后對于這個詞嵌入,利用一種屏蔽機制對句子中各成分之間的相互影響程度進行計算,作為隱式句子結(jié)構(gòu)特征,用于后續(xù)的事件抽取聯(lián)合方法;3基于級聯(lián)式CRF的事件觸發(fā)詞抽取模塊,采用一種級聯(lián)的序列標(biāo)注方法將抽取任務(wù)分解成邊界標(biāo)注和類型判別兩個任務(wù),先標(biāo)記事件觸發(fā)詞的邊界,然后判斷其對應(yīng)的事件類型;4利用Bi-LSTM融入句法信息的事件元素抽取模塊,在正向和反向的遞歸過程中引入影響矩陣中的數(shù)據(jù),在當(dāng)前詞節(jié)點及其強相關(guān)的詞節(jié)點之間建立對應(yīng)的聯(lián)系,使得句法信息能夠在LSTM節(jié)點之間傳播,最終使句法信息融入單詞的向量表示中;5聯(lián)合訓(xùn)練,以交叉熵損失函數(shù)來分別計算事件觸發(fā)詞抽取模塊和事件元素抽取模塊的損失,并且對事件觸發(fā)詞和事件元素抽取進行聯(lián)合訓(xùn)練以避免錯誤累積問題,為了兩個子任務(wù)的損失項在同一時刻收斂,最終的損失由兩個子任務(wù)的損失之和表示;所述步驟1中,按照如下方式抽取出主題特征:1-1利用面向長句編碼的Sentence-Transformer得到每個文檔具有上下文語義信息的上下文表示,S=[s1,s2,…,sn],上下文特征向量si的維度為768維,1-2然后利用主題模型LDA得到每個文檔的主題分布信息L=[l1,l2,…,ln];主題分布向量li的維度為預(yù)設(shè)的主題個數(shù),1-3利用上述兩個向量訓(xùn)練一個自編碼器用于將這兩個向量進行融合,以自編碼器的結(jié)果作為每個文檔的主題特征;所述步驟2中根據(jù)以下特征構(gòu)建訓(xùn)練數(shù)據(jù)集:2-1將輸入序列中的任意一個單詞xi替換成屏蔽字符[MASK]得到新的輸入序列,將該序列輸入到BERT中得到的結(jié)果hi,將hi作為xi的表示;2-2更為了得到句子中其他成分xj對xi的影響,進而將輸入序列中的xj也特換成屏蔽字符[MASK],再輸入BERT中得到xi的新表示Hij;2-3利用歐式距離來計算Hij和hi在語義空間中的距離fxi,xj,最終得到句子中兩兩成分之間的影響程度矩陣該矩陣即為隱式句子結(jié)構(gòu)信息,可以表征任意兩個句子成分之間的相互影響程度;所述步驟3中按照如下具體步驟進行觸發(fā)詞抽取:3-1對于輸入序列利用BERT模型分詞并向量化,并將其與原標(biāo)簽序列對齊,包括去除“[CLS]”、“[SEP]”一類BERT的特殊表示,將對齊后的序列作為CRF的輸入;3-2對于利用BERT得到的詞嵌入序列進行序列標(biāo)注,在將BIO標(biāo)注法引入任務(wù)時,僅使用CRF對輸入序列中的詞語標(biāo)注是否為觸發(fā)詞的開始“B”或者內(nèi)部部分“I”或者與觸發(fā)詞無關(guān)“O”,于是輸入序列在經(jīng)過CRF模型標(biāo)注后得到標(biāo)注序列Ci=[c1,...,ci,…,cn],其中ci∈{B,I,O};3-3得到CRF的標(biāo)注序列Ci=[c1,...,ci,…,cn]后,對于其中ci∈{B,I}的單詞wi或詞組gi=[wp,...,wq],從BERT的結(jié)果中找到該單詞wi或詞組gi的向量表示,其中詞組gi=[wp,...,wq]以詞組中每一個詞語的詞嵌入的平均值作為詞組的向量表示,然后將得到的向量饋送至一個全連接神經(jīng)網(wǎng)絡(luò)對該詞或詞組進行具體事件類型的判定;所述步驟4中按照如下具體步驟進行事件元素抽取:4-1對于輸入序列利用BERT模型分詞并向量化后,將此序列與原標(biāo)簽序列對齊,包括去除“[CLS]”、“[SEP]”一類BERT的特殊表示;4-2對于當(dāng)前時刻的輸入,查看句法影響矩陣中與對應(yīng)句子中其他成分對當(dāng)前時刻輸入的影響程度,加入節(jié)點的計算過程,在反向LSTM計算過程中應(yīng)用同樣的計算方式,將上下文的句法影響信息融入到整個句子的向量表示中;4-3經(jīng)過正向和反向的計算,能夠得到一個新的向量表示序列以及整個句子的表示,對于任意候選事件觸發(fā)詞和任意候選事件元素實體對,從新的向量表示序列中找到對應(yīng)的詞向量,將兩者和事件類型拼接后輸入到一個全連接分類器中進行元素角色的分類。

如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人東南大學(xué),其通訊地址為:210096 江蘇省南京市玄武區(qū)四牌樓2號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。

免責(zé)聲明
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
主站蜘蛛池模板: 罗城| 方正县| 章丘市| 北宁市| 九龙坡区| 苏尼特左旗| 延安市| 安阳县| 海林市| 阳信县| 当阳市| 筠连县| 邵阳县| 鄄城县| 乌兰察布市| 航空| 当阳市| 广丰县| 九寨沟县| 和平县| 梁平县| 马鞍山市| 中山市| 辉南县| 嘉定区| 呼和浩特市| 昌都县| 龙里县| 水城县| 靖江市| 乌审旗| 平山县| 濮阳县| 吕梁市| 陇南市| 贺州市| 榆社县| 平安县| 沅江市| 屯门区| 大冶市|