恭喜科訊嘉聯信息技術有限公司馮純博獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜科訊嘉聯信息技術有限公司申請的專利一種基于深度學習模型的地址命名實體識別的調優方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114169332B 。
龍圖騰網通過國家知識產權局官網在2025-05-30發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111443614.3,技術領域涉及:G06F40/295;該發明授權一種基于深度學習模型的地址命名實體識別的調優方法是由馮純博;衛海智;李釗輝;黃洋設計研發完成,并于2021-11-30向國家知識產權局提交的專利申請。
本一種基于深度學習模型的地址命名實體識別的調優方法在說明書摘要公布了:本發明涉及自然語言識別,具體涉及一種基于深度學習模型的地址命名實體識別的調優方法,收集相關領域的行業語料,構建行業實體字典,收集線上中文數據,根據任務目標進行人工標注并生成模板,對模板和行業實體字典中的實體名進行數據增強,再進行數據擴充,利用未標注的行業語料和實體字典,在神經網絡語言模型的預訓練階段進行掩碼機制優化,針對下游識別任務對神經網絡語言模型進行模型精調,并選取測試精度最高的神經網絡語言模型作為輸出模型,收集線上實時數據,將輸出模型預測結果低于置信度閾值的實體保存在日志文件中;本發明提供的技術方案能夠有效克服現有技術所存在的模型優化需要依賴大量標注數據、模型識別效果較差的缺陷。
本發明授權一種基于深度學習模型的地址命名實體識別的調優方法在權利要求書中公布了:1.一種基于深度學習模型的地址命名實體識別的調優方法,其特征在于:包括以下步驟:S1、收集相關領域的行業語料,構建行業實體字典;S2、收集線上中文數據,根據任務目標進行人工標注并生成模板,對模板和行業實體字典中的實體名進行數據增強,再進行數據擴充;S3、利用未標注的行業語料和實體字典,在神經網絡語言模型的預訓練階段進行掩碼機制優化;S4、針對下游識別任務對神經網絡語言模型進行模型精調,并選取測試精度最高的神經網絡語言模型作為輸出模型;S5、收集線上實時數據,將輸出模型預測結果低于置信度閾值的實體保存在日志文件中,并利用日志文件對輸出模型進行優化;S1中收集相關領域的行業語料,構建行業實體字典,包括:S1、對現有的領域內已有公開實體字典進行整合,形成“公開實體字典”;S2、通過該領域專家根據經驗構建出來一系列用來對實體匹配的規則,使用字符串匹配或者模式匹配的方法,結合關鍵詞匯、專有詞匯或者結構規則實體特征,對收集到的公開語料進行專家經驗匹配,抽取實體,構建“專家實體字典”;S3、將“公開實體字典”、“專家實體字典”整合構建“經驗實體詞典”;S4、通過無監督方式,對詞匯出現頻率進行統計,通過詞頻召回大量的待定實體,對其自由度、緊密度進行計算,通過設定閾值篩選出實體,形成“無監督實體字典”;S5、選取少量語料根據詞頻召回候選詞,通過頻率、完整性、信息量和共現度篩選候選詞,將篩選出的候選詞和“經驗實體詞典”中的交叉詞匯作為訓練時的正樣本集;S6、使用負采樣對其他詞匯進行隨機采樣形成負樣本集,使用正樣本集、負樣本集訓練Bert模型;S7、使用訓練好的Bert模型對所有語料內召回實體的質量進行打分,精選出有效實體;S8、通過AutoNER模型對這些詞匯進行類型預測,形成“有監督實體詞典”;S9、將“無監督實體字典”、“有監督實體詞典”整合構建“挖掘實體字典”。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人科訊嘉聯信息技術有限公司,其通訊地址為:230000 安徽省合肥市中國(安徽)自由貿易試驗區合肥市高新區創新大道2800號創新產業園二期F5-201/202、305-307;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。