恭喜集智學園(北京)科技有限公司胡喬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜集智學園(北京)科技有限公司申請的專利一種文本分類與術語網絡生長的共演化方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114416997B 。
龍圖騰網通過國家知識產權局官網在2025-05-30發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210078144.3,技術領域涉及:G06F16/35;該發明授權一種文本分類與術語網絡生長的共演化方法是由胡喬;周莉;徐恩嶠設計研發完成,并于2022-01-24向國家知識產權局提交的專利申請。
本一種文本分類與術語網絡生長的共演化方法在說明書摘要公布了:本發明公開了一種文本分類和術語網絡生長的共演化方法。一方面,對文本構建術語子圖,基于術語網絡的特征對術語子圖進行評分,從而實現文本分類;另一方面,從分類的文本中提取術語子圖,并使用術語子圖對某個領域術語網絡進行擴充和優化。該方法文本分類和術語網絡生成兩個任務之間的共同優化,可以實現在給定少量領域文本和大型通用術語網絡的基礎上,得到適用于某個領域的文本分類器和可生長的領域術語網絡。進一步地,該方法可以用來建立某個領域的知識圖譜、實現某個領域文章推薦等現實需求。
本發明授權一種文本分類與術語網絡生長的共演化方法在權利要求書中公布了:1.一種文本分類與術語網絡生長的共演化方法,其特征在于,該方法將文本分類與術語網絡生長過程有機結合,具體步驟包括:1基于術語子圖和術語網絡對文本進行分類;1-1構造算法的輸入,包括通用術語網絡G=VG,EG、其中VG表示通用術語網絡的節點集合,EG表示通用術語網絡的連邊集合,少量帶目標領域標簽的文本T=[t1,t2,...,tn],n≥1和待分類文本U=[u1,u2,...,un],n≥1,初始化的領域術語網絡其中表示領域術語網絡的節點集合,表示領域術語網絡的連邊集合;1-2根據待分類文本U=[u1,u2,...,un],n≥1,構建術語子圖g=Vg,Eg;1-3術語子圖領域相關性評分,包括術語子圖中節點的領域相關性評分,術語子圖中連邊的領域相關性評分和術語子圖中三階超圖的領域相關性評分;1-4文本分類,根據術語子圖的節點、連邊和超邊的得分判定待分類文本是否屬于目標領域D,判定方法可以是無監督分類或有監督分類;2基于分類的文本提取術語子圖并更新領域術語網絡;2-1構建樣本子圖,使用上述文本分類算法將待分類文本U=[u1,u2,...,un],n≥1分類,得到正樣本Pos={ui|Cui≥thresh}和負樣本Neg={ui|Cuithresh},將所有正樣本的子圖聚合為正樣本子圖將所有負樣本的子圖聚合為負樣本子圖2-2樣本子圖正則化,對正負樣本子圖分別計算每個節點的kcore值,刪掉kcore小于2的節點及其連邊,保留kcore大于等于2的節點及其連邊,正樣本子圖GP正則化后得到負樣本子圖GN正則化后得到2-3更新術語網絡,將步驟2-2中得到的正樣本子圖添加到現有的領域術語網絡G*中,并從G*中減去2中得到的負樣本子圖減法表示對應連邊的權重值相減,當被減后的連邊權重小于等于0時,刪除該條連邊,當刪除連邊后節點的度為0時,刪掉該節點;3基于更新的領域術語網絡優化文本分類器;4利用優化的文本分類器對文本進行分類;上述步驟迭代進行能夠實現文本分類器與術語網絡的共同演化,得到分類精度更高的文本分類器與規模更大的領域術語網絡。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人集智學園(北京)科技有限公司,其通訊地址為:102300 北京市門頭溝區石龍經濟開發區永安路20號3號樓A-8204室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。