恭喜蘇州數獵科技有限公司程凱征獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜蘇州數獵科技有限公司申請的專利一種基于知識圖譜的自動數據清洗方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115098488B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210850890.X,技術領域涉及:G06F16/215;該發明授權一種基于知識圖譜的自動數據清洗方法是由程凱征設計研發完成,并于2022-07-19向國家知識產權局提交的專利申請。
本一種基于知識圖譜的自動數據清洗方法在說明書摘要公布了:本發明公開了一種基于知識圖譜的自動數據清洗方法,包括:獲取待清洗數據,生成知識圖譜;獲取待清洗數據所屬領域的業務領域知識,基于業務領域知識調整初始知識圖譜,獲得最終知識圖譜,通過路徑排序推理算法調整數據清洗順序和流程;從最終知識圖譜中獲取待清洗數據的字段對應的清洗要求和規則,組織清洗邏輯;基于數據清洗順序、流程及邏輯對待清洗數據進行數據清洗,清洗完成后將數據輸出。本發明使用知識圖譜來存放數據清洗相關的信息,并通過圖譜的推理和查詢能力,自動構建數據清洗流程和邏輯,相比原有硬編碼方式實現數據清洗的過程,更加靈活,可維護性更高,工作量小,效率高,準確率高。
本發明授權一種基于知識圖譜的自動數據清洗方法在權利要求書中公布了:1.一種基于知識圖譜的自動數據清洗方法,其特征在于,包括以下步驟:從數據文件或數據庫中獲取待清洗數據,基于待清洗數據,自動生成初始知識圖譜;所述初始知識圖譜的獲取過程包括:基于待清洗數據中的字段名稱、字段長度、字段內容以及取值范圍生成所述初始知識圖譜的節點,基于待清洗數據中表之間的主外鍵關系,生成所述初始知識圖譜的邊;獲取所述待清洗數據所屬領域的業務領域知識,基于所述業務領域知識調整所述初始知識圖譜,獲得最終知識圖譜;所述最終知識圖譜的獲取過程包括:將所述業務領域知識中的名詞補充定義為所述初始知識圖譜的節點或根據所述名詞對所述初始知識圖譜的節點進行調整,將業務領域知識中的名詞間的關系補充定義為所述初始知識圖譜的邊或根據名詞間的關系對所述初始知識圖譜的邊進行調整,獲得最終知識圖譜,其中,名詞指業務領域中的實體;基于所述最終知識圖譜,通過路徑排序推理算法調整數據清洗順序和數據清洗流程;調整所述數據清洗順序和所述數據清洗流程的過程包括:基于路徑排序推理算法對所述最終知識圖譜進行遍歷,將數據字段節點按照親密度進行排序,得到待清洗數據中最重要的數據字段,確定數據清洗的順序和流程;基于所述最終知識圖譜,獲取所述待清洗數據的字段對應的清洗要求與清洗規則,基于所述清洗要求與所述清洗規則自動生成清洗過濾規則并組織清洗邏輯;基于所述數據清洗順序、所述數據清洗流程、清洗過濾規則及所述清洗邏輯對待清洗數據進行數據清洗;數據清洗完畢后,將清洗后的數據輸出至文件或目標數據庫;所述數據清洗流程包括:剔除不符合規則與要求的數據,并記入清洗日志,按照計算邏輯及清洗順序自動計算填充字段數據,并將結果記錄至緩存。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人蘇州數獵科技有限公司,其通訊地址為:215100 江蘇省蘇州市吳中區越溪街道塔韻商務廣場1711;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。