恭喜北京煋邦數碼科技有限公司;新疆量子通信技術有限公司孫鑫獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜北京煋邦數碼科技有限公司;新疆量子通信技術有限公司申請的專利一種數據安全合規評估與識別方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119577120B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510143066.4,技術領域涉及:G06F16/334;該發明授權一種數據安全合規評估與識別方法及系統是由孫鑫;孫金虎;曹春燕;黎小波設計研發完成,并于2025-02-10向國家知識產權局提交的專利申請。
本一種數據安全合規評估與識別方法及系統在說明書摘要公布了:本發明公開了一種數據安全合規評估與識別方法及系統,涉及數據安全合規評估與識別技術領域,包括通過API接口采集法規文本數據,采用自然語言處理庫NLTK對法規文本數據進行預處理,得到格式化的法規文本數據;采用預計算的詞嵌入方法,將格式化的法規文本數據中的每個詞映射為固定長度向量,并生成數字向量;采用命名實體識別NER方法標記出數字向量中的重要術語,得到關鍵概念文本;基于機器學習算法建立評估模型,將數字向量輸入評估模型中,采用加權平均法計算輸出評估值,設定評估閾值與評估值進行比對,判斷數字向量是否合規,并得到評估結果;基于異常檢測算法構建識別模型,將關鍵概念文本輸入識別模型中。
本發明授權一種數據安全合規評估與識別方法及系統在權利要求書中公布了:1.一種數據安全合規評估與識別方法,其特征在于:包括:通過API接口采集法規文本數據,采用自然語言處理庫NLTK對法規文本數據進行預處理,得到格式化的法規文本數據;采用預計算的詞嵌入方法,將格式化的法規文本數據中的每個詞映射為固定長度向量,并生成數字向量;采用命名實體識別NER方法標記出數字向量中的重要術語,得到關鍵概念文本;基于機器學習算法建立評估模型,將數字向量輸入評估模型中,采用加權平均法計算輸出評估值;設定評估閾值與評估值進行比對,判斷數字向量是否合規,并得到評估結果;基于異常檢測算法構建識別模型,將關鍵概念文本輸入識別模型中,采用聚類算法輸出識別結果,具體步驟為:基于孤立森林異常檢測算法和格式化的法規文本數據構建識別模型;采用孤立森林算法通過構建多棵決策樹來隔離觀測點,并采用Python庫中的IsolationForest類初始化識別模型參數;將格式化的法規文本數據中的關鍵概念文本轉換為TF-IDF值,計算格式化的法規文本數據中的關鍵概念文本的TF-IDF向量值,并對TF-IDF向量值表示的格式化的法規文本數據中的關鍵概念文本進行標準化處理,表達式為: ;其中,是詞語,為格式化的法規文本數據中的關鍵概念文本,是所有關鍵概念文本,是所有關鍵概念文本中的文檔總數,是包含詞語的文檔數,是詞語在格式化的法規文本數據中的關鍵概念文本的頻率,為的TF-IDF向量值;將TF-IDF向量值輸入至識別模型中,采用K-means聚類算法對識別模型的輸出進行分類,表達式為: ;其中,是聚類標簽,是異常分數矩陣,表示異常分數矩陣中第個樣本的異常分數向量,是第個簇的中心點,是設定的聚類數,為格式化的法規文本數據中的關鍵概念文本,表示關鍵文本概念的異常分數,為孤立森林算法中的樹數量,是異常分數矩陣中的元素,是第個簇,是孤立森林算法中對的路徑長度,是孤立森林中所有樹的最大路徑長度,是的期望值,即路徑長度的平均值;設定異常分數閾值與異常分數矩陣進行比對;當≥時,表示格式化的法規文本數據中的關鍵文本概念不合規;當時,表示格式化的法規文本數據中的關鍵文本概念合規。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京煋邦數碼科技有限公司;新疆量子通信技術有限公司,其通訊地址為:102400 北京市房山區弘安路85號2號樓3層;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。