恭喜南華大學田紋龍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜南華大學申請的專利一種基于相似數據檢測的云存儲冗余數據預測方法和設備獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114579362B 。
龍圖騰網通過國家知識產權局官網在2025-05-30發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210182503.X,技術領域涉及:G06F11/14;該發明授權一種基于相似數據檢測的云存儲冗余數據預測方法和設備是由田紋龍;劉琪菲;耿雨晴;萬亞平;歐陽純萍;李躍;劉洋;何婷婷設計研發完成,并于2022-02-25向國家知識產權局提交的專利申請。
本一種基于相似數據檢測的云存儲冗余數據預測方法和設備在說明書摘要公布了:本發明提供了一種基于相似數據檢測的云存儲冗余數據預測方法和設備,其中方法包括:對云存儲數據進行分塊,得到數據塊;遍歷所有數據塊,利用哈希算法計算出數據塊對應的哈希指紋;利用N?transform方法計算數據塊的相似特征組;根據待預測的數據集的大小,選定m個數據塊;遍歷提取的所有數據塊組成的數據塊集合,利用伯努利二項分布循環選取m個初始樣本;遍歷初始樣本組成的初始樣本集,基于哈希指紋和相似特征組進行判斷,將其中不符合哈希指紋和相似特征組條件的重復數據塊添加到基樣本中,得到基樣本集;遍歷待預測的數據集,并基于基樣本集確定重復數據和相似數據,從而計算數據冗余的估計值。本發明能夠有效地提高云存儲冗余數據的去重性能。
本發明授權一種基于相似數據檢測的云存儲冗余數據預測方法和設備在權利要求書中公布了:1.一種基于相似數據檢測的云存儲冗余數據預測方法,其特征在于,所述云存儲冗余數據預測方法包括:提取數據塊的特征階段:對云存儲數據進行分塊,得到數據塊;遍歷所有數據塊,利用哈希算法計算出數據塊對應的哈希指紋;利用N-transform方法計算數據塊的相似特征組;采集樣本集階段:根據待預測的數據集的大小,確定所需數據塊數目為m;遍歷提取的所有數據塊組成的集合,利用伯努利二項分布循環選取m個初始樣本;遍歷所述初始樣本組成的初始樣本集,基于所述哈希指紋和所述相似特征組進行判斷,將其中不符合哈希指紋和相似特征組條件的重復數據塊添加到基樣本中,得到基樣本集;掃描預測階段:遍歷待預測的數據集,并基于所述基樣本集確定重復數據和相似數據,從而計算數據冗余的估計值;遍歷所述初始樣本組成的初始樣本集,基于所述哈希指紋和所述相似特征組進行判斷,將其中不符合哈希指紋和相似特征組條件的重復數據塊添加到基樣本中,得到基樣本集,包括:初始化基樣本為空,記錄基樣本中的每個數據塊的屬性:記錄ρi為數據塊i的壓縮率,如果未壓縮,ρi=1;記錄basei為數據塊i在初始樣本中出現冗余的頻數,初始化為1;記錄counti為數據塊i在整個數據集上出現冗余的頻數,初始化為0;遍歷所述初始樣本集,并進行如下判斷:如果基樣本中存在與所述初始樣本集中的當前數據塊相同的數據塊,相同數據塊的哈希指紋也相同,則將當前基樣本中的該數據塊的屬性basei+1;否則,遍歷所述基樣本,如果所述初始樣本集中的當前數據塊的相似特征組與基樣本中某數據塊的相似特征組維度相同,記錄相似特征的個數,并計算相似度,如果計算的最大相似度大于設定的相似度閾值,則將該基樣本的數據塊的basei+相似度;否則將所述初始樣本集中的當前數據塊添加到基樣本中生成基樣本集;遍歷提取的所有數據塊組成的集合,利用伯努利二項分布循環選取m個初始樣本,包括:根據伯努利二項分布生成一個隨機數: 其中,l為當前數據塊集合所包含的數據塊數目,n為數據集總數據塊的數目,B為基樣本;如果k≥1,則選取k個隨機數據塊添加到初始樣本中,如果k=0,則忽略;所述初始樣本組成的初始樣本集大小為m’,若m’大于m,則隨機選取m個所述初始樣本組成初始樣本集;如果m’小于m,則回到選取初始樣本的步驟中,重新選擇初始樣本,直至得到m個初始樣本組成的初始樣本集;遍歷待預測的數據集,并基于所述基樣本集確定重復數據和相似數據,從而計算數據冗余的估計值,包括:遍歷待預測的數據集,并進行如下判斷:如果基樣本中存在與所述初始樣本集中的數據塊相同的數據塊,且相同數據塊的哈希指紋也相同,則將當前基樣本中對應的數據塊的屬性counti+1;否則,遍歷所述基樣本,如果所述初始樣本集中的當前數據塊的相似特征組與基樣本中某數據塊的相似特征組維度相同,記錄相似特征的個數,并計算相似度,如果計算的最大相似度大于設定的相似度閾值,則將該基樣本的數據塊的數據塊的counti+相似度;否則重新重復前述掃描步驟;其中,N-transform方法具體過程如下:a.初始化N維特征組features為0;b.逐bit遍歷當前數據塊,并進行如下操作:a記錄FP,為該數據塊當前bit下的Rabin指紋;b遍歷N維特征值features,記錄該FP在該維度下的線性映射值transformi,如果該映射值大于當前維度featurei,則將featurei賦值為transformi; 其中,ai和bi為隨機預定義數據線性變化,L為數據塊長度;將最終N維特征值依次分為x組,每組包含Nx個特征,Nx為整數,對每個分組再次進行Rabin哈希,得到最終的相似特征組SFs;SFx=Rabinfeaturex·i,...,featurex·i+i-1。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南華大學,其通訊地址為:421001 湖南省衡陽市常勝西路28號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。