查重元數(shù)據(jù)去冗算法設(shè)計(jì)
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
隨著重復(fù)數(shù)據(jù)刪除次數(shù)的增加,系統(tǒng)中用于存儲(chǔ)指紋索引的清單文件等元數(shù)據(jù)信息會(huì)不斷累積,導(dǎo)致不可忽視的存儲(chǔ)資源開銷。因此,如何在不影響重復(fù)數(shù)據(jù)刪除率的基礎(chǔ)上,對(duì)重復(fù)數(shù)據(jù)刪除過(guò)程中產(chǎn)生的元數(shù)據(jù)信息進(jìn)行壓縮,從而減小查重索引,是進(jìn)一步提高重復(fù)數(shù)據(jù)刪除效率和存儲(chǔ)資源利用率的重要因素。針對(duì)查重元數(shù)據(jù)中存在大量冗余數(shù)據(jù),提出了一種基于壓縮近鄰的查重元數(shù)據(jù)去冗算法Dedup2。該算法先利用聚類算法將查重元數(shù)據(jù)分為若干類,然后利用壓縮近鄰算法消除查重元數(shù)據(jù)中相似度較高的數(shù)據(jù)以獲得查重子集,并在該查重子集上利用文件相似性對(duì)數(shù)據(jù)對(duì)象進(jìn)行重復(fù)數(shù)據(jù)刪除操作。實(shí)驗(yàn)結(jié)果表明,Dedup2可以在保持近似的重復(fù)數(shù)據(jù)刪除比的基礎(chǔ)上,將查重索引大小壓縮50%以上。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
查重元數(shù)據(jù)去冗算法設(shè)計(jì)下載
相關(guān)電子資料下載
- 氣象土壤墑情監(jiān)測(cè)站:多元數(shù)據(jù)融合的智慧農(nóng)田管理平臺(tái) 244
- 哥倫比亞大學(xué)開發(fā)視聽(tīng)工具包,幫助研究者探索神經(jīng)元數(shù)據(jù) 275
- 蘋果、谷歌曾向政府提供智能手機(jī)推送通知,新政執(zhí)行要求 471
- jvm調(diào)優(yōu)主要是調(diào)哪里 948
- 元數(shù)據(jù)的作用機(jī)理是什么?它能解決什么問(wèn)題? 360
- Linux文件系統(tǒng)層的主要結(jié)構(gòu) 388
- 如何通過(guò)注解來(lái)優(yōu)化我們的Java代碼 425
- Java中常見(jiàn)的注解 371
- Java中注解的作用 581
- 基于LRU-K模型如何實(shí)現(xiàn)高效的元數(shù)據(jù)緩存? 702