Top-k相似連接算法性能優(yōu)化
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
相似連接算法在數(shù)據(jù)清理、數(shù)據(jù)集成和重復(fù)網(wǎng)頁檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用.現(xiàn)有相似連接算法有兩種類型:基于相似度閾值的相似連接和Top-k相似連接.Top-k連接算法非常適合于相似度閾值未知的應(yīng)用場(chǎng)景,目前最為有效的Top-k相似連接算法是Xiao等人提出的Topk-j oin.為了解決Topk-j oin中存在的性能問題,提出了一種Top-k相似連接算法Opt-j oin,該算法將Token批處理技術(shù)集成在現(xiàn)有的事件驅(qū)動(dòng)框架中,以降低前綴事件的處理代價(jià);通過置換哈希查找與過濾操作的執(zhí)行位置來降低哈希查找代價(jià),并理論證明了該置換的正確性.實(shí)驗(yàn)結(jié)果表明:與Topk-join算法相比,Opt-join取得了1.28倍-3 .09倍的性能提升.實(shí)驗(yàn)數(shù)據(jù)還顯示:隨著數(shù)據(jù)長(zhǎng)度的增加或K值的增長(zhǎng),Opt-join的性能優(yōu)勢(shì)有不斷增加的趨勢(shì),
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%