分布式大數(shù)據(jù)不一致性檢測(cè)
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
關(guān)系數(shù)據(jù)庫(kù)中可能存在數(shù)據(jù)不一致性現(xiàn)象,關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)質(zhì)量的一個(gè)主要問(wèn)題是存在違反函數(shù)依賴情況,為找出不一致數(shù)據(jù)需要進(jìn)行函數(shù)依賴沖突檢測(cè).集中式數(shù)據(jù)庫(kù)中可以通過(guò)SQL技術(shù)檢測(cè)不一致情況,盡管檢測(cè)效率不高;而分布式環(huán)境下不一致性檢測(cè)更富有挑戰(zhàn)性,不僅需要考慮數(shù)據(jù)的遷移,檢測(cè)任務(wù)如何分配也是一個(gè)難題.在大數(shù)據(jù)背景下,上述問(wèn)題更加突出.提出了一種分布式環(huán)境單函數(shù)依賴不一致性檢測(cè)方法。給出了不一致性檢測(cè)響應(yīng)時(shí)間代價(jià)模型,為減少數(shù)據(jù)遷移量和響應(yīng)時(shí)間,基于等價(jià)類對(duì)待檢測(cè)數(shù)據(jù)進(jìn)行預(yù)處理.由于分布式環(huán)境不一致性檢測(cè)問(wèn)題為NP-hard問(wèn)題,多項(xiàng)式時(shí)間內(nèi)難以得到最優(yōu)解,給出了代價(jià)模型的多項(xiàng)式時(shí)間3/2-近似最優(yōu)解.提出了一種分布式環(huán)境多函數(shù)依賴不一致性檢測(cè)方法,基于最小集合覆蓋理論通過(guò)一次數(shù)據(jù)遍歷,對(duì)多個(gè)函數(shù)依賴進(jìn)行并行批檢測(cè),同時(shí)考慮檢測(cè)過(guò)程中的負(fù)載均衡等問(wèn)題.在真實(shí)和人工數(shù)據(jù)集上的實(shí)驗(yàn)表明:相對(duì)于傳統(tǒng)的檢測(cè)方法以及基于Hadoop的Nalve方法,所提出的檢測(cè)方法檢測(cè)效率有明顯的提升,且擴(kuò)展性能良好。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
分布式大數(shù)據(jù)不一致性檢測(cè)下載
相關(guān)電子資料下載
- 數(shù)據(jù)分析工具有哪幾種模式 83
- 中交興路入選2024北京“數(shù)據(jù)要素×”典型案例集 886
- 隆基全球分布式研發(fā)中心揭牌 265
- 故障排查小能手:輸電線路分布式故障定位裝置大解析 63
- 中國(guó)鐵塔與海康威視達(dá)成戰(zhàn)略合作 217
- spark運(yùn)行的基本流程 92
- 季豐電子與孤波科技攜手合作為車規(guī)量產(chǎn)提供大數(shù)據(jù)支持 740
- 浪潮信息推出基于新一代分布式存儲(chǔ)平臺(tái)AS13000G7的AIGC存儲(chǔ)解決方案 816
- 智慧園區(qū)綜合安防系統(tǒng)解決方案 83
- 大數(shù)據(jù)采集系統(tǒng)分為幾類 269