Deep Web數(shù)據源選擇和集成方法
大?。?/span>1.10 MB 人氣: 2018-02-09 需要積分:1
針對基于數(shù)據源質量選擇方法的數(shù)據源在數(shù)據爬取時存在代價大、重復率高的問題,提出一種結合兩層選擇模型的Deep Web數(shù)據源選擇和集成方法。該方法根據數(shù)據源本身質量和數(shù)據源的效用構建數(shù)據源的兩層選擇模型。給出基于該模型的遞歸增量數(shù)據源選擇和集成策略,采用基于數(shù)據源質量的選擇器過濾大量低質量DeepWeb數(shù)據源,僅選擇若干個高質量的數(shù)據源作為第2層選擇器的輸入。從候選數(shù)據源集合中遞歸地選擇,使集成系統(tǒng)在獲得盡可能多的高質量數(shù)據的同時,避免出現(xiàn)較高覆蓋率的K個數(shù)據源,作為集成系統(tǒng)最終需要爬取和集成的數(shù)據源。實驗結果表明,該方法結合兩類選擇器的優(yōu)點,縮減了候選數(shù)據源的空間并保證集成數(shù)據的質量,同時避免了系統(tǒng)處理大量重復數(shù)據,有效降低Deep Web數(shù)據爬取與集成的代價。

非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
Deep Web數(shù)據源選擇和集成方法下載
相關電子資料下載
- 大數(shù)據采集系統(tǒng)分為幾類 269
- 常見的數(shù)據采集工具的介紹 109
- 邊緣計算與晶振技術:實現(xiàn)智能靠近數(shù)據源的新型計算范式 407
- 商湯科技攜手國內頭部遙感數(shù)據平臺全面升級SenseEarth數(shù)據源 272
- 萬維網35周年之際,聯(lián)合創(chuàng)始人警告平臺沉迷和數(shù)據源控制兩大問題 445
- NBA比賽收視率的背后是什么? 213
- 開發(fā)RAG管道過程中的12個痛點 435
- 鴻蒙開發(fā)教學-圖片的引用 381
- 鴻蒙HarmonyOS引用圖片的方法 555
- 數(shù)據網關機干什么的 數(shù)據網關與數(shù)據采集器的區(qū)別 1097
