資料介紹
隨著科技的不斷發(fā)展,數(shù)據(jù)的獲取及存儲(chǔ)能力有了極大提升,致使數(shù)據(jù)規(guī)模呈現(xiàn)急速膨脹態(tài)勢(shì)。這為數(shù)據(jù)挖掘和數(shù)據(jù)分析帶來(lái)更多機(jī)遇的同時(shí),各種數(shù)據(jù)質(zhì)量問(wèn)題的研究也給我們提出了巨大的挑戰(zhàn),其中數(shù)據(jù)缺失是影響數(shù)據(jù)質(zhì)量的重點(diǎn)問(wèn)題之一。數(shù)據(jù)庫(kù)中大量的缺失值不僅嚴(yán)重影響應(yīng)用者的查詢質(zhì)量,還會(huì)對(duì)數(shù)據(jù)挖掘與數(shù)據(jù)分析結(jié)果的正確性造成影響,進(jìn)而誤導(dǎo)決策。因此,本文針對(duì)缺失數(shù)據(jù)填補(bǔ)這類問(wèn)題展開深入研究。目前缺失數(shù)據(jù)的填補(bǔ)方法很多,大部分方法是針對(duì)不完整數(shù)據(jù)中存在一種缺失類型的數(shù)據(jù)進(jìn)行填補(bǔ),但隨著數(shù)據(jù)量的增長(zhǎng),龐雜的數(shù)據(jù)中缺失類型往往是混合的,單純地應(yīng)用現(xiàn)有的方法達(dá)不到一個(gè)很好的填補(bǔ)效果。為此,本文針對(duì)不同缺失類型同時(shí)出現(xiàn)在不完整數(shù)據(jù)中的這種復(fù)雜情況展開研究。主要工作如下:
首先,本文針對(duì)常規(guī)型缺失數(shù)據(jù)的特點(diǎn)結(jié)合關(guān)聯(lián)規(guī)則的原理,提出了一種基于弱可用項(xiàng)集的數(shù)據(jù)填補(bǔ)方法,從關(guān)聯(lián)規(guī)則填補(bǔ)缺失值存在的兩個(gè)問(wèn)題展開深入研究。第一,針對(duì)頻繁項(xiàng)集挖掘時(shí)間長(zhǎng)這個(gè)問(wèn)題提出了一種基于布爾矩陣的關(guān)聯(lián)規(guī)則挖掘方法,該方法結(jié)合布爾矩陣運(yùn)算的特點(diǎn)來(lái)快速求解相關(guān)參數(shù),減少 I/O 操作的同時(shí)也從整體上優(yōu)化了頻繁項(xiàng)集的挖掘效率。第二,針對(duì)產(chǎn)生規(guī)則少影響填補(bǔ)率這個(gè)問(wèn)題提出了一種基于弱可用項(xiàng)集的填補(bǔ)方法,該方法通過(guò)在頻繁與弱可用項(xiàng)集之間建立連接,一方面利用挖掘出的連接規(guī)則提高了填補(bǔ)率;另一方面利用挖掘出的互斥規(guī)則為下一步的填補(bǔ)提供了更有效的計(jì)算依據(jù)。
然后,本文針對(duì)異常型缺失數(shù)據(jù)的特點(diǎn)結(jié)合推薦算法的思想,提出了一種基于元組相似度的數(shù)據(jù)填補(bǔ)方法。從相似元組的查找效率和求解元組相似度的準(zhǔn)確性上進(jìn)行優(yōu)化,一方面通過(guò)建立項(xiàng)目-元組倒排表來(lái)提高相似元組的查找效率;另一方面基于屬性貢獻(xiàn)度來(lái)計(jì)算元組相似度,最后利用 top-k 得分獲得最優(yōu)填補(bǔ)值。
最后,本文采用一組真實(shí)的 UCI 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了本文提出的這套填補(bǔ)方法在混合型缺失數(shù)據(jù)中更高效。
隨著互聯(lián)網(wǎng)及信息技術(shù)的高速發(fā)展,數(shù)據(jù)作為這些技術(shù)不可或缺的資源正在被以指數(shù)級(jí)增長(zhǎng)的速度開采和挖掘,龐大的數(shù)據(jù)給社會(huì)生產(chǎn)、經(jīng)濟(jì)研究、生物醫(yī)學(xué)、信息科學(xué)研究等諸多領(lǐng)域的改革創(chuàng)新帶來(lái)無(wú)限機(jī)遇的同時(shí),也帶來(lái)了越來(lái)越多的挑戰(zhàn),那就是如何挖掘出隱含在這些海量數(shù)據(jù)中有價(jià)值的信息和知識(shí),因此,數(shù)據(jù)挖掘[1]作為一項(xiàng)重要的技術(shù)隨之應(yīng)運(yùn)而生,并得到社會(huì)生產(chǎn)、經(jīng)濟(jì)研究、生物醫(yī)療、科學(xué)研究等許多領(lǐng)域的廣泛應(yīng)用,取得了巨大的社會(huì)效益和經(jīng)濟(jì)效益。然而許多模型和算法都是建立在高質(zhì)量的數(shù)據(jù)集上,但現(xiàn)實(shí)世界中的數(shù)據(jù)集很多都存在數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)冗余、噪聲數(shù)據(jù)等問(wèn)題[2,3]。這些問(wèn)題將嚴(yán)重影響數(shù)據(jù)挖掘的成功與否和適用性能,成為數(shù)據(jù)挖掘的障礙。因此,為了能有效地應(yīng)用數(shù)據(jù)挖掘的方法和提高挖掘的質(zhì)量,在對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析之前要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,其中數(shù)據(jù)缺失問(wèn)題的處理是預(yù)處理中非常重要的一個(gè)環(huán)節(jié)。
在現(xiàn)實(shí)社會(huì)的各個(gè)領(lǐng)域中,數(shù)據(jù)缺失現(xiàn)象可以說(shuō)是無(wú)處不在,且處理不當(dāng)會(huì)對(duì)后續(xù)的生產(chǎn)和研究工作帶來(lái)很多不利影響。比如,在工業(yè)生產(chǎn)過(guò)程中,由于硬件設(shè)備等問(wèn)題導(dǎo)致一些數(shù)據(jù)不能正常獲?。辉诖笮推詹檫^(guò)程中,可能因?yàn)闀r(shí)間、地理位置的變化導(dǎo)致普查結(jié)果的不完整;在醫(yī)療領(lǐng)域,經(jīng)常需要對(duì)各種病歷進(jìn)行臨床實(shí)驗(yàn),但由于有些病人的檢驗(yàn)結(jié)果不能第一時(shí)間獲取而導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)缺失的情況;在市場(chǎng)調(diào)研時(shí),由于被調(diào)研者對(duì)于問(wèn)題的理解程度不同,或是主觀的某些原因都會(huì)導(dǎo)致調(diào)研結(jié)果的缺失出現(xiàn)??梢钥闯鰯?shù)據(jù)缺失問(wèn)題覆蓋了經(jīng)濟(jì)研究、社會(huì)生產(chǎn)、人們生活產(chǎn)品制造和科學(xué)研究的各個(gè)方面且不可避免,并且隨著數(shù)據(jù)量的激增呈現(xiàn)出一種上升的態(tài)勢(shì),如果對(duì)缺失數(shù)據(jù)的處理僅僅停留在單一地處理(像刪除含缺失值記錄或使用均值填充)層面上,很難從整體上來(lái)把握數(shù)據(jù)的趨勢(shì)變化,更糟糕的是可能會(huì)因?yàn)檫@樣的分析結(jié)果導(dǎo)出錯(cuò)誤的決策,這不管對(duì)于科學(xué)研究還是社會(huì)生產(chǎn)等各個(gè)領(lǐng)域都是不愿看到的。
為了能在海量數(shù)據(jù)中挖掘出有意義的信息資源從而為決策者提供科學(xué)依據(jù),
數(shù)據(jù)質(zhì)量研究成為目前重要研究課題,其中合理填補(bǔ)缺失值、構(gòu)建更為準(zhǔn)確的完整數(shù)據(jù)集是課題研究中的一個(gè)難點(diǎn)和重點(diǎn)。因此,我們要認(rèn)識(shí)到填補(bǔ)缺失值對(duì)于數(shù)據(jù)挖掘及數(shù)據(jù)分析有著重要的意義。
1. 填補(bǔ)缺失值能夠防止刪除含有少量缺失值的重要記錄,這樣使得數(shù)據(jù)集中某些重要信息得以保留從而為正確決策提供有效依據(jù)。
2. 填補(bǔ)缺失值能夠重新修復(fù)出一個(gè)完整的數(shù)據(jù)集,從而讓數(shù)據(jù)挖掘能在一個(gè)全總的數(shù)據(jù)集上進(jìn)行分析,而不是在局部數(shù)據(jù)上進(jìn)行分析,避免了因局部分析結(jié)果的片面性而產(chǎn)生錯(cuò)誤的決策。
3. 填補(bǔ)正確的缺失值可以避免因引入新的噪音而影響數(shù)據(jù)挖掘的效果。因此,深入研究數(shù)據(jù)缺失問(wèn)題,不僅為了全面、準(zhǔn)確地利用現(xiàn)有數(shù)據(jù)去反映真實(shí)的實(shí)際情況,更是為了能夠進(jìn)行高層次的分析進(jìn)而挖掘出這些數(shù)據(jù)隱含的、有用的關(guān)系和規(guī)則。所以,本文的主要工作就在于對(duì)現(xiàn)有的主流填補(bǔ)方法進(jìn)行較全面的分析后,研究如何利用現(xiàn)有數(shù)據(jù)完成對(duì)數(shù)據(jù)集中存在的混合型缺失數(shù)據(jù)的填補(bǔ)工作,提出了一套新的缺失數(shù)據(jù)填補(bǔ)方法,并對(duì)其填補(bǔ)結(jié)果進(jìn)行分析與評(píng)價(jià),以期為實(shí)際數(shù)據(jù)預(yù)處理提供借鑒,具有非常重要的現(xiàn)實(shí)意義。
- 基于張量的車輛交通數(shù)據(jù)缺失估計(jì)方法 5次下載
- 一種對(duì)4/5G鄰區(qū)缺失問(wèn)題核查方法資料下載
- 基于稀疏表示的電力負(fù)荷缺失數(shù)據(jù)補(bǔ)全方法 15次下載
- 智能型住宅安防報(bào)警系統(tǒng)的研究詳細(xì)資料免費(fèi)下載 16次下載
- 網(wǎng)絡(luò)搜索-填補(bǔ)信息斷層的詳細(xì)中文資料免費(fèi)下載 11次下載
- 一種直流混合型超導(dǎo)限流器的方案 0次下載
- 混合型限流及開斷技術(shù)綜述 6次下載
- 混合型濾波器的結(jié)構(gòu)及其補(bǔ)償原理的介紹 42次下載
- DC_DC_AC混合型MMC變換器控制策略分析與設(shè)計(jì)_魏亮 0次下載
- 直流混合型斷路器與直流故障限流器的匹配研究 1次下載
- 精密混合型注塑機(jī)熔膠機(jī)構(gòu)模糊PID控制的研究與仿真 19次下載
- 對(duì)于混合型監(jiān)理模式利弊的探討
- 高頻高效率混合型潘尼管的理論分析
- 混合型防火墻的研究與設(shè)計(jì)
- 文本分類中一種混合型特征降維方法
- 解析混合放大器的使用方法 792次閱讀
- 制造等離子納米金剛石 806次閱讀
- 數(shù)據(jù)增強(qiáng)使用的傳統(tǒng)算法方法 659次閱讀
- 中控智慧科技考勤機(jī)iFace501介紹 2349次閱讀
- SCI科技型論文框架構(gòu)思及其“潛規(guī)則” 3143次閱讀
- 用AI打擊論文圖像造假,仍有4000多篇醫(yī)學(xué)“問(wèn)題論文” 4921次閱讀
- Vishay推出微測(cè)量混合型傳感器系列,可使工業(yè)生產(chǎn)率得到大幅提高 858次閱讀
- CRYPTYK采用兩個(gè)互補(bǔ)的去中心化平臺(tái)組成“混合區(qū)塊鏈” 2346次閱讀
- IGBT及其子器件的四種失效模式比較分析 1.7w次閱讀
- HB型混合式步進(jìn)電機(jī)的結(jié)構(gòu)和工作原理詳解 2w次閱讀
- proteus和protel的區(qū)別 4.7w次閱讀
- AUTOCAD2009免費(fèi)下載中文版 CAD2009簡(jiǎn)體中文下載及安裝方法 1.3w次閱讀
- 基于LabVIEW和Matlab混合編程的小波降噪方法 1w次閱讀
- 基于DSP的功率電感5kW離網(wǎng)型光伏逆變器設(shè)計(jì) 3389次閱讀
- 高壓并聯(lián)式混合型電網(wǎng)高次諧波有源濾波裝置 1118次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1490次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 92次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識(shí)別和講解說(shuō)明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費(fèi)
- 6基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
- 7藍(lán)牙設(shè)備在嵌入式領(lǐng)域的廣泛應(yīng)用
- 0.63 MB | 3次下載 | 免費(fèi)
- 89天練會(huì)電子電路識(shí)圖
- 5.91 MB | 3次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
評(píng)論