資料介紹
隨著科技的不斷發(fā)展,數(shù)據(jù)的獲取及存儲能力有了極大提升,致使數(shù)據(jù)規(guī)模呈現(xiàn)急速膨脹態(tài)勢。這為數(shù)據(jù)挖掘和數(shù)據(jù)分析帶來更多機遇的同時,各種數(shù)據(jù)質(zhì)量問題的研究也給我們提出了巨大的挑戰(zhàn),其中數(shù)據(jù)缺失是影響數(shù)據(jù)質(zhì)量的重點問題之一。數(shù)據(jù)庫中大量的缺失值不僅嚴重影響應用者的查詢質(zhì)量,還會對數(shù)據(jù)挖掘與數(shù)據(jù)分析結(jié)果的正確性造成影響,進而誤導決策。因此,本文針對缺失數(shù)據(jù)填補這類問題展開深入研究。目前缺失數(shù)據(jù)的填補方法很多,大部分方法是針對不完整數(shù)據(jù)中存在一種缺失類型的數(shù)據(jù)進行填補,但隨著數(shù)據(jù)量的增長,龐雜的數(shù)據(jù)中缺失類型往往是混合的,單純地應用現(xiàn)有的方法達不到一個很好的填補效果。為此,本文針對不同缺失類型同時出現(xiàn)在不完整數(shù)據(jù)中的這種復雜情況展開研究。主要工作如下:
首先,本文針對常規(guī)型缺失數(shù)據(jù)的特點結(jié)合關聯(lián)規(guī)則的原理,提出了一種基于弱可用項集的數(shù)據(jù)填補方法,從關聯(lián)規(guī)則填補缺失值存在的兩個問題展開深入研究。第一,針對頻繁項集挖掘時間長這個問題提出了一種基于布爾矩陣的關聯(lián)規(guī)則挖掘方法,該方法結(jié)合布爾矩陣運算的特點來快速求解相關參數(shù),減少 I/O 操作的同時也從整體上優(yōu)化了頻繁項集的挖掘效率。第二,針對產(chǎn)生規(guī)則少影響填補率這個問題提出了一種基于弱可用項集的填補方法,該方法通過在頻繁與弱可用項集之間建立連接,一方面利用挖掘出的連接規(guī)則提高了填補率;另一方面利用挖掘出的互斥規(guī)則為下一步的填補提供了更有效的計算依據(jù)。

然后,本文針對異常型缺失數(shù)據(jù)的特點結(jié)合推薦算法的思想,提出了一種基于元組相似度的數(shù)據(jù)填補方法。從相似元組的查找效率和求解元組相似度的準確性上進行優(yōu)化,一方面通過建立項目-元組倒排表來提高相似元組的查找效率;另一方面基于屬性貢獻度來計算元組相似度,最后利用 top-k 得分獲得最優(yōu)填補值。
最后,本文采用一組真實的 UCI 數(shù)據(jù)集進行實驗,證明了本文提出的這套填補方法在混合型缺失數(shù)據(jù)中更高效。
隨著互聯(lián)網(wǎng)及信息技術的高速發(fā)展,數(shù)據(jù)作為這些技術不可或缺的資源正在被以指數(shù)級增長的速度開采和挖掘,龐大的數(shù)據(jù)給社會生產(chǎn)、經(jīng)濟研究、生物醫(yī)學、信息科學研究等諸多領域的改革創(chuàng)新帶來無限機遇的同時,也帶來了越來越多的挑戰(zhàn),那就是如何挖掘出隱含在這些海量數(shù)據(jù)中有價值的信息和知識,因此,數(shù)據(jù)挖掘[1]作為一項重要的技術隨之應運而生,并得到社會生產(chǎn)、經(jīng)濟研究、生物醫(yī)療、科學研究等許多領域的廣泛應用,取得了巨大的社會效益和經(jīng)濟效益。然而許多模型和算法都是建立在高質(zhì)量的數(shù)據(jù)集上,但現(xiàn)實世界中的數(shù)據(jù)集很多都存在數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)冗余、噪聲數(shù)據(jù)等問題[2,3]。這些問題將嚴重影響數(shù)據(jù)挖掘的成功與否和適用性能,成為數(shù)據(jù)挖掘的障礙。因此,為了能有效地應用數(shù)據(jù)挖掘的方法和提高挖掘的質(zhì)量,在對數(shù)據(jù)庫中的數(shù)據(jù)進行分析之前要對數(shù)據(jù)進行預處理,其中數(shù)據(jù)缺失問題的處理是預處理中非常重要的一個環(huán)節(jié)。
在現(xiàn)實社會的各個領域中,數(shù)據(jù)缺失現(xiàn)象可以說是無處不在,且處理不當會對后續(xù)的生產(chǎn)和研究工作帶來很多不利影響。比如,在工業(yè)生產(chǎn)過程中,由于硬件設備等問題導致一些數(shù)據(jù)不能正常獲??;在大型普查過程中,可能因為時間、地理位置的變化導致普查結(jié)果的不完整;在醫(yī)療領域,經(jīng)常需要對各種病歷進行臨床實驗,但由于有些病人的檢驗結(jié)果不能第一時間獲取而導致實驗數(shù)據(jù)缺失的情況;在市場調(diào)研時,由于被調(diào)研者對于問題的理解程度不同,或是主觀的某些原因都會導致調(diào)研結(jié)果的缺失出現(xiàn)??梢钥闯鰯?shù)據(jù)缺失問題覆蓋了經(jīng)濟研究、社會生產(chǎn)、人們生活產(chǎn)品制造和科學研究的各個方面且不可避免,并且隨著數(shù)據(jù)量的激增呈現(xiàn)出一種上升的態(tài)勢,如果對缺失數(shù)據(jù)的處理僅僅停留在單一地處理(像刪除含缺失值記錄或使用均值填充)層面上,很難從整體上來把握數(shù)據(jù)的趨勢變化,更糟糕的是可能會因為這樣的分析結(jié)果導出錯誤的決策,這不管對于科學研究還是社會生產(chǎn)等各個領域都是不愿看到的。
為了能在海量數(shù)據(jù)中挖掘出有意義的信息資源從而為決策者提供科學依據(jù),
數(shù)據(jù)質(zhì)量研究成為目前重要研究課題,其中合理填補缺失值、構(gòu)建更為準確的完整數(shù)據(jù)集是課題研究中的一個難點和重點。因此,我們要認識到填補缺失值對于數(shù)據(jù)挖掘及數(shù)據(jù)分析有著重要的意義。
1. 填補缺失值能夠防止刪除含有少量缺失值的重要記錄,這樣使得數(shù)據(jù)集中某些重要信息得以保留從而為正確決策提供有效依據(jù)。
2. 填補缺失值能夠重新修復出一個完整的數(shù)據(jù)集,從而讓數(shù)據(jù)挖掘能在一個全總的數(shù)據(jù)集上進行分析,而不是在局部數(shù)據(jù)上進行分析,避免了因局部分析結(jié)果的片面性而產(chǎn)生錯誤的決策。
3. 填補正確的缺失值可以避免因引入新的噪音而影響數(shù)據(jù)挖掘的效果。因此,深入研究數(shù)據(jù)缺失問題,不僅為了全面、準確地利用現(xiàn)有數(shù)據(jù)去反映真實的實際情況,更是為了能夠進行高層次的分析進而挖掘出這些數(shù)據(jù)隱含的、有用的關系和規(guī)則。所以,本文的主要工作就在于對現(xiàn)有的主流填補方法進行較全面的分析后,研究如何利用現(xiàn)有數(shù)據(jù)完成對數(shù)據(jù)集中存在的混合型缺失數(shù)據(jù)的填補工作,提出了一套新的缺失數(shù)據(jù)填補方法,并對其填補結(jié)果進行分析與評價,以期為實際數(shù)據(jù)預處理提供借鑒,具有非常重要的現(xiàn)實意義。
- 基于張量的車輛交通數(shù)據(jù)缺失估計方法 5次下載
- 一種對4/5G鄰區(qū)缺失問題核查方法資料下載
- 基于稀疏表示的電力負荷缺失數(shù)據(jù)補全方法 15次下載
- 智能型住宅安防報警系統(tǒng)的研究詳細資料免費下載 16次下載
- 網(wǎng)絡搜索-填補信息斷層的詳細中文資料免費下載 11次下載
- 一種直流混合型超導限流器的方案 0次下載
- 混合型限流及開斷技術綜述 6次下載
- 混合型濾波器的結(jié)構(gòu)及其補償原理的介紹 42次下載
- DC_DC_AC混合型MMC變換器控制策略分析與設計_魏亮 0次下載
- 直流混合型斷路器與直流故障限流器的匹配研究 1次下載
- 精密混合型注塑機熔膠機構(gòu)模糊PID控制的研究與仿真 19次下載
- 對于混合型監(jiān)理模式利弊的探討
- 高頻高效率混合型潘尼管的理論分析
- 混合型防火墻的研究與設計
- 文本分類中一種混合型特征降維方法
- 瑞芯微rv1106開發(fā)資料 rv1106數(shù)據(jù)手冊 rv1106詳細說明書免費下載 4.8k次閱讀
- 解析混合放大器的使用方法 1.6k次閱讀
- 制造等離子納米金剛石 1.4k次閱讀
- 數(shù)據(jù)增強使用的傳統(tǒng)算法方法 1.5k次閱讀
- SCI科技型論文框架構(gòu)思及其“潛規(guī)則” 4.1k次閱讀
- 用AI打擊論文圖像造假,仍有4000多篇醫(yī)學“問題論文” 5.6k次閱讀
- Vishay推出微測量混合型傳感器系列,可使工業(yè)生產(chǎn)率得到大幅提高 1.1k次閱讀
- CRYPTYK采用兩個互補的去中心化平臺組成“混合區(qū)塊鏈” 2.6k次閱讀
- IGBT及其子器件的四種失效模式比較分析 2w次閱讀
- HB型混合式步進電機的結(jié)構(gòu)和工作原理詳解 2.2w次閱讀
- proteus和protel的區(qū)別 4.9w次閱讀
- AUTOCAD2009免費下載中文版 CAD2009簡體中文下載及安裝方法 1.4w次閱讀
- 基于LabVIEW和Matlab混合編程的小波降噪方法 1.2w次閱讀
- 基于DSP的功率電感5kW離網(wǎng)型光伏逆變器設計 3.8k次閱讀
- 高壓并聯(lián)式混合型電網(wǎng)高次諧波有源濾波裝置 1.3k次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 92次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7藍牙設備在嵌入式領域的廣泛應用
- 0.63 MB | 3次下載 | 免費
- 89天練會電子電路識圖
- 5.91 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
電子發(fā)燒友App





創(chuàng)作
發(fā)文章
發(fā)帖
提問
發(fā)資料
發(fā)視頻
上傳資料賺積分
評論