大數(shù)據(jù)分析的概念
大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)可以概括為5個V, 數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity)。
大數(shù)據(jù)作為時下最火熱的IT行業(yè)的詞匯,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)分析也應(yīng)運而生。
大數(shù)據(jù)分析包含那些方面
1. 可視化分析
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
2. Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
3. Predictive Analytic Capabilities(預(yù)測性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。
4. Semantic Engines(語義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。
5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。
假如大數(shù)據(jù)真的是下一個重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來的好處,而不僅僅是挑戰(zhàn)。
6.數(shù)據(jù)存儲,數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲所建立起來的關(guān)系型數(shù)據(jù)庫。在商業(yè)智能系統(tǒng)的設(shè)計中,數(shù)據(jù)倉庫的構(gòu)建是關(guān)鍵,是商業(yè)智能系統(tǒng)的基礎(chǔ),承擔(dān)對業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù),為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL),并按主題對數(shù)據(jù)進(jìn)行查詢和訪問,為聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺。
大數(shù)據(jù)分析的常用方法
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法,是以相關(guān)系數(shù)矩陣為基礎(chǔ)的,所不同的是相關(guān)系數(shù)矩陣對角線上的值,采用不同的共同性□2估值。在社會學(xué)研究中,因子分析常采用以主成分分析為基礎(chǔ)的反覆法。
3、相關(guān)分析(Correlation Analysis)
相關(guān)分析(correlation analysis),相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關(guān)關(guān)系。
4、對應(yīng)分析(Correspondence Analysis)
對應(yīng)分析(Correspondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系??梢越沂就蛔兞康母鱾€類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。對應(yīng)分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變量Y對另一個(X)或一組(X1,X2,?,Xk)變量的相依關(guān)系的統(tǒng)計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱“變異數(shù)分析”或“F檢驗”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
以上是思邁特軟件Smartbi的分享,更多行業(yè)干貨可關(guān)注我們下一期的分享。思邁特軟件Smartbi是知名國產(chǎn)BI品牌,專注于商業(yè)智能BI與大數(shù)據(jù)BI分析平臺軟件產(chǎn)業(yè)的研發(fā)及服務(wù)。經(jīng)過多年持續(xù)自主研發(fā),凝聚大量商業(yè)智能最佳實踐經(jīng)驗,整合了各行業(yè)的數(shù)據(jù)分析和決策支持的功能需求。滿足最終用戶在企業(yè)級報表、數(shù)據(jù)可視化分析、自助探索分析、數(shù)據(jù)挖掘建模、AI智能分析等大數(shù)據(jù)分析需求。
現(xiàn)個人版提供全模塊長期免費使用,有興趣的小伙伴可登陸官網(wǎng)免費試用。
責(zé)任編輯:tzh
評論