午夜y888不卡视频国产,国产美女A片免费观看入口

來源：ST社區(qū)

科多分享的大數(shù)據(jù)分析學(xué)習(xí)與研究的新挑戰(zhàn)：對(duì)于習(xí)慣結(jié)構(gòu)化數(shù)據(jù)研究的統(tǒng)計(jì)學(xué)來說，大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。

挑戰(zhàn)來自何方?來自于大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性三個(gè)方面，其中復(fù)雜性最為根本。

大數(shù)據(jù)的復(fù)雜性

復(fù)雜性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的根本所在，它主要表現(xiàn)為類型復(fù)雜性、結(jié)構(gòu)復(fù)雜性和內(nèi)在模式復(fù)雜性三個(gè)方面，從而使得大數(shù)據(jù)的存儲(chǔ)與分析產(chǎn)生多方面的困難。對(duì)于大數(shù)據(jù)的類型與結(jié)構(gòu)的復(fù)雜性這里不再贅述，但它們決定了數(shù)據(jù)模式的多樣化，使得刻畫數(shù)據(jù)特征的模式不斷變化、呈幾何級(jí)數(shù)增加。統(tǒng)計(jì)學(xué)盡管長(zhǎng)期以來研究復(fù)雜現(xiàn)象的數(shù)量特征，但所涉及的數(shù)據(jù)是結(jié)構(gòu)化的，模式是固定化的，比起大數(shù)據(jù)要簡(jiǎn)單得多。

因此，學(xué)習(xí)大數(shù)據(jù)，我們不僅要熟悉各種類型的數(shù)據(jù)模式，還要善于把握它們之間的相互關(guān)系與作用，善于綜合利用各方面的知識(shí)(包括文本挖掘、圖像處理、信息網(wǎng)絡(luò)技術(shù)、心理學(xué)、社會(huì)學(xué)等等)加以研究。已有一些學(xué)者提出利用網(wǎng)絡(luò)來描述異質(zhì)數(shù)據(jù)間的關(guān)系，同時(shí)提出了目標(biāo)數(shù)據(jù)的“元路徑(Meta－Path)”概率刻畫模式。同時(shí)，由于非結(jié)構(gòu)化數(shù)據(jù)通常比結(jié)構(gòu)化數(shù)據(jù)包含更多的無用信息和垃圾信息，因此需要運(yùn)用特定的方法來去偽存真、去粗存精，例如通過搜索引擎從非結(jié)構(gòu)化數(shù)據(jù)中檢索出有用的信息等等。

大數(shù)據(jù)的不確定性

網(wǎng)絡(luò)大數(shù)據(jù)通常是高維的，以往的統(tǒng)計(jì)學(xué)習(xí)方法往往難以產(chǎn)生令人滿意的效果。復(fù)雜性必然帶來不確定性。

大數(shù)據(jù)的不確定性表現(xiàn)為數(shù)據(jù)本身的不確定性、模型的不確定性和學(xué)習(xí)的不確定性，從而給大數(shù)據(jù)建模和學(xué)習(xí)造成困難。數(shù)據(jù)的不確定性既包括原始數(shù)據(jù)的不準(zhǔn)確，也包括數(shù)據(jù)處理過程中由各種因素所造成的在不同維度、不同尺度上的不確定性。例如阿里巴巴數(shù)據(jù)官曾經(jīng)介紹，區(qū)淘寶網(wǎng)上購物者的性別特征就可以有十幾種判斷。雖然傳統(tǒng)的統(tǒng)計(jì)學(xué)方法主要研究不確定性數(shù)據(jù)，但傳統(tǒng)數(shù)據(jù)的不確定性明顯不同于大數(shù)據(jù)的不確定性，面對(duì)海量、高維、多類型的不確定性數(shù)據(jù)，傳統(tǒng)的統(tǒng)計(jì)方法顯得力不從心，無論是數(shù)據(jù)的采集、存儲(chǔ)、建模還是查詢、檢索和挖掘，都需要?jiǎng)?chuàng)新方法。大數(shù)據(jù)的不確定性必然帶來數(shù)據(jù)處理與分析模型的不確定性，但要解決這一點(diǎn)非常困難，有人提出了“可能世界模型”，認(rèn)為應(yīng)該在一定的結(jié)構(gòu)規(guī)范下刻畫出數(shù)據(jù)的每一種狀態(tài)，但這同樣極其困難，在實(shí)際應(yīng)用中不可能存在這樣一種通用的模型結(jié)構(gòu)，只能采取簡(jiǎn)化的模型，例如獨(dú)立性假設(shè)、同分布假設(shè)等等，尤其是概率圖模型已在數(shù)據(jù)相關(guān)性建模等方面得到了廣泛的應(yīng)用。

模型的不確定性又必然帶來大數(shù)據(jù)學(xué)習(xí)的不確定性，使得模型參數(shù)的學(xué)習(xí)很難找到最優(yōu)解，找到一個(gè)局部最優(yōu)解都很困難，通常只能采用近似的方法來替代。

隨著多核CPU/GPU的普及以及并行計(jì)算框架的研究，碎片化方法被普遍認(rèn)為是解決網(wǎng)絡(luò)大數(shù)據(jù)問題的可行方法，但需要做的工作仍然非常多。近些年來，統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域的非參數(shù)模型方法提供了一種自動(dòng)學(xué)習(xí)思路，但計(jì)算過程依然復(fù)雜，如何應(yīng)用到網(wǎng)絡(luò)大數(shù)據(jù)以及大數(shù)據(jù)培訓(xùn)中仍然是個(gè)問題。

大數(shù)據(jù)的涌現(xiàn)性

涌現(xiàn)性是網(wǎng)絡(luò)大數(shù)據(jù)有別于其他數(shù)據(jù)的關(guān)鍵特性，是大數(shù)據(jù)動(dòng)態(tài)變化、擴(kuò)展、演化的結(jié)果，表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性，其在度量、研判與預(yù)測(cè)上的困難使得網(wǎng)絡(luò)數(shù)據(jù)難以被駕馭。

涌現(xiàn)性的背后是各種信息的交互作用，是產(chǎn)生新的人類行為方式、以及社會(huì)經(jīng)濟(jì)規(guī)律的重要基礎(chǔ)。模式的涌現(xiàn)性是指網(wǎng)絡(luò)數(shù)據(jù)由于多尺度、異質(zhì)性而表現(xiàn)出來的、在屬性和功能等方面既存在差異又相互關(guān)聯(lián)的特定模式特征，這種涌現(xiàn)性結(jié)果對(duì)于研究社會(huì)網(wǎng)絡(luò)模型、理解網(wǎng)絡(luò)瓦解原因具有重要意義。行為的涌現(xiàn)性則與數(shù)據(jù)的時(shí)序性有關(guān)，是社會(huì)網(wǎng)絡(luò)中個(gè)體行為基于時(shí)序分布的統(tǒng)計(jì)結(jié)果，表現(xiàn)為較大相似性個(gè)體之間容易建立社會(huì)關(guān)系，使得網(wǎng)絡(luò)在演化過程中自發(fā)形成相互分離的連通塊。這種涌現(xiàn)性對(duì)于研究更多的社會(huì)網(wǎng)絡(luò)模型、理解行為涌現(xiàn)規(guī)律具有重要意義。例如，著名網(wǎng)絡(luò)科學(xué)家巴拉巴斯(Barabasi)通過研究發(fā)現(xiàn)，人們發(fā)送郵件的數(shù)量存在著特定的時(shí)間分布特征。智慧的涌現(xiàn)性是指網(wǎng)絡(luò)數(shù)據(jù)在沒有全局控制和預(yù)先定義的情況下，來自大量個(gè)體的自發(fā)語義通過互相融合和連接可以形成為有特定意義的通用語義，整個(gè)過程隨著數(shù)據(jù)的變化而持續(xù)演進(jìn)。這種涌現(xiàn)性對(duì)于理解網(wǎng)絡(luò)語義的形成與變化具有重要意義。

總體而言，盡管近些年與大數(shù)據(jù)研究密切相關(guān)的數(shù)據(jù)庫、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和智能工程等領(lǐng)域都取得了很大的進(jìn)展，但由于大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性，使得相關(guān)研究成果難以被直接應(yīng)用于學(xué)習(xí)大數(shù)據(jù)的分析研究之中。傳統(tǒng)的分析方法不能準(zhǔn)確表示網(wǎng)絡(luò)大數(shù)據(jù)在異構(gòu)性、交互性、時(shí)效性和突發(fā)性等方面的特點(diǎn)，傳統(tǒng)的“假設(shè)—模型—驗(yàn)證”的統(tǒng)計(jì)方法受到了質(zhì)疑，而從“數(shù)據(jù)”到“數(shù)據(jù)”的第四研究范式還沒有真正建立，因此亟需一個(gè)新的理論體系來指導(dǎo)，建立新的分析模型。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴