chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù):社會(huì)科學(xué)研究的全數(shù)據(jù)模式時(shí)代到來(lái)了嗎?

倩倩 ? 來(lái)源:天津師范大學(xué)學(xué)報(bào) ? 作者:陳崢 ? 2020-04-21 17:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)將人類引入大數(shù)據(jù)時(shí)代,三大網(wǎng)絡(luò)每分每秒都在生成、采集人類的行為數(shù)據(jù)。這對(duì)于社會(huì)科學(xué)的研究(尤其是實(shí)證研究),無(wú)疑是一件令人驚喜的事情。它所獲取的海量數(shù)據(jù),用傳統(tǒng)的方法(如問(wèn)卷調(diào)查)是無(wú)法做到的。例如,社交平臺(tái)臉書(shū)(facebook)每日產(chǎn)生100億條信息、450億次點(diǎn)贊,有3.5億張新圖片被上傳[1],其數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)了超過(guò)300PB的數(shù)據(jù),并且以每日新增600TB的速度增長(zhǎng)[2];早在2013年,搜索引擎服務(wù)提供商——百度就稱其每天處理100PB以上的數(shù)據(jù),每天響應(yīng)的請(qǐng)求數(shù)量在百億級(jí),產(chǎn)生的搜索日志數(shù)量達(dá)到1TB。[3]

豐富的網(wǎng)絡(luò)數(shù)據(jù)資源加上新的數(shù)據(jù)處理技術(shù),使基于大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)迅速成為社會(huì)科學(xué)中計(jì)算的核心內(nèi)容。社會(huì)科學(xué)家們紛紛運(yùn)用網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行創(chuàng)新性研究。例如,運(yùn)用臉書(shū)、推特、微博等數(shù)據(jù)來(lái)探尋人類行為的規(guī)律、社會(huì)心態(tài)的變化,等等。一時(shí)間,此類研究所使用數(shù)據(jù)的體量是否巨大、所運(yùn)用的數(shù)據(jù)處理技術(shù)是否新穎等問(wèn)題成為大家關(guān)注的焦點(diǎn)。丹·博伊德與凱特·克勞福德指出:“(大家)圍繞針對(duì)推特研究的討論,集中于可供使用的推特?cái)?shù)據(jù)的體量這一問(wèn)題上?!保?]所以,雖然大數(shù)據(jù)的優(yōu)勢(shì)很明顯,但其是否能夠完美地滿足社會(huì)科學(xué)研究所需數(shù)據(jù)的要求,卻少有人對(duì)之深入思考。

一、大數(shù)據(jù):社會(huì)科學(xué)研究的全數(shù)據(jù)模式時(shí)代到來(lái)了嗎?

2012年,維克托·邁爾-舍恩伯格、肯尼斯·庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》提出,大數(shù)據(jù)時(shí)代的一個(gè)思維變革,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。過(guò)去,由于收集和分析數(shù)據(jù)受客觀條件的限制,所以采用了隨機(jī)采樣的方法,但這只是一條捷徑,是在難以收集和分析全部數(shù)據(jù)情況下的選擇,它本身存在許多缺陷。而在大數(shù)據(jù)時(shí)代,在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的情況已經(jīng)發(fā)生。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”。[5](P37)對(duì)于舍恩伯格和庫(kù)克耶所講的話,有兩點(diǎn)需要注意:一是“在很多領(lǐng)域”而非“在所有領(lǐng)域”;二是目前還只是一種可能性,而非完全做到。因此,其合理的結(jié)論只能是:在很多領(lǐng)域,如果可能的話,我們要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠少量的數(shù)據(jù)樣本。但是,舍恩伯格和庫(kù)克耶接下來(lái)作了一個(gè)樂(lè)觀的估計(jì):“在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像是在汽車時(shí)代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地,我們會(huì)完全拋棄樣本分析?!保?](P43)或許正是基于這種樂(lè)觀的估計(jì),他們將大數(shù)據(jù)定義為:“不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理?!保?](P39)顯而易見(jiàn),舍恩伯格和庫(kù)克耶的邏輯是不嚴(yán)密的,既然還只是“在很多領(lǐng)域”與“如果可能”的情況下,能夠做到“樣本=總體”,那么,在一些還不可能收集相關(guān)的所有數(shù)據(jù)的領(lǐng)域,是否就意味著不論其獲得的數(shù)據(jù)的體量有多大,數(shù)據(jù)的模式結(jié)構(gòu)有多復(fù)雜,數(shù)據(jù)的動(dòng)態(tài)增加有多快,都不能算是大數(shù)據(jù)?事實(shí)上,被舍恩伯格和庫(kù)克耶確定為大數(shù)據(jù)的谷歌搜索數(shù)據(jù),也不是收集到嚴(yán)格意義上的所有數(shù)據(jù),因?yàn)楣雀桦m然在搜索市場(chǎng)占有率第一,但依然有用戶在使用微軟“必應(yīng)”①等搜索引擎。那么,谷歌搜索數(shù)據(jù)也不能算作大數(shù)據(jù)嗎?所以,舍恩伯格和庫(kù)克耶的定義無(wú)疑會(huì)引起大數(shù)據(jù)概念的混亂,但百度百科、360百科、互動(dòng)百科皆收錄了他的定義,正持續(xù)產(chǎn)生廣泛的影響。

舍恩伯格和庫(kù)克耶認(rèn)為:“社會(huì)科學(xué)是被‘樣本=總體’撼動(dòng)得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會(huì)科學(xué)不再單純依賴于分析經(jīng)驗(yàn)數(shù)據(jù)。這門學(xué)科過(guò)去曾非常依賴樣本分析、研究和調(diào)查問(wèn)卷。而現(xiàn)在,我們可以收集過(guò)去無(wú)法收集到的信息,不管是通過(guò)移動(dòng)電話表現(xiàn)出的關(guān)系,還是通過(guò)推特信息表現(xiàn)出的感情。更重要的是,現(xiàn)在我們也不再依賴抽樣調(diào)查了?!保?](P42)這樣的表述,讓人不得不理解其言下之意是,在社會(huì)科學(xué)領(lǐng)域,我們已經(jīng)完全能夠(至少是即將完全能夠)收集、分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠少量的數(shù)據(jù)樣本。所以,盡管《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》只是一本普通的暢銷書(shū),并非嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)著作,但依然成為很多社會(huì)科學(xué)研究者的心靈雞湯。筆者發(fā)現(xiàn),近幾年社會(huì)科學(xué)界對(duì)大數(shù)據(jù)的概念存在以下幾種誤解。

1.隨著大數(shù)據(jù)時(shí)代的到來(lái),“一切皆可數(shù)據(jù)化”,社會(huì)科學(xué)可以獲得研究所需的“總體數(shù)據(jù)”,全數(shù)據(jù)模式正在開(kāi)啟。

2.由于大數(shù)據(jù)是“樣本=總體”或至少是“樣本接近于總體”的數(shù)據(jù),因此,它不存在采樣偏差和數(shù)據(jù)代表性問(wèn)題。傳統(tǒng)的問(wèn)卷調(diào)查法將被大數(shù)據(jù)的獲取方法徹底取代。

3.信息技術(shù)的進(jìn)步使計(jì)算能力得到巨大提升,因此對(duì)“所有數(shù)據(jù)”的分析將成為主導(dǎo)性甚至唯一的方法。

然而,事實(shí)果真如此嗎?社會(huì)科學(xué)研究的全數(shù)據(jù)模式時(shí)代真的已經(jīng)全面到來(lái)了嗎?抽樣調(diào)查真的會(huì)像汽車時(shí)代的馬匹一樣退出歷史舞臺(tái)嗎?

二、挫折與反思:大數(shù)據(jù)研究的失敗案例說(shuō)明了什么?

大數(shù)據(jù)驅(qū)動(dòng)下的社會(huì)科學(xué)研究取得了一系列令人眼界大開(kāi)的成果,但同樣也有足以促人反思的問(wèn)題。一個(gè)典型案例是對(duì)英國(guó)脫歐的預(yù)測(cè)。

2016年英國(guó)脫歐公投是一件關(guān)系重大的選擇,因此,有許多機(jī)構(gòu)或運(yùn)用傳統(tǒng)方法或基于大數(shù)據(jù)的獲取與分析,對(duì)公眾態(tài)度進(jìn)行研究,以預(yù)測(cè)投票結(jié)果。

采用傳統(tǒng)民意調(diào)查方法的研究,基本都預(yù)測(cè)投票結(jié)果將是留歐。例如,2016年初,英國(guó)市場(chǎng)和民意調(diào)查機(jī)構(gòu)依普索·莫瑞(Ipsos Mori)對(duì)抽取的514名英國(guó)成年人進(jìn)行的電話調(diào)查顯示,有50%的受訪者支持留歐,有38%受訪者支持脫歐,有12%的人搖擺不定[6];英國(guó)政治學(xué)會(huì)針對(duì)包括學(xué)者、新聞?dòng)浾?、民意測(cè)驗(yàn)專家等在內(nèi)的專家群體進(jìn)行了在線問(wèn)卷調(diào)查,共計(jì)發(fā)放電子問(wèn)卷2,031份,回收596份。有87%的受訪學(xué)者支持留歐,而支持留歐的新聞?dòng)浾叩谋壤沁_(dá)到97%,專家群體對(duì)投票結(jié)果的預(yù)測(cè)是55%的選民將投票留歐。[7]也就是說(shuō),不論是針對(duì)普通人,還是針對(duì)專家群體的抽樣調(diào)查,其結(jié)果都指向留歐。但是,實(shí)際投票結(jié)果卻是留歐與脫歐的得票率分別為48.1%與51.9%,宣告?zhèn)鹘y(tǒng)民意調(diào)查方法預(yù)測(cè)失敗,那么失敗的原因何在呢?

從投票結(jié)束之后公布的支持留歐者與支持脫歐者的年齡與階層構(gòu)成來(lái)看,前者主要是年輕人、精英或者白領(lǐng)階層;后者主要是中老年人以及普通勞工等藍(lán)領(lǐng)階層。圍繞經(jīng)濟(jì)民生這一核心議題,前者認(rèn)為,隨著歐盟擴(kuò)張而大量涌入的“窮親戚”——東歐移民——能夠帶來(lái)人口紅利,降低生產(chǎn)成本,從而帶動(dòng)GDP上升;而后者則認(rèn)為移民會(huì)擠占就業(yè)機(jī)會(huì),瓜分社會(huì)福利。在經(jīng)濟(jì)停滯不前的大背景下,就業(yè)與社會(huì)福利的蛋糕本就不大,移民的到來(lái)威脅到他們的切身利益。使用傳統(tǒng)方法之所以預(yù)測(cè)失準(zhǔn),主要原因是未能充分接觸藍(lán)領(lǐng)階層而導(dǎo)致了采樣偏差,使調(diào)查樣本不能很好地代表投票群體。而要避免這種采樣偏差是相當(dāng)困難的,因?yàn)檫@意味著要在調(diào)查問(wèn)卷發(fā)放前就要準(zhǔn)確判斷出不同人群的投票率。既然傳統(tǒng)方法在這項(xiàng)研究中難以避免采樣偏差,那么,大數(shù)據(jù)的獲取與分析能否有效彌補(bǔ)傳統(tǒng)方法的缺陷呢?

有學(xué)者利用大數(shù)據(jù)分析預(yù)測(cè)框架對(duì)英國(guó)脫歐公投的結(jié)果進(jìn)行了預(yù)判。研究采用TRUST法(topic retrieved,uncovered and structurally tested)。具體做法是:對(duì)新聞報(bào)道進(jìn)行文本挖掘與分析,析出與英國(guó)脫歐相關(guān)的主題詞,譬如經(jīng)濟(jì)、安全、移民等,再運(yùn)用谷歌對(duì)基于這些主題詞的網(wǎng)絡(luò)檢索行為進(jìn)行跟蹤,同時(shí)結(jié)合主流民意調(diào)查機(jī)構(gòu)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,最終得出留歐和脫歐陣營(yíng)的得票區(qū)間分別為50.1%~53.6%與46.4%~49.7%,平均得票率分別為52%與48%。[8]該預(yù)測(cè)與運(yùn)用傳統(tǒng)方法進(jìn)行的預(yù)測(cè)出現(xiàn)了相似的偏差,緣由為何呢?

首先,海量的在線新聞和谷歌搜索數(shù)據(jù)雖然是大數(shù)據(jù),但對(duì)于該項(xiàng)分析研究而言,它不是關(guān)于研究對(duì)象的“總體數(shù)據(jù)”。該研究的對(duì)象是可能參加投票的英國(guó)公民,但這一群體并不都是網(wǎng)民,非網(wǎng)民群體在研究中必然被排除在外。

其次,互聯(lián)網(wǎng)作為一種新興媒體,其政治效能越來(lái)越被社會(huì)精英群體所認(rèn)識(shí)和重視,他們中很多人必然利用互聯(lián)網(wǎng)制造符合自己主張(留歐)的輿論態(tài)勢(shì);同時(shí),作為互聯(lián)網(wǎng)原住民的年輕人(尤其是大學(xué)生)更習(xí)慣于利用網(wǎng)絡(luò)獲取信息,更喜歡參與網(wǎng)絡(luò)造勢(shì),這使得網(wǎng)絡(luò)新聞中留歐的聲音往往是主流,搜索指數(shù)也會(huì)偏向留歐。而不少中老年人、藍(lán)領(lǐng)階層往往線上沉默,線下活躍,他們較少受網(wǎng)絡(luò)新聞、意見(jiàn)領(lǐng)袖的影響,也較少在互聯(lián)網(wǎng)上留下行為蹤跡,但這一群體中很多人投票意向篤定。這便導(dǎo)致了留歐在網(wǎng)絡(luò)中的聲勢(shì)雖大但卻在投票中失利的結(jié)果。

可見(jiàn),此研究采集的在線新聞與搜索數(shù)據(jù)只能很好地代表活躍網(wǎng)民,而不能代表有投票意愿的英國(guó)公民。在脫歐預(yù)測(cè)失敗之后,基于大數(shù)據(jù)分析的美國(guó)大選投票結(jié)果預(yù)測(cè)也以失敗告終。已有研究指出,預(yù)測(cè)失敗的重要原因之一是其落入了“代表性陷阱”。雖然網(wǎng)絡(luò)搜索數(shù)據(jù)、社交媒體數(shù)據(jù)等都是典型的大數(shù)據(jù),若基于此而預(yù)測(cè)大選結(jié)果,卻絕對(duì)不是所謂的“樣本=總體”,因?yàn)榫W(wǎng)民≠選民;即便在網(wǎng)民中,不同的偏好、特性、體驗(yàn)、使用習(xí)慣等因素同樣會(huì)削弱數(shù)據(jù)的代表性。[9]

從上述案例可以看出,雖然大數(shù)據(jù)時(shí)代可以使我們獲得比以往更多的信息資料,但并不能保證社會(huì)科學(xué)就可以開(kāi)展全數(shù)據(jù)模式的研究。

三、鴻溝難填:信息時(shí)代的數(shù)字不平等

“總體數(shù)據(jù)”“全數(shù)據(jù)模式”是相對(duì)于具體的研究對(duì)象和研究問(wèn)題而言的,舍恩伯格和庫(kù)克耶的相關(guān)論述混淆了這些概念。他們舉一案例解釋:“艾伯特·拉斯洛·巴拉巴西和他的同事想研究人與人之間的互動(dòng)。于是他們調(diào)查了四個(gè)月內(nèi)所有的移動(dòng)通信記錄——當(dāng)然是匿名的,這些記錄是由一個(gè)為全美1/5的人口提供服務(wù)的無(wú)線運(yùn)營(yíng)商提供的。這是第一次在全社會(huì)層面用接近于‘樣本=總體’的數(shù)據(jù)資料進(jìn)行的網(wǎng)絡(luò)分析?!保?](P42)在此案例中,研究對(duì)象是人,研究問(wèn)題是人與人之間的互動(dòng),而移動(dòng)通信僅僅是眾多互動(dòng)方式的一部分,因此,作者所說(shuō)的移動(dòng)通信記錄絕不能視為人與人之間互動(dòng)的總體數(shù)據(jù);美國(guó)并不止這一家無(wú)線運(yùn)營(yíng)商,全美也并非只有1/5人口使用移動(dòng)通信,因此,一家無(wú)線運(yùn)營(yíng)商提供的記錄絕不能視為美國(guó)人移動(dòng)通信的總體數(shù)據(jù);更何況,只調(diào)查了四個(gè)月內(nèi)的所有移動(dòng)通信記錄,其實(shí)連全美1/5人口移動(dòng)通信互動(dòng)的總體數(shù)據(jù)都算不上,怎么能把它當(dāng)作總體樣本呢?此案例中只表明已經(jīng)收集到的數(shù)據(jù)的全部,但相對(duì)于研究對(duì)象和研究問(wèn)題而言,這些數(shù)據(jù)仍然是一個(gè)樣本——達(dá)到了大數(shù)據(jù)體量的樣本。

“可以收集過(guò)去無(wú)法收集到的信息”不等于“可以收集到社會(huì)科學(xué)研究需要的所有信息”,輕率地認(rèn)定社會(huì)科學(xué)研究“現(xiàn)在不再依賴抽樣調(diào)查了”的結(jié)論,是不嚴(yán)謹(jǐn)?shù)?。事?shí)上,在很多情況下,可資社會(huì)科學(xué)研究的大數(shù)據(jù)并非“總體數(shù)據(jù)”,因而同樣存在數(shù)據(jù)代表性問(wèn)題。而在互聯(lián)網(wǎng)普及過(guò)程中出現(xiàn)的網(wǎng)絡(luò)分化,則讓這種狀況在可預(yù)見(jiàn)的未來(lái)不可能從根本上得到改變。網(wǎng)絡(luò)分化是指不同的社會(huì)群體能夠享受到的互聯(lián)網(wǎng)資源是不同的,在互聯(lián)網(wǎng)的使用中獲益程度之異同,是一種新形式的社會(huì)不平等。[10]

全球網(wǎng)絡(luò)指數(shù)(global web index,GWI)的報(bào)告顯示,截至2017年1月,作為世界第一大經(jīng)濟(jì)體、互聯(lián)網(wǎng)發(fā)源地的美國(guó),其互聯(lián)網(wǎng)用戶占整體人口的比例為86%。[11]但從全球范圍來(lái)看,其他國(guó)家和地區(qū)則遠(yuǎn)遠(yuǎn)達(dá)不到如此高的覆蓋率。全球人口約74.76億,而互聯(lián)網(wǎng)用戶為37.73億。[11]全球互聯(lián)網(wǎng)普及率剛剛過(guò)半。

從我國(guó)的情況看,由于經(jīng)濟(jì)發(fā)展不平衡,在互聯(lián)網(wǎng)的普及方面,存在顯著的地區(qū)差異、城鄉(xiāng)差異?!兜?1次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2017年12月,中國(guó)網(wǎng)民的規(guī)模達(dá)7.72億,互聯(lián)網(wǎng)普及率為55.8%,但非網(wǎng)民規(guī)模仍然高達(dá)6.11億。[12]在中國(guó)網(wǎng)民中,農(nóng)村網(wǎng)民占比27.0%,規(guī)模為2.09億。雖然近幾年農(nóng)村的互聯(lián)網(wǎng)的發(fā)展速度較快,其普及率上升至35.4%,但仍低于城鎮(zhèn)35.6個(gè)百分點(diǎn)。[12]

經(jīng)濟(jì)發(fā)展的不平衡不僅導(dǎo)致城鄉(xiāng)之間的差異,還造成了明顯的地域差異?;ヂ?lián)網(wǎng)普及率從東部沿海發(fā)達(dá)地區(qū)向中西部欠發(fā)達(dá)地域呈梯次遞減趨勢(shì)。這些差異造成了“數(shù)字鴻溝”的存在,而填平“鴻溝”并非朝夕之事。由于“數(shù)字鴻溝”的存在,使針對(duì)不同研究對(duì)象、不同研究問(wèn)題的社會(huì)科學(xué)研究在使用網(wǎng)絡(luò)大數(shù)據(jù)時(shí),會(huì)面臨不同程度的數(shù)據(jù)代表性問(wèn)題。例如,如果想要研究“知識(shí)北漂”關(guān)注什么,從社交媒體上獲取具有較好代表性的數(shù)據(jù)是完全可能的;而如果是研究貧困山區(qū)的留守老人和留守兒童的心理狀態(tài),那還是采用傳統(tǒng)的“田野調(diào)查”方法為宜。

除了網(wǎng)民與非網(wǎng)民之別,網(wǎng)民結(jié)構(gòu)與人口結(jié)構(gòu)的差異也存在數(shù)據(jù)代表性問(wèn)題。從我國(guó)的情況看,僅網(wǎng)民的性別結(jié)構(gòu)與實(shí)際人口性別比例基本相符,而年齡結(jié)構(gòu)、職業(yè)結(jié)構(gòu)等都存在不小的差距。在網(wǎng)民群體中,年齡在20~39歲的占53.5%;從職業(yè)來(lái)看,學(xué)生占到了25.4%。[12]這顯然與人口統(tǒng)計(jì)的特征不符,必然會(huì)導(dǎo)致網(wǎng)絡(luò)大數(shù)據(jù)的結(jié)構(gòu)性偏差,在社會(huì)科學(xué)研究中應(yīng)予以充分注意。例如,在互聯(lián)網(wǎng)輿情研究中,必須認(rèn)識(shí)到這一事實(shí),即從社交媒體所獲取的數(shù)據(jù)不能很好地代表50歲以上的人群。

四、用戶偏好:數(shù)據(jù)生成的不均衡

即便隨著社會(huì)的進(jìn)步,互聯(lián)網(wǎng)最終實(shí)現(xiàn)了全球范圍內(nèi)的高度普及,網(wǎng)絡(luò)大數(shù)據(jù)的代表性依然是社會(huì)科學(xué)研究中必須認(rèn)真考察的問(wèn)題,因?yàn)榛ヂ?lián)網(wǎng)用戶的異質(zhì)性,必然導(dǎo)致他們?cè)谑褂妙l率、需求程度、技能水平、信息素養(yǎng)等方面存在不同程度的差異;同時(shí),由于社會(huì)分工、知識(shí)結(jié)構(gòu)、興趣愛(ài)好等方面的不同,決定了互聯(lián)網(wǎng)用戶不同的使用偏好。

有學(xué)者對(duì)2000年美國(guó)綜合社會(huì)調(diào)查(GSS)的數(shù)據(jù)進(jìn)行分析后,發(fā)現(xiàn)在美國(guó)互聯(lián)網(wǎng)用戶中,受教育程度高、收入高、認(rèn)知測(cè)試成績(jī)優(yōu)異者更傾向于利用互聯(lián)網(wǎng)“累積資本”,而非單單為了娛樂(lè)。[13]對(duì)瑞士1997-2000年互聯(lián)網(wǎng)數(shù)據(jù)的研究也顯示,受教育程度高、收入高的用戶往往通過(guò)互聯(lián)網(wǎng)獲取有價(jià)值的信息,而社會(huì)經(jīng)濟(jì)地位較低者則更多地把互聯(lián)網(wǎng)用于娛樂(lè)。[14]在中國(guó)的互聯(lián)網(wǎng)應(yīng)用層面,城鄉(xiāng)網(wǎng)民在商務(wù)交易、支付、新聞資訊等使用率方面差異顯著。[12]

互聯(lián)網(wǎng)上有多種多樣的信息工具和平臺(tái),但任何工具、平臺(tái)都不可能囊括全部用戶,它們都有自己的目標(biāo)群體,這就意味著任何一種工具、平臺(tái)都是一個(gè)特定的數(shù)據(jù)子集。以在線社交平臺(tái)為例,據(jù)在線市場(chǎng)營(yíng)銷咨詢機(jī)構(gòu)智慧洞見(jiàn)(smartinsights.com)發(fā)布的《2017年全球社交媒體研究概要》顯示,截至2017年1月,臉書(shū)(facebook)已擁有18.71億活躍用戶,穩(wěn)居全球社交媒體排行榜第一,有79%的美國(guó)成年網(wǎng)民使用它;臉書(shū)旗下的瓦次普(whats app)、臉書(shū)即時(shí)通(facebook messenger)分列第二、第三。[11]18.71億活躍用戶已經(jīng)是一個(gè)相當(dāng)驚人的數(shù)字,但也只占到全球網(wǎng)民的一半左右,某些國(guó)家的用戶,例如中國(guó)用戶,還特別少。

至于風(fēng)靡我國(guó)的微信,社交用戶管理平臺(tái)奇智睿思(curiosity)根據(jù)騰訊所發(fā)布的數(shù)據(jù)制作的《2015微信用戶數(shù)據(jù)報(bào)告》顯示,截至2015年第一季度末,微信月活躍用戶達(dá)5.49億,范圍覆蓋200多個(gè)國(guó)家,使用語(yǔ)言超過(guò)20種[15];《2017微信用戶&生態(tài)研究報(bào)告》顯示,截至2016年12月,微信國(guó)內(nèi)版與國(guó)際版(wechat)共有月活躍用戶數(shù)8.89億。[16]其中,中國(guó)用戶占有相當(dāng)大的比例。

雖然臉書(shū)與微信的普及程度都很高,但二者能夠代表的用戶人群顯然不同。正如伊斯特·豪爾吉陶伊所言,“當(dāng)大數(shù)據(jù)分析指向某特定社交網(wǎng)站或者服務(wù)項(xiàng)目時(shí),該研究所能夠展現(xiàn)的僅僅是決定加入并已開(kāi)始使用相應(yīng)網(wǎng)站或者服務(wù)項(xiàng)目的群體的行為與觀點(diǎn)”,而“如果數(shù)據(jù)集中包含成千上萬(wàn)的用戶的信息,就認(rèn)定研究之結(jié)論可推而廣之,這可能是錯(cuò)誤的,這取決于方法體系而非數(shù)據(jù)體量”。[17]

有些用戶群體(如成長(zhǎng)于傳統(tǒng)媒體時(shí)代的中老年人),在網(wǎng)絡(luò)世界里的活躍度有限,他們往往是凱特·克勞福德所定義的“傾聽(tīng)者”[18],主要瀏覽頁(yè)面,不更新?tīng)顟B(tài)、不點(diǎn)贊、少與他人互動(dòng),存在感較弱。2011年,推特披露,約有40%的用戶登錄推特,目的只為傾聽(tīng)。[19]

即便是活躍的用戶,其關(guān)注點(diǎn)亦相當(dāng)分散,這包含兩層含義。其一,信息與某群體相關(guān)度越高,該群體的關(guān)注度就越高,在網(wǎng)絡(luò)中的反應(yīng)更為強(qiáng)烈。例如2016年的問(wèn)題疫苗事件,關(guān)注者最多的是年輕的母親。其二,興趣偏好不同的群體,關(guān)注的網(wǎng)站、平臺(tái)有所不同。德里克·魯茨與尤爾根·普費(fèi)弗的研究表明,照片墻(instagram)主要受18~29歲的成人、非洲裔美國(guó)人、拉美后裔、婦女、城鎮(zhèn)居民的青睞;而品趣(pinterest)則更受25~34歲、年收入平均10萬(wàn)美元的女性的歡迎。[20]全球網(wǎng)絡(luò)索引(global web index)2014年的數(shù)據(jù)顯示,閱后即焚(snapchat)最受年輕人的偏愛(ài),其用戶群體中16~24歲者占57%,微信與湯博樂(lè)(tumblr)的這一數(shù)據(jù)分別為42%、39%,而在臉書(shū)和推特的用戶群體中,16~24歲、25~34歲、35~44歲者的比例均在25%左右,45~54歲、55~64歲者的占比相對(duì)略低。[11]《2015微信用戶數(shù)據(jù)報(bào)告》表明,微信用戶以男性為主,男性與女性用戶的占比分別為64.3%、35.7%,男女比例為1.8∶1。[15]

因此,與傳統(tǒng)的抽樣調(diào)查不同,基于社交媒體大數(shù)據(jù)的研究面對(duì)的是自我選擇樣本,即用戶自我決定是否成為樣本,這種樣本在很多情況下存在系統(tǒng)性偏差。[9]除此之外,垃圾賬戶現(xiàn)象亦值得注意。有些人擁有多個(gè)賬戶;有的賬戶是所謂的“機(jī)器賬戶”,這些賬戶由代碼控制,可自動(dòng)發(fā)消息,常被用來(lái)發(fā)送廣告、交友等垃圾信息,其數(shù)據(jù)生成量一般很大,這些噪音也會(huì)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的代表性有所影響。

五、總結(jié)與展望

大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)為解決更多、更細(xì)的社會(huì)問(wèn)題提供了可能。然而,認(rèn)定大數(shù)據(jù)就是“總體數(shù)據(jù)”,認(rèn)為目前社會(huì)科學(xué)研究可以全面開(kāi)啟“全數(shù)據(jù)模式”時(shí)代的觀點(diǎn),尚缺乏嚴(yán)謹(jǐn)?shù)目茖W(xué)依據(jù)。一個(gè)明顯的事實(shí)是,經(jīng)濟(jì)社會(huì)發(fā)展的不平衡現(xiàn)象將相當(dāng)數(shù)量的人擋在了信息社會(huì)的大門之外,數(shù)字鴻溝的客觀存在使互聯(lián)網(wǎng)缺失了約半數(shù)人群的電子蹤跡;社會(huì)的結(jié)構(gòu)性不平等、用戶群體的異質(zhì)性、社會(huì)分工等因素導(dǎo)致數(shù)據(jù)生成方面的不均衡,等等,這些事實(shí)都還存在。因此,將網(wǎng)絡(luò)大數(shù)據(jù)用于社會(huì)科學(xué)研究,在很多情況下無(wú)法實(shí)現(xiàn)“樣本=總體”的目標(biāo),這是數(shù)據(jù)代表性問(wèn)題無(wú)法回避的事實(shí)。正如丹·博伊德和凱特·克勞福德所說(shuō):“拋開(kāi)特定數(shù)據(jù)集的代表性,只談其體量的大小毫無(wú)意義?!保?]

在大數(shù)據(jù)時(shí)代,社會(huì)科學(xué)傳統(tǒng)的抽樣調(diào)查方法并未終結(jié)。2017年4月24日,數(shù)據(jù)運(yùn)營(yíng)領(lǐng)域的翹楚——騰訊公司,其旗下的“企鵝智酷”公布了《2017微信用戶&生態(tài)研究報(bào)告》,亦專門針對(duì)用戶數(shù)據(jù)采樣進(jìn)行了說(shuō)明。《報(bào)告》稱,通過(guò)企鵝智酷網(wǎng)絡(luò)調(diào)研平臺(tái)采集到用戶調(diào)研樣本共19,511份,通過(guò)中國(guó)信息通信研究院采集到的用戶樣本為1,100份,采集到公眾號(hào)運(yùn)營(yíng)者樣本為9,018份。[16]甚至最具權(quán)威的中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,其歷次的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》仍然采用計(jì)算機(jī)輔助、電話訪問(wèn)的方法獲取抽樣數(shù)據(jù)。[12]這些情況說(shuō)明,依目前的信息采集條件,所獲取的資料信息仍然是有限的,只能代表某些領(lǐng)域或某些方面。

其實(shí),對(duì)于多數(shù)社會(huì)科學(xué)研究而言,網(wǎng)絡(luò)大數(shù)據(jù)并非完美的數(shù)據(jù)?!叭珨?shù)據(jù)模式”是相對(duì)于具體的研究任務(wù)而言的。例如,吉拉德·羅坦與艾爾哈特·格拉夫領(lǐng)銜的團(tuán)隊(duì)對(duì)2011年突尼斯與埃及革命期間激進(jìn)分子、博主、新聞?dòng)浾?、主流媒體及其他參與者在推特上的信息流進(jìn)行了研究。他們使用了兩個(gè)相應(yīng)的能夠覆蓋兩場(chǎng)革命時(shí)間段的推特?cái)?shù)據(jù)集,整理出常在推特上的發(fā)聲者并將其歸類,然后具體分析這些信息是如何產(chǎn)生并在推特用戶網(wǎng)絡(luò)中擴(kuò)散的。這是典型的對(duì)在特定時(shí)間段發(fā)生的特定事件中特定群體的網(wǎng)絡(luò)行為的研究,就此類研究而言,樣本具有很好的代表性。而就除此之外的多數(shù)情況而言,針對(duì)具體的研究任務(wù),所能使用的大數(shù)據(jù)往往存在系統(tǒng)性偏差,如果不能矯正這些偏差(至少這在當(dāng)前是極為困難的),那么,基于大數(shù)據(jù)的分析與預(yù)測(cè)就談不上多大的可靠性。[9]因此,研究者對(duì)此應(yīng)有清醒的認(rèn)識(shí),尤其在運(yùn)用某特定平臺(tái)的數(shù)據(jù)進(jìn)行推理時(shí),應(yīng)了解研究的適用范圍,避開(kāi)“代表性陷阱”的干擾。正如伊斯特·豪爾吉陶伊說(shuō):“大并不總意味著更好;當(dāng)涉及數(shù)據(jù)集的時(shí)候,體量并非那么重要,大數(shù)據(jù)并不對(duì)偏誤免疫;在研究過(guò)程中,無(wú)論數(shù)據(jù)的大小,要根據(jù)其取樣框架來(lái)審慎推導(dǎo)結(jié)論?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    格物優(yōu)信顯微熱像儀在科學(xué)研究中的應(yīng)用

    在工業(yè)檢測(cè)和科學(xué)研究中,對(duì)微觀世界的溫度分布和變化進(jìn)行精確測(cè)量一直是一項(xiàng)重大挑戰(zhàn)。近日,格物優(yōu)信推出的系列顯微熱像儀,以其卓越的性能——最高1280*1024紅外分辨率、125Hz高幀率,可加
    的頭像 發(fā)表于 09-24 11:33 ?393次閱讀

    標(biāo)貝科技參編《人工智能高質(zhì)量數(shù)據(jù)集建設(shè)指南》

    在人工智能邁入“數(shù)據(jù)驅(qū)動(dòng)”的關(guān)鍵發(fā)展階段,高質(zhì)量數(shù)據(jù)集已成為突破技術(shù)瓶頸、推動(dòng)產(chǎn)業(yè)落地的核心引擎。日前,中國(guó)信息通信研究院人工智能研究所聯(lián)合清華大學(xué)計(jì)算
    的頭像 發(fā)表于 09-11 17:19 ?576次閱讀

    NVIDIA AI助力科學(xué)研究領(lǐng)域持續(xù)突破

    隨著 AI 技術(shù)的廣泛應(yīng)用,AI 正在成為科學(xué)研究的引擎。NVIDIA 作為重要的技術(shù)推手,持續(xù)驅(qū)動(dòng)著 AI 系統(tǒng)解鎖更多領(lǐng)域的科學(xué)突破。
    的頭像 發(fā)表于 08-05 16:30 ?802次閱讀

    所以你做出來(lái)了嗎

    所以你做出來(lái)了嗎,求
    發(fā)表于 06-16 01:43

    時(shí)鐘系統(tǒng)推薦,時(shí)鐘系統(tǒng)哪家好?賽思時(shí)鐘系統(tǒng)助力中國(guó)氣象科學(xué)研究院構(gòu)建智慧氣象網(wǎng)絡(luò)

    時(shí)鐘系統(tǒng)推薦,時(shí)鐘系統(tǒng)哪家好?賽思時(shí)鐘系統(tǒng)助力中國(guó)氣象科學(xué)研究院構(gòu)建智慧氣象網(wǎng)絡(luò)
    的頭像 發(fā)表于 05-20 09:32 ?586次閱讀
    時(shí)鐘系統(tǒng)推薦,時(shí)鐘系統(tǒng)哪家好?賽思時(shí)鐘系統(tǒng)助力中國(guó)氣象<b class='flag-5'>科學(xué)研究</b>院構(gòu)建智慧氣象網(wǎng)絡(luò)

    普強(qiáng)信息入選2025人工智能感知層創(chuàng)新榜單

    近日,由中國(guó)科學(xué)院主管、科學(xué)出版社主辦的商業(yè)期刊《互聯(lián)網(wǎng)周刊》(CIW)聯(lián)合德本咨詢(DBC)、中國(guó)社會(huì)科學(xué)院信息化研究中心(CIS)評(píng)選的“2025人工智能感知層創(chuàng)新排行”榜單揭曉發(fā)
    的頭像 發(fā)表于 05-10 10:45 ?790次閱讀

    中軟國(guó)際助力北京理工大學(xué)珠海校區(qū)展開(kāi)科研創(chuàng)新

    近日,中軟國(guó)際助力北京理工大學(xué)(珠海)基于華為云昇騰AI云服務(wù)DeepSeek滿血版大模型展開(kāi)科研及教學(xué)創(chuàng)新。北京理工大學(xué)(珠海)經(jīng)濟(jì)監(jiān)督大模型團(tuán)隊(duì)將DeepSeek等前沿技術(shù)應(yīng)用至哲學(xué)社會(huì)科學(xué)研究中,為經(jīng)濟(jì)監(jiān)督更好地推動(dòng)國(guó)家治理現(xiàn)代化及其法律保障機(jī)制的優(yōu)化提供技術(shù)支撐。
    的頭像 發(fā)表于 03-10 18:13 ?976次閱讀

    張希院士探討AI在科學(xué)研究中的應(yīng)用與思考

    吉林大學(xué)校長(zhǎng)、中國(guó)科學(xué)院院士、期刊主編張希教授曾為中國(guó)化學(xué)會(huì)刊物CCS Chemistry 2024年第9期撰寫(xiě)了一篇關(guān)于人工智能(AI)在科學(xué)研究中應(yīng)用的社論,現(xiàn)節(jié)選相關(guān)部分,希望與青年教師和學(xué)生
    的頭像 發(fā)表于 02-14 11:17 ?959次閱讀
    張希院士探討AI在<b class='flag-5'>科學(xué)研究</b>中的應(yīng)用與思考

    AI時(shí)代數(shù)據(jù)新價(jià)值 ,第二屆“數(shù)據(jù)同學(xué)會(huì)”在杭成功召開(kāi)

    結(jié)合,在如今的經(jīng)濟(jì)大變局中持續(xù)創(chuàng)新,實(shí)現(xiàn)突破性增長(zhǎng)。 潤(rùn)米咨詢創(chuàng)始人劉潤(rùn),阿里云智能集團(tuán)副總裁、中國(guó)信息化百人會(huì)執(zhí)委安筱鵬,復(fù)旦大學(xué)管理學(xué)院教授黃麗華,羅漢堂秘書(shū)長(zhǎng)、為溪?jiǎng)?chuàng)始人陳龍,智譜COO張帆,清華大學(xué)計(jì)算社會(huì)科學(xué)實(shí)驗(yàn)室數(shù)據(jù)科學(xué)
    的頭像 發(fā)表于 01-13 13:37 ?442次閱讀
    AI<b class='flag-5'>時(shí)代</b>的<b class='flag-5'>數(shù)據(jù)</b>新價(jià)值 ,第二屆“<b class='flag-5'>數(shù)據(jù)</b>同學(xué)會(huì)”在杭成功召開(kāi)

    德力西電氣到訪上海電器科學(xué)研究所座談交流

    近日,德力西電氣總裁樓峰攜核心管理團(tuán)隊(duì),到訪上海電器科學(xué)研究所(集團(tuán))有限公司座談交流。
    的頭像 發(fā)表于 01-08 16:19 ?1462次閱讀

    CICC公共安全數(shù)據(jù)工程專業(yè)委員會(huì)一行蒞臨芯盾時(shí)代調(diào)研交流

    近日,中國(guó)指揮與控制學(xué)會(huì)(CICC)公共安全數(shù)據(jù)工程專業(yè)委員會(huì)(以下簡(jiǎn)稱專委會(huì))一行蒞臨芯盾時(shí)代調(diào)研交流。芯盾時(shí)代創(chuàng)始人、董事長(zhǎng)郭曉鵬作為專委會(huì)常務(wù)委員熱情接待,并就零信任在公共安全數(shù)據(jù)
    的頭像 發(fā)表于 01-08 13:54 ?911次閱讀

    芯盾時(shí)代榮登2024信創(chuàng)獨(dú)角獸TOP100榜單

    近日,由德本咨詢(DBC)、中國(guó)社會(huì)科學(xué)院信息化研究中心(CIS)、中國(guó)科學(xué)院《互聯(lián)網(wǎng)周刊》(CIW)聯(lián)合推出的“2024信創(chuàng)獨(dú)角獸TOP100”榜單正式發(fā)布。芯盾時(shí)代作為領(lǐng)先的零信任
    的頭像 發(fā)表于 12-20 17:11 ?1382次閱讀

    數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系

    在當(dāng)今這個(gè)信息爆炸的時(shí)代數(shù)據(jù)無(wú)處不在。無(wú)論是企業(yè)運(yùn)營(yíng)、科學(xué)研究還是個(gè)人決策,我們都需要從海量的數(shù)據(jù)中提取有價(jià)值的信息。數(shù)據(jù)分析和
    的頭像 發(fā)表于 12-06 17:09 ?1255次閱讀

    raid 在大數(shù)據(jù)分析中的應(yīng)用

    的具體應(yīng)用: 一、提高性能 并行讀寫(xiě) :RAID技術(shù)通過(guò)并行讀寫(xiě)多個(gè)磁盤(pán),可以顯著提高數(shù)據(jù)的讀寫(xiě)速度。在大數(shù)據(jù)分析環(huán)境中,數(shù)據(jù)讀寫(xiě)速度是影響分析效率的關(guān)鍵因素之一。RAID 0(條帶化)模式
    的頭像 發(fā)表于 11-12 09:44 ?944次閱讀

    物聯(lián)網(wǎng)和大數(shù)據(jù)的關(guān)系

    在數(shù)字化時(shí)代,數(shù)據(jù)已成為一種新的資源,它不僅驅(qū)動(dòng)著經(jīng)濟(jì)的發(fā)展,也在改變著我們的生活方式。物聯(lián)網(wǎng)(IoT)和大數(shù)據(jù)(Big Data)作為兩個(gè)關(guān)鍵的技術(shù)趨勢(shì),它們之間的關(guān)系日益緊密,共同推動(dòng)著
    的頭像 發(fā)表于 10-29 10:20 ?2298次閱讀