對(duì)于數(shù)據(jù)科學(xué)家而言,了解統(tǒng)計(jì)現(xiàn)象和問“為什么”是非常重要的。
想象這樣一個(gè)場景:一天,你和朋友約好了一起吃晚飯,你們倆都想找一家完美的餐廳。由于選項(xiàng)太多,兩人今天的口味也不一定一樣,為了避免長達(dá)數(shù)小時(shí)的爭論,你們保守地采用了現(xiàn)代人常用的一種方法:查看美食評(píng)論。
在用同一個(gè)APP看了所有餐廳后,最終你們鎖定了其中的兩家:Carlo's餐廳和Sophia餐廳。你更喜歡Carlo's,因?yàn)閺膬尚詳?shù)據(jù)上看來,無論是男性用餐者還是女性用餐者,他們給出的好評(píng)率都更高(例:男性好評(píng)率=男性好評(píng)數(shù)/男性評(píng)論總數(shù));而你的朋友更傾向于Sophia,因?yàn)樗l(fā)現(xiàn)從整體上來看,Sophia的好評(píng)率更高,口味應(yīng)該更大眾。
那么這到底是怎么回事?是APP統(tǒng)計(jì)錯(cuò)誤了嗎?事實(shí)上,這兩個(gè)統(tǒng)計(jì)結(jié)論都是正確的,只是你們在不知不覺中已經(jīng)走進(jìn)了辛普森悖論。在這里,我們能用完全相同的一組數(shù)據(jù)證明兩個(gè)全然相反的論點(diǎn)。
什么是辛普森悖論?
辛普森悖論得名于英國統(tǒng)計(jì)學(xué)家E.H.辛普森(E.H.Simpson),這是他于1951年闡述的一種現(xiàn)象:當(dāng)我們以分組和聚合兩種方式統(tǒng)計(jì)同一數(shù)據(jù)集時(shí),最后得出的兩個(gè)趨勢可能是完全逆轉(zhuǎn)的。在上面這個(gè)“吃飯”案例中,Carlo's餐廳的兩性推薦率更高,但它的總體推薦率卻低了。如果不想被繞暈,我們可以用一些直觀的數(shù)據(jù)來說明:
上表清楚地表明,當(dāng)數(shù)據(jù)分組時(shí),Carlo's是首選,但是當(dāng)數(shù)據(jù)合并時(shí),Sophia是首選!
導(dǎo)致這一悖論的原因是樣本大小。當(dāng)我們分組統(tǒng)計(jì)數(shù)據(jù)時(shí),Carlo's餐廳的女性推薦率高達(dá)90%,但它的樣本只有40個(gè),只占總評(píng)論人數(shù)的10%;而Sophia餐廳的女性推薦率雖然只有80%,但女性評(píng)論者有250個(gè),這顯然會(huì)大幅拉高餐廳的總體好評(píng)率。
所以在挑選餐廳時(shí),我們事先要確定數(shù)據(jù)的統(tǒng)計(jì)方法,是合并更合理,還是分組更合理——這取決于數(shù)據(jù)生成的過程,即數(shù)據(jù)的因果模型。
相關(guān)性的逆轉(zhuǎn)
在我們的生活中,另一種常見的辛普森悖論是分組、聚合討論數(shù)據(jù)后,元素之間的相關(guān)性也出現(xiàn)了逆轉(zhuǎn)。舉一個(gè)簡單的例子,假設(shè)我們有50歲以上和50歲以下兩組患者,在收集了他們的每周運(yùn)動(dòng)小時(shí)數(shù)和病發(fā)風(fēng)險(xiǎn)后,我們得到了下面兩幅有關(guān)運(yùn)動(dòng)和病情惡化幾率關(guān)系的圖表:
左:50歲以下;右:50歲以上(橫坐標(biāo)為運(yùn)動(dòng)小時(shí)數(shù),縱坐標(biāo)為惡化風(fēng)險(xiǎn))
上圖很清楚地表明兩者是負(fù)相關(guān)的,每周運(yùn)動(dòng)得越久,患者病情惡化的可能性就更低。但是,如果我們把兩組數(shù)據(jù)結(jié)合在一起:
全年齡段患者的運(yùn)動(dòng)小時(shí)數(shù)和病情惡化幾率關(guān)系圖
運(yùn)動(dòng)和病情惡化的相關(guān)性就完全逆轉(zhuǎn)了!如果只呈現(xiàn)這一幅圖,最后我們得出的結(jié)論會(huì)是運(yùn)動(dòng)增加惡化幾率。同一組數(shù)據(jù),截然不同的結(jié)論,同樣的,這個(gè)例子的問題也在于數(shù)據(jù)生成過程——我們沒能收集完整的成因數(shù)據(jù),自然也解釋不了最終結(jié)果。
解決悖論
為了避免辛普森的悖論導(dǎo)致我們得出兩個(gè)相反的結(jié)論,最直接的方法是決定分組還是聚合。這看起來很簡單,但做起來并不容易。要做對(duì)選擇題,首先我們要考慮因果關(guān)系:數(shù)據(jù)是怎么產(chǎn)生的?影響結(jié)果的因素有哪些?其中有哪些是我們沒有呈現(xiàn)的?
以運(yùn)動(dòng)和病情惡化的分析為例,很明顯,運(yùn)動(dòng)肯定不是影響病情加重的唯一因素,飲食、環(huán)境、遺傳……它的影響因素非常復(fù)雜。但在上圖中,我們只看到了惡化幾率和運(yùn)動(dòng)時(shí)長之間的關(guān)系,在沒有控制變量的情況下,這相當(dāng)于假設(shè)惡化只是由運(yùn)動(dòng)引起的,顯然不合理。
例如,如果我們考慮了原數(shù)據(jù)中被忽略的那個(gè)因素:年齡。
通過下圖我們可以發(fā)現(xiàn),無論是50歲以下還是50歲以上,患者的年齡和病情惡化幾率都顯示出強(qiáng)烈正相關(guān)。這意味著隨著患者年齡增加,即便每周運(yùn)動(dòng)量相同,老年患者也比年輕患者更容易病情惡化。
患者年齡和病情惡化幾率關(guān)系圖
在這種情況下,分組討論數(shù)據(jù)是規(guī)避辛普森悖論的一種方式。這和做科學(xué)實(shí)驗(yàn)一樣,但凡數(shù)據(jù)間涉及因果關(guān)系,我們都應(yīng)該在分析之前控制好變量,確保數(shù)據(jù)的合理分層。
而在選餐廳那個(gè)例子中,解決悖論的方法是重新審視自己想要解決的問題——既然目標(biāo)是選擇完美的餐廳,力求口味大眾化,避免踩雷,那分性別統(tǒng)計(jì)就意義不大了。在那種情況下,聚合數(shù)據(jù)最有意義。
現(xiàn)實(shí)生活中的辛普森悖論
看到這里,也許有的讀者會(huì)覺得這個(gè)悖論太簡單了,它應(yīng)該就只是統(tǒng)計(jì)學(xué)里的一個(gè)概念,不可能有人會(huì)犯這種錯(cuò)。但事實(shí)上,在現(xiàn)實(shí)世界中,我們確實(shí)也有許多著名的辛普森悖論研究案例。
一個(gè)比較典型的例子是兩種腎結(jié)石治療方案的取舍。根據(jù)臨床實(shí)驗(yàn)數(shù)據(jù),醫(yī)生發(fā)現(xiàn)在治療小結(jié)石和大結(jié)石時(shí),方案A都有更好的效果;但是如果綜合兩種腎結(jié)石來看,方案B的治愈率更高。下面是具體數(shù)據(jù):
如果是你,你會(huì)選哪種治療方案?這個(gè)問題要結(jié)合醫(yī)療領(lǐng)域的數(shù)據(jù)生成過程——因果模型。在實(shí)際操作中,就病情嚴(yán)重情況而言,大結(jié)石肯定比小結(jié)石嚴(yán)重得多,而方案A比方案B更具侵入性(醫(yī)學(xué)上帶有一定創(chuàng)傷性的治療措施)。因此,如果患者的腎結(jié)石很小,醫(yī)生一般會(huì)保守起見,采用方案B;而如果患者的腎結(jié)石很大,醫(yī)生就會(huì)直接用效果最好的方案A。
由于方案A更適用于嚴(yán)重病例,它的總體治愈率肯定會(huì)低于方案B。
我們把這個(gè)例子中的“病情嚴(yán)重性”稱為混淆變量,因?yàn)樗妥宰兞浚ㄖ委煼桨福?、因變量(治愈)均相關(guān)。我們是沒法從數(shù)據(jù)中直接看到這個(gè)變量的,但如果繪制了因果關(guān)系圖,一切就很明確了:
因果關(guān)系圖和混淆變量
如上圖所示,兩種方案的治愈率都受所選擇的治療方案和結(jié)石大小影響,而選擇治療方案本身也受結(jié)石大小影響。這意味著如果要做全面定量實(shí)驗(yàn),我們必須控制結(jié)石大小,比較兩種方案的治愈率情況。根據(jù)實(shí)驗(yàn)結(jié)果,方案A的效果更好。
如果不做實(shí)驗(yàn),我們換一種思路也能解答這個(gè)問題。如果患者的結(jié)石較小,治愈率更高的方案A更好;如果患者的結(jié)石較大,還是方案A更好。由于患者肯定會(huì)有或大或小的結(jié)石,綜合來看,選擇方案A肯定是效果最好的。
有時(shí)候,查看聚合數(shù)據(jù)很有用,但在一些情況下,它也可能模糊事件的真相。
另一個(gè)現(xiàn)實(shí)案例
第二個(gè)現(xiàn)實(shí)案例是政治觀點(diǎn)上的辛普森悖論。下表是杰拉爾德·福特?fù)?dān)任美國總統(tǒng)期間的稅收、稅率變化,可以發(fā)現(xiàn),從1974年到1978年,每個(gè)收入群體的稅率都不同程度下降了,但社會(huì)整體稅率卻提高了。
所有個(gè)人稅率均下降,但整體稅率上升
根據(jù)前面的介紹,讀到這里,相信大家應(yīng)該已經(jīng)學(xué)會(huì)了該如何解釋這個(gè)悖論:尋找影響整體稅率的其他因素。社會(huì)整體稅率是兩個(gè)因子的函數(shù),它和各收入群體的稅率有關(guān),也和各收入群體的總收入金額相關(guān)。1978年,美國由于通貨膨脹導(dǎo)致居民工資出現(xiàn)顯著增長,國民整體收入提高,再加上高收入群體稅率降低少,全國的整體稅率實(shí)際上是提高了。
除了數(shù)據(jù)生成過程之外,是否匯總數(shù)據(jù)還應(yīng)取決于我們想要回答的問題。仍以稅收的例子為例,在個(gè)人層面上,我們只是個(gè)人,所以只關(guān)心自己的稅率。但為了確定自己是不是多交稅了,除了觀察稅率變化,我們還應(yīng)該留意工資的增長情況。影響稅率的重要因素有兩個(gè),而表格只提供了其中一個(gè),由此得出的統(tǒng)計(jì)結(jié)果是不準(zhǔn)確的。
辛普森悖論的重要性
辛普森悖論非常重要,因?yàn)樗鼤r(shí)刻在提醒我們,表格中顯示的數(shù)據(jù)可能并不是所有數(shù)據(jù)。我們不能只滿足于數(shù)字、數(shù)據(jù),而必須關(guān)注數(shù)據(jù)的生成過程 ——因果模型——對(duì)數(shù)據(jù)負(fù)責(zé)。在大學(xué)里,對(duì)因果關(guān)系的思考并不是大多數(shù)數(shù)據(jù)科學(xué)家會(huì)在課上學(xué)到的技能,但是這能有效防止我們從數(shù)字中得出錯(cuò)誤結(jié)論。一個(gè)真正好的數(shù)據(jù)科學(xué)家不僅是數(shù)據(jù)分析上的專家,他也能結(jié)合專業(yè)領(lǐng)域的知識(shí),做出更好的決策。
數(shù)據(jù)是一種強(qiáng)大的武器,它可以是幫助我們了解世界的工具,也可以成為他人愚弄我們的幫兇。我們必須始終保持對(duì)數(shù)據(jù)的懷疑態(tài)度,理性思考,并多問“為什么”。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7292瀏覽量
93386 -
APP
+關(guān)注
關(guān)注
33文章
1588瀏覽量
75305
原文標(biāo)題:辛普森的悖論:如何用相同的數(shù)據(jù)證明相反的論點(diǎn)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄

評(píng)論