編者按:中心極限定理是概率論中的一組重要定理,它的中心思想是無論是什么分布的數(shù)據(jù),當我們從中抽取相互獨立的隨機樣本,且采集的樣本足夠多時,樣本均值的分布將收斂于正態(tài)分布。為了幫助更多學生理解這個概念,今天,UW iSchool的教師Mike Freeman制作了一些直觀的可視化圖像,讓不少統(tǒng)計學教授大呼要把它們用在課堂上。
本文旨在盡可能直觀地解釋統(tǒng)計學基礎理論之一——中心極限定理的核心概念。通過下文中的一系列動圖,讀者應該能真正理解這個定理,并從中汲取應用靈感,把它用于決策樹等其他項目。
需要注意的是,這里我們不會介紹具體推理過程,所以它不涉及定理解釋。
教科書上的中心極限定理
在看可視化前,我們先來回顧一下統(tǒng)計學課程對中心極限定理的描述。
來源:LthID
n>30一般為大樣本的分界線 來源:LthID
來源:LthID
一個簡單的例子
為了降低這個定理的理解門檻,首先我們來舉個簡單的例子。假設有一個包含100人的團體,他們在某些問題上的意見分布在0-100之間。如果以可視化的方式把他們的意見分數(shù)表示在水平軸上,我們可以得到下面這幅圖:深色豎線表示所有人意見分數(shù)的平均值。
假如你是一名社會科學家,你想知道這個團體的立場特點,并用一些信息,比如上面的“平均意見得分”來描述他們。但可惜的是,由于時間、資金有限,你沒法一一詢問。這時候,你就可能需要對這100人進行抽樣。比方說,在有限的時間、資金條件內,你可以從中隨機抽取10個人作為自己的采訪對象(n=10),向他們詢問有關特定問題的具體想法:
隨機抽取10個樣本
如你所見,這些樣本的均值可能會和整個團體的總體均值有很大差異。那么,怎么采樣才能更可靠呢?
考慮多個樣本
假設我們可以從團體中采集多個樣本。雖然這種做法在現(xiàn)實中是客觀存在的(尤其是在政治民意調查中),但在這里,我們會更多地將其作為一種解釋工具(當你進行重復采樣時,實際上會有一些意料之外的因素出現(xiàn))。對于每個樣本,我們在每次采樣時都跟蹤樣本均值與整體平均值的差。
多次重復該過程,我們就能獲得樣本均值的分布,它通常被稱為樣本均值分布,或者(更簡單的)抽樣分布。下面是對100人的團體進行多次抽樣后(每次10人),樣本均值的變化情況:
第一次采樣,樣本均值和總體均值有明顯偏差
多次采樣后,樣本均值和總體均值的偏差變小了
可以發(fā)現(xiàn),隨著抽樣次數(shù)逐漸增多,總體均值和樣本均值之間的差距正在不斷縮小。這是可以理解的,因為整個過程就相當于從100人中抽取更多樣本。但之前我們也說了,資金、時間是有限的,這沒有解決資源受限的問題,也無法反映人整個團體在特定問題上的立場。
為了了解每次計算樣本均值的效果,我們得先看看抽樣分布的分布情況。
理解分布
鑒于上述可視化圖像在分布上不夠直觀,所以在這里,我們把原先表示每個意見的圓圈變成方塊,以直方圖的形式展現(xiàn)總體分布的情況:
顯然,我們的數(shù)據(jù)分布并不正常。雖然上圖中有些部分的曲線是符合正態(tài)分布的,但大多數(shù)是不符合的,這段曲線沒法幫助我們理解這100個人的習性。相反地,我們可以從樣本均值的分布情況著手,看看抽樣分布的變化情況:
隨著采樣次數(shù)上升,抽樣分布正在發(fā)生變化
進一步增加采樣次數(shù),抽樣分布的形狀逐漸趨于穩(wěn)定
隨著采樣數(shù)量的增加,采樣分布在可視化中形成了一條鐘形曲線,符合正態(tài)分布。如上所述,隨著重復采樣次數(shù)的增加,樣本均值(抽樣分布的平均值)會變得越來越準確。
為什么重要
當采樣的數(shù)量接近無窮大時,我們的抽樣分布就會近似于正態(tài)分布。這個統(tǒng)計學基礎理論意味著我們能根據(jù)個體樣本推斷所有樣本。結合正態(tài)分布的其他知識,我們可以輕松計算出給定平均值的值的概率。同樣的,我們也可以根據(jù)觀察到的樣本均值估計總體均值的概率。
維基百科對于“中心極限定理”的定義:中心極限定理是概率論中的一組定理。中心極限定理說明,在適當?shù)臈l件下,大量相互獨立隨機變量的均值經(jīng)適當標準化后依分布收斂于正態(tài)分布。
在留言中,美國田納西州范德堡大學的醫(yī)學院生物統(tǒng)計學教授Frank Harrell留下了自己的風趣評論:“但是在所有定理中,中心極限定理是最后一個我想教給學生的東西。我想他們得先學好第一堂課,它包括一些設計、數(shù)據(jù)的意義、數(shù)據(jù)的穩(wěn)健性、bootstrap、一些貝葉斯、高精度數(shù)據(jù)圖等等?!?/p>
讀完他的話,是不是覺得即便了解了這個定理,自己要學的東西還是很多呢?
-
圖像
+關注
關注
2文章
1094瀏覽量
42009 -
可視化
+關注
關注
1文章
1285瀏覽量
22418
原文標題:什么是中心極限定理?這里有一份可視化解釋
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
MPEG基礎理論和協(xié)議分析
一種基于統(tǒng)計學和模糊控制理論的權控智能節(jié)水系統(tǒng)設計
量子力學基礎理論之一 一維量子系統(tǒng)的應用
人工智能其實就是華麗的統(tǒng)計學?
機器學習教程之機器學習的核心算法和理論電子教材免費下載
數(shù)據(jù)分析師應當了解的五個統(tǒng)計基本概念

評論