国产97免费视频在线播放,一个人在线观看女视频免费国,丝袜无码国产专区

什么是科學假設(shè)？什么是統(tǒng)計假設(shè)？什么又是機器學習假設(shè)呢？

雖然同為假說，這三個東西其實還真不太一樣！

今天，就帶你來區(qū)分一下“假設(shè)”三兄弟。

了解完它們的區(qū)別后，你會對假設(shè)一詞在不同領(lǐng)域會有更深刻的認識，對于更好的使用假設(shè)會有更深入的理解。同時，對于機器學習的入門者來說，這樣一篇文章對于個人今后在該領(lǐng)域的發(fā)展就是如虎添翼。

通常，我們所理解的監(jiān)督性機器學習，是一個類似于研究從輸入映射到輸出的目標函數(shù)問題。

這個過程可以被分為如何選取假設(shè)空間，以及評估候選的假設(shè)空間。

作為一個機器學習領(lǐng)域的初學者來說，假設(shè)這個詞的概念可能讓他們會產(chǎn)生困惑，有時會產(chǎn)生歧義，比如在統(tǒng)計領(lǐng)域我們會有假設(shè)檢驗，而在科學領(lǐng)域我們又會有科學假說。

這些定義互有關(guān)聯(lián)，卻不盡相同。

所以什么是假設(shè)呢？

假設(shè)是一種對事物的解釋。

它是一種憑借經(jīng)驗和知識所提出的猜測性想法，需要一定的評估依據(jù)。

一個好的假設(shè)是可驗證的，驗證結(jié)果有可能是對的，也可能是錯的。

在科學界，假說一定是可以被證偽的，即通過觀察檢驗結(jié)果，可以證實這個假說是錯誤的。同時，在驗證結(jié)果出來之前，假說的框架結(jié)構(gòu)一定要確定好。

...任何一個或一系列假說想要成為科學定理或者科學理論，一定要滿足這樣一個基本條件—那就是，它是可以被證偽的。

選自《What is This Thing Called Science?》1999年，第三版，第61-62頁

一個好的假說既能滿足現(xiàn)有證據(jù)，又可以用來預測新的觀察或新的情況。

一個假說如果說完全滿足現(xiàn)有證據(jù)，同時可以被驗證，那么它將會成為理論或者成為理論的一部分。

小結(jié)一下，科學假說是指符合證據(jù)、同時可以被證實或者被反駁的猜測性解釋。

統(tǒng)計學中的假設(shè)又該如何定義呢？

大多統(tǒng)計問題是研究觀測樣本之間潛在關(guān)系。

統(tǒng)計學上的假設(shè)檢驗通常是計算產(chǎn)生“影響”的臨界值，通過計算臨界值可以來判定觀測樣本之間是否存在某種關(guān)系。

如果似然值很小，這種影響結(jié)果就可能會是真實的，如果似然值很大，那我們可能觀測到了統(tǒng)計波動，這種影響可能并不真實。

舉例來說，通過推斷兩組樣本之間均值所存在的關(guān)系，可以判斷它們是否具有相同的統(tǒng)計分布，或者它們之間又有哪些差異。

舉個例子，我們可以假設(shè)兩組樣本的均值相同。

這種假設(shè)對我們來說沒什么影響，也叫作零假設(shè)。通過假設(shè)檢驗，我們可以得到拒絕該假設(shè)或者保留該假設(shè)。即便我們不能拒絕零假設(shè)，也不等于我們接受零假設(shè)是對的，因為結(jié)果只是一個概率。

..在社會科學研究中，我們通過建立假設(shè)、制定標準來衡量是否保留或拒絕我們的假設(shè)，通常都是零假設(shè)。

《Statistics in plain English》2010年第三版，64-65頁

在我們的例子中，如果零假設(shè)被否定，其相對立的備擇假設(shè)就認為均值之間存在差異。

零假設(shè)（H0）：沒有影響

備擇假設(shè)（H1）：存在影響

統(tǒng)計學中的假設(shè)檢驗通常不會評判影響的大小，只會近似估計被觀測樣本之間是否存在差異。

小結(jié)一下，統(tǒng)計學中的假設(shè)指的是用概率來解釋樣本觀測值之間是否存在關(guān)系。

最后，什么是機器學習中的假設(shè)呢？

機器學習，尤其是監(jiān)督性學習，是用已有數(shù)據(jù)學習得到一個最佳的函數(shù)來表示輸入到輸出之間的映射關(guān)系。

說的專業(yè)些，這個叫做函數(shù)逼近。就是說我們想找到一個接近于我們目標函數(shù)（我們假設(shè)它存在）的方程，可以滿足在問題定義域里所有觀測結(jié)果都可以從輸入映射到輸出結(jié)果。

在機器學習中，一個近似目標函數(shù)并且將輸入映射到輸出的模型被稱為假設(shè)。

算法選?。ū热?a href="http://www.brongaenegriffin.com/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)）和算法配置（如網(wǎng)絡(luò)拓撲和超參數(shù)）決定了模型可能表示的假設(shè)空間。

機器學習算法的學習是尋找最接近目標函數(shù)的假設(shè)，即將已選取的假設(shè)空間轉(zhuǎn)化成最佳或最優(yōu)的假設(shè)。

“學習”是在可能的假設(shè)空間中尋找一個表現(xiàn)良優(yōu)的假設(shè)空間，即使在訓練集之外新樣本上也能適用。

選自《Artificial Intelligence: A Modern Approach》2009年第二版，第695頁。

這種機器學習的框架很常見，通?？梢詭椭覀冞x取算法、理解學習和泛化問題，甚至是“偏差-方差”的權(quán)衡。舉例來說，訓練集通常是學習假設(shè)，而測試數(shù)據(jù)集是用來評估假設(shè)。

我們通常會用小寫（h）來表示給予的特定假設(shè)，用大寫（H）來表示被探索的假設(shè)空間。

假設(shè)（h）：單一假設(shè)，如一個實例或特定的候選模型，可以將輸入映射到輸出，同時也可以對模型進行評估和預測。

假設(shè)集（H）：一個包括所有可能的輸入映射到輸出之間關(guān)系的假設(shè)空間，通常受選取的問題框架、模型和模型調(diào)參所限制。

在選擇算法和配置過程中，我們需要選取一個對目標函數(shù)來說是最好的逼近函數(shù)作為假設(shè)空間。這是非常具有挑戰(zhàn)的，通常對于一系列不同的假設(shè)空間進行抽查會更為有效。

如果假設(shè)空間包含真函數(shù)，則學習問題是可實現(xiàn)的。不幸的是，我們不能總是判斷一個給定的學習問題是否可以實現(xiàn)，因為真正的函數(shù)是未知的。

選自《Artificial Intelligence: A Modern Approach》2009年第二版，697頁。

這是一個困難的問題。通常，我們通過限制假設(shè)空間的大小和評估假設(shè)的復雜性來簡化搜索過程。

假設(shè)空間的表達性和假設(shè)搜索的復雜性之間存在一種權(quán)衡關(guān)系。

選自《Artificial Intelligence: A Modern Approach》2009年第二版，697頁。

小結(jié)一下，機器學習中的假設(shè)是一個近似目標函數(shù)的候選模型，用于表示輸入樣本到輸出樣本之間的映射關(guān)系。

總結(jié)

讓我們重新梳理一遍對假設(shè)的三個定義：

科學假說是一種對于觀察現(xiàn)象的猜測性解釋，并且是可以被證偽的。

統(tǒng)計中的假設(shè)是用概率的方式來解釋數(shù)據(jù)樣本之間的關(guān)系。

機器學習中的假設(shè)是一個近似目標函數(shù)的候選模型，用于表示輸入樣本到輸出樣本之間的映射關(guān)系。

機器學習的假設(shè)定義要比科學中的定義更加廣泛。

和科學假說一樣，機器學習也是基于現(xiàn)有證據(jù)，可以被證偽，并對新情況進行預測。

在機器學習中的假設(shè)：

涵蓋現(xiàn)有證據(jù)：即訓練數(shù)據(jù)集

可以被證偽：有一個測試集來評估模型表現(xiàn)，并且與基礎(chǔ)模型作對比，確定訓練過程是否有效。

適用于新的情況：可被用來對新數(shù)據(jù)集進行預測。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107874
函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4417

瀏覽量
67568
機器學習

機器學習

+關(guān)注

關(guān)注
66

文章
8555

瀏覽量
136999