chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

統(tǒng)計學和機器學習的真正差別。你分得清嗎?

DPVg_AI_era ? 來源:lp ? 2019-04-08 08:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

統(tǒng)計學和機器學習的真正差別。統(tǒng)計學和機器學習在很多情況下是被混淆的,大部分人其實并不能很好的區(qū)分二者。介于此,本文詳解的講解了二者實際的差異,非常有指導意義。

很多人并不能很好的區(qū)分統(tǒng)計學和機器學習,因為之間確實有太多的相同之處。目前流行的一種說法是,機器學習和統(tǒng)計學之間的主要區(qū)別在于它們的目的:機器學習模型旨在使最準確的預測成為可能;統(tǒng)計模型被設計用于推斷變量之間的關系。

這種說法在技術上來說沒有問題,但它沒有給出特別明確或令人滿意的答案。說機器學習是關于準確的預測,而統(tǒng)計模型設計用于推理幾乎是無意義的陳述,除非你精通這些概念。

因為統(tǒng)計數(shù)據(jù)和統(tǒng)計模型是不一樣的。統(tǒng)計學是數(shù)據(jù)的數(shù)學研究,沒有數(shù)據(jù)就無法進行統(tǒng)計;統(tǒng)計模型是數(shù)據(jù)的模型,用于推斷數(shù)據(jù)中的關系或創(chuàng)建能夠預測未來值的模型。通常,這兩者是相輔相成的。

實際上,我們需要討論兩件事:首先,統(tǒng)計數(shù)據(jù)與機器學習有何不同?其次,統(tǒng)計模型與機器學習有何不同。所以今天,我們就來詳細解讀一下二者的區(qū)別。

統(tǒng)計學模型與機器學習在線性回歸上的差異

可能因為統(tǒng)計建模和機器學習中使用的方法的相似性,使人們認為它們是同一個東西??梢岳斫猓静皇沁@樣。

最明顯的例子是線性回歸,這可能是造成這種誤解的主要原因。線性回歸是一種統(tǒng)計方法,我們訓練線性回歸量并獲得與統(tǒng)計回歸模型相同的結(jié)果,旨在最小化數(shù)據(jù)點之間的平方誤差。

在一個案例中,我們做了“訓練”模型的事情,其中涉及使用數(shù)據(jù)的一個子集。我們不知道模型將如何執(zhí)行,直到在訓練期間能夠“測試”出此數(shù)據(jù)不存在的、被稱為測試集的其他數(shù)據(jù)。在這種情況下,機器學習的目的是在測試集上獲得最佳性能。

對于統(tǒng)計模型,我們只要找出可以最小化所有數(shù)據(jù)的均方誤差(假設數(shù)據(jù)是一個線性回歸量,加上一些隨機噪聲,本質(zhì)上通常是高斯噪聲),無需訓練,也無需測試。

一般來說,特別是在研究中(例如下面的傳感器示例),模型的要點是表征數(shù)據(jù)與結(jié)果變量之間的關系,而不是對未來數(shù)據(jù)進行預測。我們將此過程稱為統(tǒng)計推斷,而不是預測。但我們?nèi)匀豢梢允褂么四P瓦M行預測,但評估模型的方式不涉及測試集,而是涉及評估模型參數(shù)的重要性和穩(wěn)健性。

(受監(jiān)督的)機器學習的目的是獲得可以進行可重復預測的模型。我們通常不關心模型是否可解釋,機器學習只看重結(jié)果。而統(tǒng)計建模更多的是發(fā)現(xiàn)變量之間的關系和這些關系的重要性,同時也適合預測。

舉例說明這兩個程序之間差異。一名環(huán)境科學家主要研究傳感器數(shù)據(jù)。如果試圖證明傳感器能夠響應某種刺激(例如氣體濃度),就會使用統(tǒng)計模型來確定信號響應是否具有統(tǒng)計顯著性。

他會嘗試理解這種關系并測試其可重復性,以便能夠準確地表征傳感器響應并根據(jù)這些數(shù)據(jù)做出推斷。可能測試的一些事情包括實際上,響應是否是線性的?響應是否可以歸因于氣體濃度而不是傳感器中的隨機噪聲?等等。

而同時,我們還可以獲得20個不同傳感器的陣列,可以用來嘗試預測新近表征的傳感器的響應。我們不認為一個預測傳感器結(jié)果的20個不同變量的模型具備多少可解釋性。由于化學動力學和物理變量與氣體濃度之間的關系引起的非線性,這個模型可能會比神經(jīng)網(wǎng)絡更深奧。我希望這個模型有意義,但只要我能做出準確的預測就已經(jīng)很不錯了。

如果試圖證明數(shù)據(jù)變量之間的關系達到一定程度的統(tǒng)計顯著性,那么發(fā)論文的時候應該會使用統(tǒng)計模型而不是機器學習。這是因為我們更關心變量之間的關系,而不是做出預測。做出預測仍然很重要,但是大多數(shù)機器學習算法缺乏可解釋性使得難以證明數(shù)據(jù)內(nèi)的關系(這實際上是學術研究中的一個大問題,研究人員使用他們不理解和獲得的算法似是而非的推論)。

這兩種方法的目標不同,盡管使用的方法類似。機器學習算法的評估使用測試集來驗證其準確性。統(tǒng)計模型可以使用置信區(qū)間,顯著性檢驗和其他檢驗對回歸參數(shù)進行分析,以評估模型的合法性。由于這些方法產(chǎn)生相同的結(jié)果,因此很容易理解為什么人們可能認為它們是相同的。

統(tǒng)計與機器學習在線性回歸上的差異

有一個誤解存在了10年:僅基于它們都利用相同的基本概率概念這一事實,來混淆這兩個術語是不合理的。

有人一種說法是,根據(jù)這個事實做出機器學習只是美化統(tǒng)計的陳述,我們也可以做出以下陳述:

物理學只是美化數(shù)學

動物學只是美化郵票收藏

建筑只是美化沙子城堡建筑

這些陳述(尤其是第三個)非常荒謬,所有這些陳述都基于這種混淆基于類似想法的術語的想法(用于架構示例的雙關語)。

實際上,物理學是建立在數(shù)學基礎之上的,它是數(shù)學應用于理解現(xiàn)實中存在的物理現(xiàn)象。物理學還包括統(tǒng)計學的各個方面,現(xiàn)代統(tǒng)計學的形式通常是由一個由Zermelo-Frankel集理論與測量理論相結(jié)合的框架構建,以產(chǎn)生概率空間。它們之間都有很多共同之處,因為都來自相似的起源,并應用類似的想法,來達成合乎邏輯的結(jié)論。同樣,建筑和沙堡建筑也有很多共同點啊,但這兩個顯然不是一個概念。

還有兩個與機器學習和統(tǒng)計相關的常見誤解我們需要糾正一下,一個是混淆了數(shù)據(jù)科學和統(tǒng)計學;另一個是混淆了機器學習和人工智能。這些是AI與機器學習不同,數(shù)據(jù)科學與統(tǒng)計學不同。這些是相當無爭議的問題所以它會很快。

數(shù)據(jù)科學 vs 統(tǒng)計學

數(shù)據(jù)科學本質(zhì)上是應用于數(shù)據(jù)的計算和統(tǒng)計方法,這些方法可以是小型或大型數(shù)據(jù)集,也可以是探索性數(shù)據(jù)分析。數(shù)據(jù)被檢查和可視化,以幫助科學家更好地理解數(shù)據(jù),并從中做出推論。數(shù)據(jù)科學還包括數(shù)據(jù)爭用和預處理等內(nèi)容,因此還在某種程度上涉及到計算機科學,例如編碼,在數(shù)據(jù)庫,Web服務器等之間建立連接和pipe等。不一定非得使用計算機來進行統(tǒng)計,但如果沒有計算機,就沒法真正進行數(shù)據(jù)科學。所以,數(shù)據(jù)科學使用統(tǒng)計數(shù)據(jù),但二者也顯然不一樣。

機器學習 vs 人工智能

機器學習跟人工智能不同。事實上,機器學習是人工智能的一個子集,這是非常明顯的,因為我們正在“訓練”一臺機器,根據(jù)以前的數(shù)據(jù)對某些類型的數(shù)據(jù)做出可推廣的推斷。

機器學習是基于統(tǒng)計學的

在我們討論統(tǒng)計和機器學習的不同之前,讓我們首先討論相似之處。我們已經(jīng)在前幾節(jié)中對此進行了一些討論。

機器學習建立在統(tǒng)計框架之上。這應該是顯而易見的,因為機器學習涉及數(shù)據(jù),并且必須使用統(tǒng)計框架來描述數(shù)據(jù)。然而,統(tǒng)計力學也擴展到大量粒子的熱力學,也建立在統(tǒng)計框架之上。壓力的概念實際上是一個統(tǒng)計量,溫度也是一個統(tǒng)計量。如果你覺得這聽起來很荒謬可笑,但事實上確實如此。這就是為什么你無法描述分子的溫度或壓力,這是荒謬的。溫度是分子碰撞產(chǎn)生的平均能量的表現(xiàn)。對于足夠大量的分子,我們可以描述像房子或戶外的溫度。

你會承認熱力學和統(tǒng)計學是一樣的嗎?不,熱力學使用統(tǒng)計數(shù)據(jù)來幫助我們以運輸現(xiàn)象的形式理解工作和熱量的相互作用。

實際上,熱力學是建立在除了統(tǒng)計之外的更多項目之上的。同樣,機器學習也利用了大量其他數(shù)學和計算機科學領域,例如:

ML理論來自數(shù)學和統(tǒng)計學等領域

ML算法來自優(yōu)化,矩陣代數(shù),微積分等領域

ML實現(xiàn)來自計算機科學與工程概念(例如內(nèi)核技巧,特征散列)

當你開始使用Python進行編碼,剔除sklearn庫并開始使用這些算法時,很多這些概念都被抽象出來,因此很難看出這些差異。

統(tǒng)計學習理論:機器學習的統(tǒng)計基礎

統(tǒng)計學與機器學習之間的主要區(qū)別在于統(tǒng)計學僅基于概率空間。從集合論中推導出整個統(tǒng)計數(shù)據(jù),它討論了我們?nèi)绾螌?shù)字組合成類別,稱為集合,然后對此集合強加一個度量,以確保所有這些的總和值為1,我們稱之為概率空間。

除了這些集合和度量的概念之外,統(tǒng)計數(shù)據(jù)不對宇宙做任何其他假設。這就是為什么當我們用非常嚴格的數(shù)學術語指定概率空間時,我們指定了3個東西。

概率空間,我們這樣表示,(Ω,F(xiàn),P)由三部分組成:

樣本空間Ω,它是所有可能結(jié)果的集合

一組事件F,其中每個事件是包含零個或多個結(jié)果的集合

為事件分配概率P; 也就是說,從事件到概率的函數(shù)

機器學習基于統(tǒng)計學習理論。它仍然基于概率空間的這種公理概念。該理論是在20世紀60年代發(fā)展起來的,并擴展到傳統(tǒng)統(tǒng)計學。

機器學習有幾種類型,這里我們主要講監(jiān)督學習,因為它是最容易解釋的。

根據(jù)監(jiān)督學習的統(tǒng)計學習理論,一組數(shù)據(jù),我們將其表示為S={(x?,y?)}。這是一個有n個數(shù)據(jù)點的數(shù)據(jù)集,每個數(shù)據(jù)點由我們稱之為功能的其他一些值描述,這些值由x提供,并且這些特征由某個函數(shù)映射以給出值y。

假如說我們已經(jīng)有了這些數(shù)據(jù),我們的目標是找到將x值映射到y(tǒng)值的函數(shù)。可以描述此映射的所有可能函數(shù)的集合,稱為假設空間。

要找到這個函數(shù),我們必須讓算法“學會”一些方法來找出解決問題的最佳方法,這個過程由損失函數(shù)實現(xiàn)。因此,對于我們所擁有的每個假設(建議函數(shù)),需要通過查看其對所有數(shù)據(jù)的預期風險值來評估該函數(shù)的執(zhí)行情況。

預期風險基本上是損失函數(shù)乘以數(shù)據(jù)概率分布的總和。如果我們知道映射的聯(lián)合概率分布,就很容易找到最佳函數(shù)。然而,這通常是未知的,因此我們最好的選擇是猜測,然后憑經(jīng)驗確定損失函數(shù)是否更好。我們稱之為經(jīng)驗風險。

然后,我們可以比較不同的函數(shù),并尋找給出最小預期風險的假設,即假設給出數(shù)據(jù)上所有假設的最小值(稱為下限)。

然而,該算法具有作弊的傾向,可以通過過度擬合數(shù)據(jù)來最小化其損失函數(shù)。這就是為什么在學習基于訓練集數(shù)據(jù)的函數(shù)之后,該函數(shù)需要在測試數(shù)據(jù)集上進行驗證,驗證用的數(shù)據(jù)數(shù)據(jù)不會出現(xiàn)在訓練集中。

顯然,這不是統(tǒng)計學看重的點,因為統(tǒng)計學并不需要最小化經(jīng)驗風險。選擇最小化經(jīng)驗風險的函數(shù)的學習算法稱為經(jīng)驗風險最小化。

舉例

以線性回歸的簡單情況為例。在傳統(tǒng)意義上,我們嘗試將某些數(shù)據(jù)之間的錯誤最小化,以便找到可用于描述數(shù)據(jù)的函數(shù)。在這種情況下,常使用均方誤差。我們將它調(diào)整為正負誤差不會相互抵消。然后我們可以以封閉形式的方式求解回歸系數(shù)。

如果將損失函數(shù)作為均方誤差來執(zhí)行統(tǒng)計學習理論所支持的經(jīng)驗風險最小化,最終得到的是與傳統(tǒng)線性回歸分析相同的結(jié)果。

這是因為兩種情況是等價的,就像在同一數(shù)據(jù)上執(zhí)行最大似然估計也會得到相同的結(jié)果一樣。最大似然可以用不同的方式來實現(xiàn)同一目標,但沒有人會說最大似然與線性回歸相同,對吧。

另一個需要注意的是,在傳統(tǒng)的統(tǒng)計方法中,并沒有訓練和測試集的概念。而是用度量來檢查模型的執(zhí)行方式。雖然評估程序不同,但兩種方法都能夠在統(tǒng)計上給出魯棒的結(jié)果。

更進一步,傳統(tǒng)的統(tǒng)計方法提供了最優(yōu)解,因為解決方案具有封閉形式,它沒有測試任何其它假設并收斂到解決方案。而機器學習方法則是嘗試了一堆不同的模型,收斂到最終假設。

如果我們使用了不同的損失函數(shù),結(jié)果就不會收斂。例如,如果我們使用鉸鏈損耗(使用標準梯度下降不可微分,那么就需要其他技術,如近端梯度下降來解決問題),那么結(jié)果將不會相同。

當然,可以通過考慮模型的偏差來進行最終比較,比如要求機器學習算法測試線性模型,以及多項式模型,指數(shù)模型等,以查看這些假設是否更適合我們的先驗損失函數(shù)。

這類似于增加相關的假設空間。在傳統(tǒng)的統(tǒng)計意義上,我們選擇一個模型就可以評估其準確性,但不能自動選擇100個不同模型中的最佳模型。因為模型中總有一些偏差源于最初的算法選擇。這是必要的,因為找到對數(shù)據(jù)集最佳的任意函數(shù)是NP難問題。

結(jié)論

沒有統(tǒng)計學就不會存在機器學習,但機器學習在當代非常有用,因為自信息爆炸以來人類,已經(jīng)產(chǎn)生了大量數(shù)據(jù)。

在“到底應該選擇機器學習還是統(tǒng)計模型”的問題上,很大程度上取決于目的是什么。如果只是想創(chuàng)建一種能夠高精度地預測住房價格的算法,或者使用數(shù)據(jù)來確定某人是否可能感染某些類型的疾病,那么機器學習可能是更好的方法;如果試圖證明變量之間的關系或從數(shù)據(jù)推斷,統(tǒng)計模型可能是更好的方法。

還有就是,即使沒有強大的統(tǒng)計學背景,也仍然可以掌握機器學習并應用在實際問題中。但基本的統(tǒng)計思想還是要有的,以防止模型過度擬合和給出似是而非的推論。

這里推薦幾個不錯的課程,可以讓你對機器學習和統(tǒng)計學有更清晰的認識:

9.520/6.860: Statistical Learning Theory and Applications

http://www.mit.edu/~9.520/fall18/

該課程是以統(tǒng)計學家的角度來闡述機器學習

ECE 543: Statistical Learning Theory

http://maxim.ece.illinois.edu/teaching/spring18/index.html

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2565

    文章

    53008

    瀏覽量

    767442
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134615
  • 數(shù)據(jù)科學

    關注

    0

    文章

    168

    瀏覽量

    10489

原文標題:機器學習不是統(tǒng)計學!這篇文章終于把真正區(qū)別講清楚了

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    統(tǒng)計學和編程題目

    統(tǒng)計學和編程練習
    發(fā)表于 09-10 14:21

    統(tǒng)計學的概率分布

    統(tǒng)計學術語總結(jié)
    發(fā)表于 09-27 16:24

    機器學習KNN介紹

    機器學習(李航統(tǒng)計學方法)之KNN
    發(fā)表于 04-07 16:20

    如何使用統(tǒng)計學知識進行和統(tǒng)計分析誤差分析?

    3.1 誤差分析背后的統(tǒng)計學知識
    的頭像 發(fā)表于 08-22 01:32 ?5355次閱讀

    人工智能其實就是華麗的統(tǒng)計學?

    人工智能其實就是統(tǒng)計學,只不過用了一個很華麗的辭藻,其實就是統(tǒng)計學。好多的公式都非常老,但是所有的人工智能利用的都是統(tǒng)計學來解決問題。
    的頭像 發(fā)表于 08-13 15:33 ?3142次閱讀

    機器學習入門寶典《統(tǒng)計學習方法》的介紹

    統(tǒng)計學習方法》可以說是機器學習的入門寶典,許多機器學習培訓班、互聯(lián)網(wǎng)企業(yè)的面試、筆試題目,很多都參考這本書。本文根據(jù)網(wǎng)上資料用python
    的頭像 發(fā)表于 11-25 09:24 ?4982次閱讀

    機器學習如何運作 下一步是什么

    今天的機器學習是以統(tǒng)計學為基礎的,那么人工智能=統(tǒng)計學嗎?
    的頭像 發(fā)表于 01-17 10:36 ?4041次閱讀

    機器學習就是現(xiàn)代統(tǒng)計學

    在5月 9日的北京智源人工智能研究院主辦的“智源論壇——人工智能的數(shù)理基礎”系列報告中,北京?的張志華教授對機器學習和數(shù)學工程的內(nèi)在關系進行了闡述。
    的頭像 發(fā)表于 05-17 17:16 ?4599次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>就是現(xiàn)代<b class='flag-5'>統(tǒng)計學</b>

    人工智能只有統(tǒng)計學

    人工智能并未朝著我們期望的方向發(fā)展,而是更多地走向了統(tǒng)計學的范疇。
    發(fā)表于 10-14 17:39 ?1297次閱讀

    統(tǒng)計學對于機器學習有什么作用

    統(tǒng)計學機器學習是兩個密切相關的領域。實際上,兩者之間的界限有時可能非常模糊。
    發(fā)表于 04-05 21:51 ?1739次閱讀

    機器學習”術語的誕生并不是為了區(qū)分統(tǒng)計學

    麻省理工Sam Finlayson 博士指出“過去關于機器學習統(tǒng)計學之間的討論很大程度上沒有切中要害,因為這些討論要么忽略了歷史背景、要么‘回歸方法’歸屬模棱兩可”,因此這種爭論事實上毫無意義。
    的頭像 發(fā)表于 04-15 16:27 ?7721次閱讀

    燈具的種類百科:分得清哪些是可以調(diào)光的嗎

    隨著技術的發(fā)展,燈具的種類也越來越多。那你分得清哪些是可以調(diào)光的嗎?今天我們來聊一聊,有哪些光源是可以調(diào)光的。
    的頭像 發(fā)表于 12-24 11:14 ?2080次閱讀

    深度學習與經(jīng)典統(tǒng)計學的差異

    深度學習和簡單的統(tǒng)計學是一回事嗎?很多人可能都有這個疑問,畢竟二者連術語都有很多相似的地方。在這篇文章中,理論計算機科學家、哈佛大學知名教授 Boaz Barak 詳細比較了深度學習與經(jīng)典統(tǒng)計
    的頭像 發(fā)表于 09-20 15:18 ?1450次閱讀

    激光加工納秒激光、皮秒激光、飛秒激光,分得清嗎?

    大家對激光加工并不陌生,但對經(jīng)常能聽到的納秒激光、皮秒激光、飛秒激光等,是否能分得清呢?▌我們先來搞清楚時間單位換算1ms(毫秒)=0.001秒=10-3秒1μs(微秒)=0.000001
    的頭像 發(fā)表于 06-21 17:25 ?1995次閱讀
    激光加工納秒激光、皮秒激光、飛秒激光,<b class='flag-5'>你</b><b class='flag-5'>分得清</b>嗎?

    統(tǒng)計學習方法代碼集

    統(tǒng)計學習所含部分代碼合集
    發(fā)表于 09-07 09:24 ?0次下載