chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

我們對目前機器學習進展的衡量有多可靠?

jmiy_worldofai ? 來源:未知 ? 作者:胡薇 ? 2018-06-08 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們對機器學習的發(fā)展認識,很大程度上取決于少數幾個標準基準,比如CIFAR-10,ImageNet或MuJoCo。

近年來人工智能發(fā)展,大的,比如一項又一項“超越人類水平”的進步,以及小的、甚至幾乎每天都在發(fā)生的(這要感謝Arxiv),比如在各種論文中不斷被刷新的“state-of-the-art”,無不讓人感嘆領域的蓬勃。

但是,實際情況或許并沒有這么美好。

一項伯克利和MIT合作的新研究,對過去近十年中提出的一些經典分類器(比如VGG和ResNet)進行再測試后發(fā)現,由于測試集過擬合,很多分類器的精度實際并沒有宣稱的那么高;在新的數據集上測試結果表明,這些分類器的精度普遍都有下降,幅度4%~10%不等。

研究者表示,這一結果可以被視為證據,證明模型的精度這個數字是不可靠的,并且容易受到數據分布中微小的自然變化的影響。

這項新的研究也提出了一個值得反思的問題——我們目前用來衡量機器學習進展的手段和方法,究竟有多可靠?

重復使用相同的測試集,無法推廣到新數據

作者在論文中寫道,在過去五年里,機器學習已經成為一個實驗領域。在深度學習的推動下,大多數發(fā)表的論文都采用了同一種套路,那就是看一種新的方法在幾個關鍵基準上性能有多少提升。換句話說,就是簡單粗暴地對比數值,很少有人去解釋為什么。

而在對比數值的時候,大多數研究的評估都取決于少數幾個標準的基準,例如CIFAR-10、ImageNet或MuJoCo。不僅如此,由于Ground truth的數據分布一般很難得到,所以研究人員只能在單獨的測試集上評估模型的性能。

“現在,在整個算法和模型設計過程中,多次重復使用相同的測試集的做法已經被普遍接受。盡管將新模型與以前的結果進行比較是很自然的想法,但顯然目前的研究方法破壞了分類器獨立于測試集這一關鍵假設?!?/p>

這種不匹配帶來了明顯的危害,因為研究人員可以很容易地設計出只能在特定測試集上運行良好,但實際上無法推廣到新數據的模型。

CIFAR-10可重復性實驗:VGG、ResNet等經典模型精度普遍下降

為了審視這種現象造成的后果,研究人員對CIFAR-10以及相關分類器做了再調查。研究的主要目標是,衡量新進的分類器在泛化到來自相同分布的、未知新數據時能做得多好。

選擇標準CIFAR-10數據集,是因為它透明的創(chuàng)建過程使其特別適合于這個任務。此外,CIFAR-10已經成為近10年來研究的熱點,在調查適應性(adaptivity)是否導致過擬合這個問題上,它是一個很好的測試用例。

在實驗中,研究人員首先用新的、確定是模型沒有見過的大約2000幅圖像,制作了一個新的測試集,并將新測試集的子類分布與原始 CIFAR-10 數據集仔細地做匹配,盡可能保持一致。

然后,在新測試集上評估了30個圖像分類器的性能,包括經典的VGG、ResNet,最近新提出的ResNeXt、PyramidNet、DenseNet,以及在ICLR 2018發(fā)布的Shake-Drop,這個Shake-Drop正則化方法結合以前的分類器,取得了目前的state-of-art。

結果如下表所示。原始CIFAR-10測試集和新測試集的模型精度,Gap是兩者精度的差異。ΔRank表示排名的變化,比如“-2”意味著在新測試集中的排名下降了兩個位置。

由結果可知,新測試集上模型的精度相比原始測試集有明顯下降。例如,VGG和ResNet這兩個模型在原始數據集上準確率為93%,而在新測試集上降為了85%左右。此外,作者還表示,他們發(fā)現現有測試集上模型的性能相比新測試集更加具有預測性。

對于出現這種結果的原因,作者設定了多個假設并一一進行了討論,除了統(tǒng)計誤差、調參等之外,主要還是過擬合。

作者表示,他們的結果展現了當前機器學習進展令人意外的一面。盡管CIFAR-10測試集已經被不斷適應(adapting)了很多年,但這種趨勢并沒有停滯。表現最好的模型仍然是最近提出的Shake-Shake網絡(Cutout正則化)。而且,在新的測試集置上,Shake-Shake比標準ResNet的優(yōu)勢從4%增加到8%。這表明,瞄準一個測試集猛攻的研究方法對過擬合而言是十分有效的。

同時,這個結果也對當前分類器的魯棒性提出了質疑。盡管新數據集只做了微小的改變(分布轉移),但現有的被廣泛使用的模型,分類準確性普遍顯著下降。例如,前面提到的VGG和ResNet的精度損失對應于CIFAR-10的多年進展。

作者特別指出,他們的實驗引起的分布轉移(distributional shift)既不是對抗性的(adversarial),也不是不同數據源導致的結果。因此,即使在良性環(huán)境中,分布轉移也會帶來嚴峻的挑戰(zhàn),研究人員需要思考,目前的模型真正能泛化到什么程度。

機器學習研究也需要注意可重復性

Python Machine Learning 一書作者Sebastian Raschka評論這項研究認為,它再次提醒機器學習研究人員注意測試集重復使用(以及違背獨立性)的問題。

谷歌大腦研究科學家、Twitter賬戶hardmaru表示,對機器學習研究進行可靠評估的方法十分重要。他期待見到有關文本和翻譯的類似研究,并查看PTB,wikitext,enwik8,WMT'14 EN-FR,EN-DE等結構如何從相同分布轉移到新的測試集。

不過,hardmaru表示,如果在PTB上得到類似的結果,那么對于深度學習研究界來說實際上是好事,因為在PTB這個小數據集上進行超級優(yōu)化的典型過程,確實會讓人發(fā)現泛化性能更好的新方法。

作者表示,未來實驗應該探索在其他數據集(例如ImageNet)和其他任務(如語言建模)上是否同樣對過擬合具有復原性。此外,我們應該了解哪些自然發(fā)生的分布變化對圖像分類器具有挑戰(zhàn)性。

為了真正理解泛化問題,更多的研究應該收集有洞察力的新數據并評估現有算法在這些數據上的性能表現。類似于招募新參與者進行醫(yī)學或心理學的可重復性實驗,機器學習研究也需要對模型性能的可重復多做研究。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • MIT
    MIT
    +關注

    關注

    3

    文章

    254

    瀏覽量

    24821
  • 機器學習
    +關注

    關注

    66

    文章

    8528

    瀏覽量

    135909

原文標題:十年機器學習結果不可靠?伯克利&MIT研究質疑了30個經典模型

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經到來,這得益于機械電子技術和機器人 AI 基礎模型的進步。但目前機器人技術的發(fā)展仍面臨一個關鍵挑戰(zhàn):機器人需要大量的訓練數據來掌握諸如組裝和檢查之類的技能,而手動演
    的頭像 發(fā)表于 07-14 11:49 ?572次閱讀
    通過NVIDIA Cosmos模型增強<b class='flag-5'>機器人學習</b>

    機器學習賦能的智能光子學器件系統(tǒng)研究與應用

    騰訊會議---六月直播 1.機器學習賦能的智能光子學器件系統(tǒng)研究與應用 2.COMSOL聲學物理場仿真技術與應用 3.超表面逆向設計及前沿應用(從基礎入門到論文復現) 4.智能光學計算成像技術
    的頭像 發(fā)表于 06-04 17:59 ?348次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>賦能的智能光子學器件系統(tǒng)研究與應用

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節(jié),今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發(fā)表于 04-01 00:00

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數據量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?519次閱讀

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎模塊

    目前高速發(fā)展的大模型能給具身智能帶來一些突破性的進展。 對于感知系統(tǒng),要做的主要任務是物體檢測,語義分割,立體視覺,鳥瞰視角感知。 很多算法都可以實現物體檢測,比如文章提到的HOG + SVM算法
    發(fā)表于 01-04 19:22

    《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)

    閱讀《具身智能機器人系統(tǒng)》第10-13章,我對具身智能機器人的工程實踐了全新認識。第10章從實時性角度剖析了機器人計算加速問題。機器人定位
    發(fā)表于 01-04 01:15

    傳統(tǒng)機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎知識和多
    的頭像 發(fā)表于 12-30 09:16 ?1618次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    指令和當前機器人靜態(tài)圖像,生成一段預測的未來狀態(tài)視頻。從這些預測視頻中,可以提取機器人的位姿信息,并解碼出控制所需的速度、加速度等關鍵參數,再傳遞給機器人進行實際控制。目前,這種方法已
    發(fā)表于 12-29 23:04

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?617次閱讀

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數據在具身人工智能中的價值

    嵌入式人工智能(EAI)將人工智能集成到機器人等物理實體中,使它們能夠感知、學習環(huán)境并與之動態(tài)交互。這種能力使此類機器人能夠在人類社會中有效地提供商品及服務。 數據是一種貨幣化工具 數據是互聯網
    發(fā)表于 12-24 00:33

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統(tǒng)具有人的學習能力以便實現人工智能。因為沒有學習能力的系統(tǒng)很難被認為是具有智能的。目前
    的頭像 發(fā)表于 11-16 01:07 ?1355次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統(tǒng)的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發(fā)表于 11-15 09:19 ?1675次閱讀

    eda在機器學習中的應用

    值和噪聲數據。通過繪制箱線圖、直方圖和散點圖,我們可以直觀地看到數據中的異常值和分布情況。例如,如果一個數據集中的某個特征值遠高于其他值,這可能是一個異常值,需要進一步調查。 2. 特征選擇 特征選擇 是機器學習中的另一個關鍵步
    的頭像 發(fā)表于 11-13 10:42 ?1197次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI很多技術,但其中一個很大的子集是機器學習——讓算法從數據中學習
    發(fā)表于 10-24 17:22 ?3332次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    AI大模型的最新研究進展

    。例如,在醫(yī)療領域,生成式AI可以幫助醫(yī)生生成診斷報告、治療方案等;在教育領域,AI大模型可以生成個性化的學習資源和建議。 模態(tài)融合與交互 : AI大模型正在向模態(tài)方向發(fā)展,能夠同時處理文本、圖像、音頻等多種類型的數據。這種
    的頭像 發(fā)表于 10-23 15:19 ?2093次閱讀