chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習中最核心的問題之一:訓練數(shù)據(jù)

mK5P_AItists ? 2017-12-25 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概要:今天我們將討論深度學習中最核心的問題之一:訓練數(shù)據(jù)。

Hello World!

今天我們將討論深度學習中最核心的問題之一:訓練數(shù)據(jù)。深度學習已經(jīng)在現(xiàn)實世界得到了廣泛運用,例如:無人駕駛汽車,收據(jù)識別,道路缺陷自動檢測,以及交互式電影推薦等等。

我們大部分的時間并不是花在構建神經(jīng)網(wǎng)絡上,而是處理訓練數(shù)據(jù)。深度學習需要大量的數(shù)據(jù),然而有時候僅僅標注一張圖像就需要花費一個小時的時間!所以我們一直在考慮:能否找到一個方法來提升我們的工作效率?是的,我們找到了。

現(xiàn)在,我們很自豪的將Supervisely令人驚嘆的新特性公諸于世:支持AI的標注工具來更快速地分割圖像上的對象。

在本文中,我們將重點介紹計算機視覺,但是,類似的思路也可用在大量不同類型的數(shù)據(jù)上,例如文本數(shù)據(jù)、音頻數(shù)據(jù)、傳感器數(shù)據(jù)、醫(yī)療數(shù)據(jù)等等。

重點:數(shù)據(jù)越多,AI越智能

讓我們以吳恩達非常著名的幻燈片開始,首先對其進行小小的修改。

深度學習中最核心的問題之一:訓練數(shù)據(jù)

深度學習的表現(xiàn)優(yōu)于其它機器學習算法早已不是什么秘密。從上圖可以得出以下結論。

結論 0:AI產(chǎn)品需要數(shù)據(jù)。

結論 1:獲得的數(shù)據(jù)越多,AI就會越智能。

結論 2:行業(yè)巨頭所擁有的數(shù)據(jù)量遠超其它企業(yè)。

結論 3:AI產(chǎn)品的質量差距是由其所擁有的數(shù)據(jù)量決定的。

因此,網(wǎng)絡架構對AI系統(tǒng)的表現(xiàn)影響很大,但是訓練數(shù)據(jù)的多少對系統(tǒng)表現(xiàn)的影響最大。致力于數(shù)據(jù)收集的公司可以提供更好的AI產(chǎn)品并獲得巨大的成功。

常見錯誤:AI全都是關于構建神經(jīng)網(wǎng)絡的。

深度學習中最核心的問題之一:訓練數(shù)據(jù)

如上圖所示,當人們一想到AI,就會想到算法,但是也應該考慮到數(shù)據(jù)。算法是免費的:谷歌和其他巨頭更傾向于向世界分享他們最先進的(state-of-the-art)研究成果,但是他們從不會共享數(shù)據(jù)。

許多人已經(jīng)跳上了人工智能炒作的列車,并且創(chuàng)造了極棒的構建和訓練神經(jīng)網(wǎng)絡的工具,然而關注訓練數(shù)據(jù)的人卻少的可憐。當企業(yè)打算將人工智能轉換成實際應用時,會傾盡全部工具用于訓練神經(jīng)網(wǎng)絡,卻沒有用于開發(fā)訓練數(shù)據(jù)上的工具。

吳恩達說論文已經(jīng)足夠了,現(xiàn)在讓我們來構建AI吧!

好主意,我們完全贊同。目前有許多論文和開源成果論述了最先進的(state of the art )且涵蓋所有的實際應用的神經(jīng)網(wǎng)絡架構。想象一下,你獲得了一個價值10億美元的新想法。首先想到的肯定不會是:我將使用哪種類型的神經(jīng)網(wǎng)絡?最有可能的是:我在哪里可以得到能建立MVP的數(shù)據(jù)?

讓我們來尋找一些有效的方法訓練數(shù)據(jù),可行的方法如下:

1.開源數(shù)據(jù)集。深度神經(jīng)網(wǎng)絡(DNN)的價值是用于訓練數(shù)據(jù),在計算機視覺研究中,大多數(shù)可用數(shù)據(jù)都是針對特定研究小組所研究的課題而設計的,通常對于新研究人員來說,需要搜集更多額外的數(shù)據(jù)去解決他們自己的課題。這就是在大多數(shù)情況下開源數(shù)據(jù)集并不是一個解決方案的原因。

2.人工數(shù)據(jù)。它適用于類似OCR文字識別或者是文本檢測,然而很多實例(如人臉識別,醫(yī)學影像等)表明人工數(shù)據(jù)很難甚至是不可能產(chǎn)生,通常的做法是將人工數(shù)據(jù)和帶標注的圖像相結合使用。

3.Web。自動收集高質量的訓練數(shù)據(jù)是很難的,通常我們會對收集的訓練數(shù)據(jù)進行修正和過濾。

4.外面訂購圖像標注服務。一些公司提供這樣的服務,我們也不例外。但其很大的缺點是不能進行快速的迭代。通常,即使是數(shù)據(jù)專家也不確定如何標注。通常的順序是做迭代研究:標注圖像的一小部分→建立神經(jīng)網(wǎng)絡架構 →檢查結果。每個新的標注都將會影響后續(xù)的標注。

5.手動標注圖像。僅適用于你自己的工作,領域內的專業(yè)知識是很關鍵的。醫(yī)學影像就是個很好的例子:只有醫(yī)生知道腫瘤在哪里。手動注解圖像這個過程很耗時,但是如果你想要一個定制化的AI,也沒有其他辦法。

正如我們所看到的,其實并沒有萬能方法,最常見的方案是創(chuàng)建我們自己任務特定的訓練數(shù)據(jù),形成人工數(shù)據(jù),如果可能的話再整合到公共數(shù)據(jù)集中。這其中的關鍵是,你必須為特定的任務建立自己獨一無二的數(shù)據(jù)集。

讓我們深入學習來構建深度學習

深度學習接近于數(shù)據(jù)匱乏,且其性能極度依賴于可供訓練數(shù)據(jù)的數(shù)量。

通過實例我們可以看出標注的過程有多困難。這里是標注過程所花費時間的一些原始數(shù)據(jù),例如使用Cityscapes數(shù)據(jù)集(用于無人駕駛),在對Cityscapes數(shù)據(jù)集中單個圖像的精細像素級的標注平均需要花費1.5h,如果標注5000個圖像,則需要花費5000*1.5=7500h。假設1h=$10(美國最低工資),那么僅僅是標注該數(shù)據(jù)集就需要花費約$7.5萬左右(不包括其他額外的成本)。同樣吃驚的是,像這樣一家擁有1000名做無人駕駛圖像標注員工的公司,只不過是冰山一角。

神經(jīng)網(wǎng)絡能否幫助我們提高圖像標注的效率呢?我們可不是第一個試圖回答這一問題的人。

半自動化實例標注很早就開始使用了, 有很多經(jīng)典的方法可提高標注的效率,如超像素塊算法(Superpixels),分水嶺算法(Watershed),GrabCut分割算法等。近幾年,研究人員試圖用深度學習完成這一任務(link1, link2, link3),這些經(jīng)典的算法有很多缺陷,需要很多超參數(shù)對每一幅圖像進行檢索,難以對結果進行標準化和修正。最新的基于深度學習的成果要好很多,但在大多情況下這些成果是不開源的。我們是第一個為每個人提供基于AI的標注工具的人,我們自己獨立設計了與上邊三個links概念類似的神經(jīng)網(wǎng)絡架構。它有一個很大的優(yōu)勢:我們的神經(jīng)網(wǎng)絡不需要對對象實例進行分類。這就意味著,可以對行人、汽車、路面上的凹陷處、醫(yī)學影像上的腫瘤、室內場景、食物成分、衛(wèi)星上的物體等等進行分割。

那么,它是如何工作的呢?如下圖所示:

你只需要剪裁感興趣的對象,然后神經(jīng)網(wǎng)絡將會對其進行分割。人機交互非常重要,你可以點擊圖像的內部和外部標簽進行修正錯誤。

語義分割是將圖像劃分為多個預定義語義類別的區(qū)域,與它不同的是,我們的交互式圖像分割旨在根據(jù)用戶的輸入提取其感興趣的對象。

交互式分割的主要目標是根據(jù)用戶最少的操作,即可精確的提取對象以改善整體的用戶體驗,因此我們大大提高了標注的效率。

這是我們的第一次嘗試,當然在有些情況下,好的標注依然會有缺陷。我們會不斷的提高質量,并做出適用于領域適應性的簡單方法:在不編碼的情況下,為適應內部特定的任務自定義工具。

結語

數(shù)據(jù)是深度學習的關鍵,訓練數(shù)據(jù)是費時和高代價的。但是我們和深度學習的團體積極嘗試著去解決訓練數(shù)據(jù)的問題,并且成功的邁出了第一步,希望能夠在以后提供更好的解決方案。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7348

    瀏覽量

    95020
  • 深度學習
    +關注

    關注

    73

    文章

    5608

    瀏覽量

    124631

原文標題:深度學習的核心:掌握訓練數(shù)據(jù)的方法

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI 算法核心知識清單(深度實戰(zhàn)版2)

    三、機器學習核心算法(入門到實戰(zhàn))?1.監(jiān)督學習算法(已知標簽的模型訓練)?線性模型?線性回歸(回歸任務):?核心原理:假設y=w?+w?x
    的頭像 發(fā)表于 04-24 11:58 ?130次閱讀
    AI 算法<b class='flag-5'>核心</b>知識清單(<b class='flag-5'>深度</b>實戰(zhàn)版2)

    機器學習深度學習中需避免的 7 個常見錯誤與局限性

    ,并驗證輸出結果,就能不斷提升專業(yè)技能,養(yǎng)成優(yōu)秀數(shù)據(jù)科學家的工作習慣。需避免的機器學習深度學習數(shù)據(jù)錯誤在
    的頭像 發(fā)表于 01-07 15:37 ?350次閱讀
    機器<b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    穿孔機頂頭檢測儀 機器視覺深度學習

    頂頭狀態(tài)。 檢測頂頭算法 引入人工智深度學習技術,通過Keras實現(xiàn)卷積神經(jīng)網(wǎng)絡(CNN),用Numpy實現(xiàn)采集數(shù)據(jù)訓練,得到符合現(xiàn)場需求的模型,進
    發(fā)表于 12-22 14:33

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    ,形成\"傳統(tǒng)視覺算法→深度學習建?!I(yè)級部署\"的完整技術鏈,幫助學員掌握從0到1搭建缺陷檢測系統(tǒng)的能力,響應制造業(yè)\"提質降本增效\"的核心需求。 團購課程
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    ,形成\"傳統(tǒng)視覺算法→深度學習建?!I(yè)級部署\"的完整技術鏈,幫助學員掌握從0到1搭建缺陷檢測系統(tǒng)的能力,響應制造業(yè)\"提質降本增效\"的核心需求。 團購課程
    發(fā)表于 12-03 13:50

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的些經(jīng)驗

    模型。 我們使用MNIST數(shù)據(jù)集,訓練個卷積神經(jīng)網(wǎng)絡(CNN)模型,用于手寫數(shù)字識別。旦模型被訓練并保存,就可以用于對新圖像進行推理和預
    發(fā)表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實現(xiàn)深度學習AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是種開源、模塊化的指令集架構(ISA)。優(yōu)勢如下: ①模塊化特性②標準接口③開源
    發(fā)表于 09-12 17:30

    如何在機器視覺中部署深度學習神經(jīng)網(wǎng)絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經(jīng)常會出現(xiàn)“
    的頭像 發(fā)表于 09-10 17:38 ?1049次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經(jīng)網(wǎng)絡

    AI的核心操控:從算法到硬件的協(xié)同進化

    到頂層的應用算法,共同構成AI的“智能引擎”。 算法層:模型架構與訓練控制 現(xiàn)代AI的核心深度學習算法,其操控依賴于神經(jīng)網(wǎng)絡的結構設計和訓練
    的頭像 發(fā)表于 09-08 17:51 ?1159次閱讀

    深度學習對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學習作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡的層級結構,能夠自動從海量工業(yè)數(shù)據(jù)中提取復雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)
    的頭像 發(fā)表于 08-20 14:56 ?1209次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第章讀后心得

    大模型圈子,其多項性能超過了當時處于領先地位的ChatGPT 4,也證明了不需要高昂的費用也能訓練出優(yōu)質大模型。這激起了我的好奇心,借著這次機會好好閱讀下DeepSeek的核心技術。 開箱+簡介
    發(fā)表于 07-17 11:59

    【書籍評測活動NO.62】本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    DeepSeek-R1-Zero 的核心創(chuàng)新之一是采用 純強化學習 (Reinforcement Learning,RL)進行訓練。這
    發(fā)表于 06-09 14:38

    Nginx核心功能深度解析

    Nginx核心功能深度解析
    的頭像 發(fā)表于 05-09 10:50 ?1010次閱讀

    深度學習賦能:正面吊車載箱號識別系統(tǒng)的核心技術

    在現(xiàn)代物流與智慧港口建設中,集裝箱的高效精準識別是提升作業(yè)效率的關鍵環(huán)節(jié)。基于OCR+AI深度學習技術的正面吊車載箱號識別系統(tǒng),憑借99%以上的識別率和毫秒級響應速度,正成為港口自動化管理的核心
    的頭像 發(fā)表于 05-07 10:10 ?672次閱讀

    海思SD3403邊緣計算AI數(shù)據(jù)訓練概述

    AI數(shù)據(jù)訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練
    發(fā)表于 04-28 11:11