chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)中最核心的問題之一:訓(xùn)練數(shù)據(jù)

mK5P_AItists ? 2017-12-25 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概要:今天我們將討論深度學(xué)習(xí)中最核心的問題之一:訓(xùn)練數(shù)據(jù)。

Hello World!

今天我們將討論深度學(xué)習(xí)中最核心的問題之一:訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)已經(jīng)在現(xiàn)實(shí)世界得到了廣泛運(yùn)用,例如:無人駕駛汽車,收據(jù)識(shí)別,道路缺陷自動(dòng)檢測(cè),以及交互式電影推薦等等。

我們大部分的時(shí)間并不是花在構(gòu)建神經(jīng)網(wǎng)絡(luò)上,而是處理訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)需要大量的數(shù)據(jù),然而有時(shí)候僅僅標(biāo)注一張圖像就需要花費(fèi)一個(gè)小時(shí)的時(shí)間!所以我們一直在考慮:能否找到一個(gè)方法來提升我們的工作效率?是的,我們找到了。

現(xiàn)在,我們很自豪的將Supervisely令人驚嘆的新特性公諸于世:支持AI的標(biāo)注工具來更快速地分割圖像上的對(duì)象。

在本文中,我們將重點(diǎn)介紹計(jì)算機(jī)視覺,但是,類似的思路也可用在大量不同類型的數(shù)據(jù)上,例如文本數(shù)據(jù)、音頻數(shù)據(jù)、傳感器數(shù)據(jù)、醫(yī)療數(shù)據(jù)等等。

重點(diǎn):數(shù)據(jù)越多,AI越智能

讓我們以吳恩達(dá)非常著名的幻燈片開始,首先對(duì)其進(jìn)行小小的修改。

深度學(xué)習(xí)中最核心的問題之一:訓(xùn)練數(shù)據(jù)

深度學(xué)習(xí)的表現(xiàn)優(yōu)于其它機(jī)器學(xué)習(xí)算法早已不是什么秘密。從上圖可以得出以下結(jié)論。

結(jié)論 0:AI產(chǎn)品需要數(shù)據(jù)。

結(jié)論 1:獲得的數(shù)據(jù)越多,AI就會(huì)越智能。

結(jié)論 2:行業(yè)巨頭所擁有的數(shù)據(jù)量遠(yuǎn)超其它企業(yè)。

結(jié)論 3:AI產(chǎn)品的質(zhì)量差距是由其所擁有的數(shù)據(jù)量決定的。

因此,網(wǎng)絡(luò)架構(gòu)對(duì)AI系統(tǒng)的表現(xiàn)影響很大,但是訓(xùn)練數(shù)據(jù)的多少對(duì)系統(tǒng)表現(xiàn)的影響最大。致力于數(shù)據(jù)收集的公司可以提供更好的AI產(chǎn)品并獲得巨大的成功。

常見錯(cuò)誤:AI全都是關(guān)于構(gòu)建神經(jīng)網(wǎng)絡(luò)的。

深度學(xué)習(xí)中最核心的問題之一:訓(xùn)練數(shù)據(jù)

如上圖所示,當(dāng)人們一想到AI,就會(huì)想到算法,但是也應(yīng)該考慮到數(shù)據(jù)。算法是免費(fèi)的:谷歌和其他巨頭更傾向于向世界分享他們最先進(jìn)的(state-of-the-art)研究成果,但是他們從不會(huì)共享數(shù)據(jù)。

許多人已經(jīng)跳上了人工智能炒作的列車,并且創(chuàng)造了極棒的構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的工具,然而關(guān)注訓(xùn)練數(shù)據(jù)的人卻少的可憐。當(dāng)企業(yè)打算將人工智能轉(zhuǎn)換成實(shí)際應(yīng)用時(shí),會(huì)傾盡全部工具用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),卻沒有用于開發(fā)訓(xùn)練數(shù)據(jù)上的工具。

吳恩達(dá)說論文已經(jīng)足夠了,現(xiàn)在讓我們來構(gòu)建AI吧!

好主意,我們完全贊同。目前有許多論文和開源成果論述了最先進(jìn)的(state of the art )且涵蓋所有的實(shí)際應(yīng)用的神經(jīng)網(wǎng)絡(luò)架構(gòu)。想象一下,你獲得了一個(gè)價(jià)值10億美元的新想法。首先想到的肯定不會(huì)是:我將使用哪種類型的神經(jīng)網(wǎng)絡(luò)?最有可能的是:我在哪里可以得到能建立MVP的數(shù)據(jù)?

讓我們來尋找一些有效的方法訓(xùn)練數(shù)據(jù),可行的方法如下:

1.開源數(shù)據(jù)集。深度神經(jīng)網(wǎng)絡(luò)(DNN)的價(jià)值是用于訓(xùn)練數(shù)據(jù),在計(jì)算機(jī)視覺研究中,大多數(shù)可用數(shù)據(jù)都是針對(duì)特定研究小組所研究的課題而設(shè)計(jì)的,通常對(duì)于新研究人員來說,需要搜集更多額外的數(shù)據(jù)去解決他們自己的課題。這就是在大多數(shù)情況下開源數(shù)據(jù)集并不是一個(gè)解決方案的原因。

2.人工數(shù)據(jù)。它適用于類似OCR文字識(shí)別或者是文本檢測(cè),然而很多實(shí)例(如人臉識(shí)別,醫(yī)學(xué)影像等)表明人工數(shù)據(jù)很難甚至是不可能產(chǎn)生,通常的做法是將人工數(shù)據(jù)和帶標(biāo)注的圖像相結(jié)合使用。

3.Web。自動(dòng)收集高質(zhì)量的訓(xùn)練數(shù)據(jù)是很難的,通常我們會(huì)對(duì)收集的訓(xùn)練數(shù)據(jù)進(jìn)行修正和過濾。

4.外面訂購(gòu)圖像標(biāo)注服務(wù)。一些公司提供這樣的服務(wù),我們也不例外。但其很大的缺點(diǎn)是不能進(jìn)行快速的迭代。通常,即使是數(shù)據(jù)專家也不確定如何標(biāo)注。通常的順序是做迭代研究:標(biāo)注圖像的一小部分→建立神經(jīng)網(wǎng)絡(luò)架構(gòu) →檢查結(jié)果。每個(gè)新的標(biāo)注都將會(huì)影響后續(xù)的標(biāo)注。

5.手動(dòng)標(biāo)注圖像。僅適用于你自己的工作,領(lǐng)域內(nèi)的專業(yè)知識(shí)是很關(guān)鍵的。醫(yī)學(xué)影像就是個(gè)很好的例子:只有醫(yī)生知道腫瘤在哪里。手動(dòng)注解圖像這個(gè)過程很耗時(shí),但是如果你想要一個(gè)定制化的AI,也沒有其他辦法。

正如我們所看到的,其實(shí)并沒有萬能方法,最常見的方案是創(chuàng)建我們自己任務(wù)特定的訓(xùn)練數(shù)據(jù),形成人工數(shù)據(jù),如果可能的話再整合到公共數(shù)據(jù)集中。這其中的關(guān)鍵是,你必須為特定的任務(wù)建立自己獨(dú)一無二的數(shù)據(jù)集。

讓我們深入學(xué)習(xí)來構(gòu)建深度學(xué)習(xí)

深度學(xué)習(xí)接近于數(shù)據(jù)匱乏,且其性能極度依賴于可供訓(xùn)練數(shù)據(jù)的數(shù)量。

通過實(shí)例我們可以看出標(biāo)注的過程有多困難。這里是標(biāo)注過程所花費(fèi)時(shí)間的一些原始數(shù)據(jù),例如使用Cityscapes數(shù)據(jù)集(用于無人駕駛),在對(duì)Cityscapes數(shù)據(jù)集中單個(gè)圖像的精細(xì)像素級(jí)的標(biāo)注平均需要花費(fèi)1.5h,如果標(biāo)注5000個(gè)圖像,則需要花費(fèi)5000*1.5=7500h。假設(shè)1h=$10(美國(guó)最低工資),那么僅僅是標(biāo)注該數(shù)據(jù)集就需要花費(fèi)約$7.5萬左右(不包括其他額外的成本)。同樣吃驚的是,像這樣一家擁有1000名做無人駕駛圖像標(biāo)注員工的公司,只不過是冰山一角。

神經(jīng)網(wǎng)絡(luò)能否幫助我們提高圖像標(biāo)注的效率呢?我們可不是第一個(gè)試圖回答這一問題的人。

半自動(dòng)化實(shí)例標(biāo)注很早就開始使用了, 有很多經(jīng)典的方法可提高標(biāo)注的效率,如超像素塊算法(Superpixels),分水嶺算法(Watershed),GrabCut分割算法等。近幾年,研究人員試圖用深度學(xué)習(xí)完成這一任務(wù)(link1, link2, link3),這些經(jīng)典的算法有很多缺陷,需要很多超參數(shù)對(duì)每一幅圖像進(jìn)行檢索,難以對(duì)結(jié)果進(jìn)行標(biāo)準(zhǔn)化和修正。最新的基于深度學(xué)習(xí)的成果要好很多,但在大多情況下這些成果是不開源的。我們是第一個(gè)為每個(gè)人提供基于AI的標(biāo)注工具的人,我們自己獨(dú)立設(shè)計(jì)了與上邊三個(gè)links概念類似的神經(jīng)網(wǎng)絡(luò)架構(gòu)。它有一個(gè)很大的優(yōu)勢(shì):我們的神經(jīng)網(wǎng)絡(luò)不需要對(duì)對(duì)象實(shí)例進(jìn)行分類。這就意味著,可以對(duì)行人、汽車、路面上的凹陷處、醫(yī)學(xué)影像上的腫瘤、室內(nèi)場(chǎng)景、食物成分、衛(wèi)星上的物體等等進(jìn)行分割。

那么,它是如何工作的呢?如下圖所示:

你只需要剪裁感興趣的對(duì)象,然后神經(jīng)網(wǎng)絡(luò)將會(huì)對(duì)其進(jìn)行分割。人機(jī)交互非常重要,你可以點(diǎn)擊圖像的內(nèi)部和外部標(biāo)簽進(jìn)行修正錯(cuò)誤。

語(yǔ)義分割是將圖像劃分為多個(gè)預(yù)定義語(yǔ)義類別的區(qū)域,與它不同的是,我們的交互式圖像分割旨在根據(jù)用戶的輸入提取其感興趣的對(duì)象。

交互式分割的主要目標(biāo)是根據(jù)用戶最少的操作,即可精確的提取對(duì)象以改善整體的用戶體驗(yàn),因此我們大大提高了標(biāo)注的效率。

這是我們的第一次嘗試,當(dāng)然在有些情況下,好的標(biāo)注依然會(huì)有缺陷。我們會(huì)不斷的提高質(zhì)量,并做出適用于領(lǐng)域適應(yīng)性的簡(jiǎn)單方法:在不編碼的情況下,為適應(yīng)內(nèi)部特定的任務(wù)自定義工具。

結(jié)語(yǔ)

數(shù)據(jù)是深度學(xué)習(xí)的關(guān)鍵,訓(xùn)練數(shù)據(jù)是費(fèi)時(shí)和高代價(jià)的。但是我們和深度學(xué)習(xí)的團(tuán)體積極嘗試著去解決訓(xùn)練數(shù)據(jù)的問題,并且成功的邁出了第一步,希望能夠在以后提供更好的解決方案。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7297

    瀏覽量

    93495
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5586

    瀏覽量

    123717

原文標(biāo)題:深度學(xué)習(xí)的核心:掌握訓(xùn)練數(shù)據(jù)的方法

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深度學(xué)習(xí)對(duì)工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學(xué)習(xí)作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu),能夠自動(dòng)從海量工業(yè)數(shù)據(jù)中提取復(fù)雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)
    的頭像 發(fā)表于 08-20 14:56 ?561次閱讀

    【書籍評(píng)測(cè)活動(dòng)NO.62】本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    DeepSeek-R1-Zero 的核心創(chuàng)新之一是采用 純強(qiáng)化學(xué)習(xí) (Reinforcement Learning,RL)進(jìn)行訓(xùn)練。這
    發(fā)表于 06-09 14:38

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場(chǎng)景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練
    發(fā)表于 04-28 11:11

    數(shù)據(jù)采集在AI行業(yè)的應(yīng)用分析

    人工智能(AI)作為21世紀(jì)最具革命性的技術(shù)之一,正在深刻改變各行各業(yè)。AI的核心驅(qū)動(dòng)力是數(shù)據(jù),而數(shù)據(jù)采集則是AI發(fā)展的基石。無論是機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 03-07 14:30 ?618次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    ),是種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進(jìn)行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、個(gè)或多個(gè)隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整網(wǎng)絡(luò)權(quán)重,目的是最小化網(wǎng)絡(luò)的輸出誤差。 二、深度
    的頭像 發(fā)表于 02-12 15:15 ?1201次閱讀

    GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計(jì)中的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動(dòng)技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)在深度學(xué)習(xí)中扮演著至關(guān)重要的角色,
    的頭像 發(fā)表于 11-19 10:55 ?1981次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為
    的頭像 發(fā)表于 11-14 15:17 ?2579次閱讀

    pcie在深度學(xué)習(xí)中的應(yīng)用

    深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算能力來訓(xùn)練。傳統(tǒng)的CPU計(jì)算資源有限,難以滿足深度學(xué)習(xí)
    的頭像 發(fā)表于 11-13 10:39 ?1680次閱讀

    深度學(xué)習(xí)模型的魯棒性優(yōu)化

    深度學(xué)習(xí)模型的魯棒性優(yōu)化是個(gè)復(fù)雜但至關(guān)重要的任務(wù),它涉及多個(gè)方面的技術(shù)和策略。以下是些關(guān)鍵的優(yōu)化方法: 、
    的頭像 發(fā)表于 11-11 10:25 ?1841次閱讀

    PyTorch GPU 加速訓(xùn)練模型方法

    深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為
    的頭像 發(fā)表于 11-05 17:43 ?1975次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練
    的頭像 發(fā)表于 10-28 14:05 ?908次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>訓(xùn)練</b>的方法

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是些GPU深度學(xué)習(xí)應(yīng)用案例: 、圖像識(shí)別 圖像識(shí)別是
    的頭像 發(fā)表于 10-27 11:13 ?1958次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的個(gè)熱門研究方向。以下是些FPGA加速深度
    的頭像 發(fā)表于 10-25 09:22 ?1552次閱讀

    AI大模型的訓(xùn)練數(shù)據(jù)來源分析

    AI大模型的訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI大模型訓(xùn)練數(shù)據(jù)來源的分析:
    的頭像 發(fā)表于 10-23 15:32 ?5446次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來進(jìn)行訓(xùn)練和推理。深度
    的頭像 發(fā)表于 10-23 15:25 ?3411次閱讀