chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展

機(jī)器視覺 ? 來(lái)源:CSDN ? 作者:xtyang315 ? 2022-05-13 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)

二、深度語(yǔ)義學(xué)習(xí) (Xiaodong He)

三、深度神經(jīng)網(wǎng)絡(luò)GPU(Julie Bernauer)

四、深度視覺Keynote(Rahul Sukthankar)

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

六、用于目標(biāo)檢測(cè)的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

一直自稱研究方向是“機(jī)器視覺、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)”,然而除了做過(guò)幾個(gè)相關(guān)的項(xiàng)目以外,感覺自己對(duì)這個(gè)領(lǐng)域并沒有足夠深入的認(rèn)識(shí)和理解。趁著這個(gè)假期我要好好補(bǔ)補(bǔ)課了。今天先來(lái)看一些high level的內(nèi)容,看看深度學(xué)習(xí)近期的最近進(jìn)展以及其在機(jī)器視覺問(wèn)題中的應(yīng)用。學(xué)習(xí)資料來(lái)源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應(yīng)用、實(shí)現(xiàn)等方面的內(nèi)容,應(yīng)該是干貨滿滿的。對(duì)于每一個(gè)talk,我會(huì)把內(nèi)容框架記錄下來(lái)(可以check一下對(duì)這些點(diǎn)是否有一定了解?),并記下一些個(gè)人覺得有趣的點(diǎn)。

一、深度學(xué)習(xí):理論和關(guān)注機(jī)制的進(jìn)展(Yoshua Bengio)

顧名思義,Bengio的talk主要講了兩個(gè)部分:理論進(jìn)展和attention mechanism。理論進(jìn)展介紹了:

分布式表示的“指數(shù)級(jí)”優(yōu)點(diǎn)

深度的“指數(shù)級(jí)”優(yōu)點(diǎn)

非凸優(yōu)化和局部最小值

編碼器的概率解釋

Attention 機(jī)制則介紹了在機(jī)器翻譯、語(yǔ)音、圖像、視頻和記憶單元中的應(yīng)用。

分布式表示和深度的優(yōu)點(diǎn)Bengio之前的talk里已經(jīng)講過(guò)不少次了。簡(jiǎn)單的說(shuō),雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經(jīng)網(wǎng)絡(luò)也可近似任意的函數(shù),但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達(dá)到exponentially more statistically efficient的效果。

接下來(lái)提到了在深度學(xué)習(xí)中凸性質(zhì)(convexity)可能并不是必要的。因?yàn)樵诟呔S空間中,鞍點(diǎn)(saddle point)的存在是主要問(wèn)題,而局部最小值通常都會(huì)很接近全局最小值了。這部分的內(nèi)容比較陌生,有興趣可以看看最近的論文。

Attention 機(jī)制方面,講了很多最新的進(jìn)展。有很多相關(guān)的paper都非常有趣,我要找個(gè)時(shí)間好好看看這個(gè)系列了。一個(gè)基本的思路是:我們給每一層引入一個(gè)額外的輸入,這個(gè)輸入反應(yīng)的是之前的一個(gè)加權(quán),來(lái)表示它們的關(guān)注程度。在所謂的soft-attention中,這個(gè)加權(quán)的值可以直接通過(guò)BP訓(xùn)練得到。記下幾句有趣的話:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語(yǔ)義學(xué)習(xí) (Xiaodong He)

來(lái)自微軟研究院的報(bào)告,主要內(nèi)容:

學(xué)習(xí)文本的語(yǔ)義性(semantic)表示

知識(shí)庫(kù)和問(wèn)答系統(tǒng)

多模態(tài)(圖片——文本)語(yǔ)義模型

講座開始引入了一點(diǎn)有趣的motivation:一般我們測(cè)試機(jī)器是否能夠理解圖片(其實(shí)就是訓(xùn)練對(duì)了),方法是給圖片標(biāo)記標(biāo)簽然后計(jì)算其錯(cuò)誤率。然而對(duì)于含有豐富內(nèi)容的復(fù)雜場(chǎng)景來(lái)說(shuō),很難定義所有fine-grained的類別。因此,用自然語(yǔ)言的描述來(lái)測(cè)試對(duì)圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標(biāo)記一個(gè)句子的語(yǔ)義,但我們知道哪些句子的語(yǔ)義是比較接近的,因此文章通過(guò)優(yōu)化一個(gè)基于相似性的目標(biāo)函數(shù)來(lái)訓(xùn)練模型,使具有相近語(yǔ)義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細(xì)節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。

Deep Multimodal Similarity Model (DMSM):將目標(biāo)函數(shù)中兩個(gè)句子的相似性改成句子和圖片的相似性,便可以將DSSM擴(kuò)展為一個(gè)多模態(tài)的模型。

09c15960-d260-11ec-bce3-dac502259ad0.png

MSR系統(tǒng)解決圖片–>語(yǔ)言問(wèn)題:

圖片詞語(yǔ)檢測(cè)(Image word detection)

句子生成(Language generation)

全局語(yǔ)義性重排序(Global semantic re-ranking)

其中圖片詞語(yǔ)檢測(cè)用了CNN+MIL(Multiple Instance Learning)的方法,個(gè)人對(duì)此比較感興趣,文章在此。

三、深度神經(jīng)網(wǎng)絡(luò)和GPU(Julie Bernauer)

換個(gè)口味,我們來(lái)看看NVIDIA關(guān)于深度學(xué)習(xí)和GPU的結(jié)合??偟膩?lái)說(shuō),內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學(xué)習(xí)的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫(kù)和工具。

一張比較好的圖:

09e39f02-d260-11ec-bce3-dac502259ad0.png

有用的工具:

Lasagne:基于theano上的開源庫(kù),能方便搭建一個(gè)深度網(wǎng)絡(luò)。(Keras用得不太爽,可以試試這個(gè))

四、深度視覺Keynote(Rahul Sukthankar)

來(lái)看看來(lái)自google的報(bào)告。這個(gè)talk里面的內(nèi)容都不太熟悉,但是看起來(lái)都非常有意思。主要內(nèi)容有:

用Peer Presssure方法來(lái)找high value mistake

結(jié)合深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法來(lái)更好解決視覺問(wèn)題

首先來(lái)看看Peer Pressure。這是Rahul組最近的一個(gè)工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認(rèn)為訓(xùn)練好的模型可以準(zhǔn)確預(yù)測(cè)的樣本,結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對(duì)的樣子。

從頭說(shuō)起,深度神經(jīng)網(wǎng)絡(luò)雖然有很多成功的應(yīng)用,但同時(shí)也被發(fā)現(xiàn)很容易犯愚蠢的錯(cuò)誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對(duì)抗訓(xùn)練(emsembles+adversarial training)的方法,來(lái)找到這些錯(cuò)誤。簡(jiǎn)單來(lái)說(shuō)就是,有一組訓(xùn)練于同樣數(shù)據(jù)但是初始化或者結(jié)構(gòu)不同的NN分類器(稱作peers),如果一個(gè)樣本出現(xiàn)其中一個(gè)NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應(yīng)該就是high-value mistake。尋找這類錯(cuò)誤當(dāng)然是有價(jià)值的啦:(1)它可以用在發(fā)掘無(wú)標(biāo)簽的數(shù)據(jù)中(2)可以用來(lái)合成新的hard positive樣本。

接下來(lái)提到將上述的方法應(yīng)用到視頻當(dāng)中,找出anchor frame附近的hard positive 幀,用來(lái)訓(xùn)練更好的模型。其中具有semantic consistency的幀是通過(guò)Dense Trajectory來(lái)確定的。感覺挺有意思,可惜沒找到相應(yīng)的paper,那就上張圖吧。

0a499e56-d260-11ec-bce3-dac502259ad0.png

五、學(xué)習(xí)和理解視覺表示(Andrea Vedaldi)

來(lái)自牛津大學(xué)的報(bào)告,題目看起來(lái)還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):

黑盒:一個(gè)將CNN用于圖片文字識(shí)別的例子

架構(gòu):卷積和紋理

可視化:CNN所知道的圖片

性質(zhì):對(duì)比CNN和視覺幾何

第一個(gè)例子用CNN做OCR,感覺并不是很有趣。一個(gè)challenge是它的類別特別多(90k個(gè)類,對(duì)應(yīng)90k個(gè)單詞)。他們解決的辦法是增量地訓(xùn)練網(wǎng)絡(luò),即先只訓(xùn)練5k個(gè)類,再逐步添加5k個(gè)新的類。。。效果好像還不錯(cuò)。

第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來(lái)做,效果不錯(cuò)不錯(cuò)的。

第三部分可視化,看看就好。

第四部分還不錯(cuò),講的是圖像變換對(duì)特征表示的影響。除去語(yǔ)義層面上的影響(特征的不變性跟任務(wù)相關(guān)),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉(zhuǎn)和仿射變換。

類內(nèi)差異大,包括:部分出現(xiàn)(part existence)、顏色、遮擋、變形

0a68b372-d260-11ec-bce3-dac502259ad0.png

0ac6f1c6-d260-11ec-bce3-dac502259ad0.png

六、用于目標(biāo)檢測(cè)的可變深度卷積神經(jīng)網(wǎng)絡(luò)(Xiaogang Wang)

最后一個(gè)talk,講的是我最近比較關(guān)注的目標(biāo)檢測(cè)問(wèn)題,主要介紹他們的DeepID-Net。

第一部分他們的工作,用深度學(xué)習(xí)進(jìn)行行人識(shí)別。其中著重講了通過(guò)設(shè)計(jì)大小可變的卷積核來(lái)實(shí)現(xiàn)部分檢測(cè)器(Part detector),對(duì)于行人識(shí)別應(yīng)該是重要的一部分。

第二部分講更general的目標(biāo)檢測(cè)問(wèn)題。首先介紹目標(biāo)檢測(cè)的困難有(經(jīng)篩選):

對(duì)比了他們的DeepID-Net和RCNN:

0b03452c-d260-11ec-bce3-dac502259ad0.png

后面詳細(xì)的介紹了他們模型的每個(gè)環(huán)節(jié)。總體來(lái)說(shuō),感覺每個(gè)環(huán)節(jié)都比較tricky,暫時(shí)也看不到有什么insight,故先略過(guò)了。之后專門研究object detection時(shí)可能還會(huì)重新看看他們的工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺
    +關(guān)注

    關(guān)注

    163

    文章

    4597

    瀏覽量

    122912
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122797

原文標(biāo)題:學(xué)習(xí)筆記 ——深度學(xué)習(xí)和機(jī)器視覺

文章出處:【微信號(hào):www_51qudong_com,微信公眾號(hào):機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    當(dāng)深度學(xué)習(xí)遇上嵌入式資源困境,特征空間如何破局?

    多層神經(jīng)網(wǎng)絡(luò)的非線性變換擬合規(guī)律,理論上幾乎可以描述和模擬一切規(guī)律,但實(shí)際上該過(guò)程效率極低 —— 其計(jì)算復(fù)雜度往往呈指數(shù)級(jí)增長(zhǎng)。這一特性使得深度學(xué)習(xí)與端側(cè)設(shè)備的資源約束存在根本性矛盾,導(dǎo)致其在端側(cè) AI 實(shí)施過(guò)程中屢屢碰壁。 ?
    發(fā)表于 07-14 14:50 ?700次閱讀
    當(dāng)<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>遇上嵌入式資源困境,特征空間如何破局?

    廠家芯資訊|WTK6900系列語(yǔ)音識(shí)別芯片自學(xué)習(xí)功能深度答疑

    在智能硬件全面擁抱語(yǔ)音交互的時(shí)代,廣州唯創(chuàng)電子WTK6900系列芯片憑借其獨(dú)特的離線自學(xué)習(xí)能力,已成為智能家居、工業(yè)控制等領(lǐng)域的核心交互模塊。本文針對(duì)實(shí)際應(yīng)用中的高頻問(wèn)題,深度解析故障排除方法與優(yōu)化
    的頭像 發(fā)表于 03-20 09:13 ?355次閱讀
    廠家芯資訊|WTK6900系列語(yǔ)音識(shí)別芯片自<b class='flag-5'>學(xué)習(xí)</b>功能<b class='flag-5'>深度</b>答疑

    如何排除深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?的特定層?

    無(wú)法確定如何排除要在深度學(xué)習(xí)工作臺(tái)上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇

    人工智能尤其是深度學(xué)習(xí)技術(shù)的最新進(jìn)展,加速了不同應(yīng)用領(lǐng)域的創(chuàng)新與發(fā)展。深度學(xué)習(xí)技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢(shì),導(dǎo)致戰(zhàn)爭(zhēng)形式和模式發(fā)生重大變
    的頭像 發(fā)表于 02-14 11:15 ?539次閱讀

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系

    BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)之間存在著密切的關(guān)系,以下是對(duì)它們之間關(guān)系的介紹: 一、BP神經(jīng)網(wǎng)絡(luò)的基本概念 BP神經(jīng)網(wǎng)絡(luò),即反向傳播神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network
    的頭像 發(fā)表于 02-12 15:15 ?863次閱讀

    深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習(xí)近年來(lái)在多個(gè)領(lǐng)域取得了顯著的進(jìn)展,尤其是在圖像識(shí)別、語(yǔ)音識(shí)別和自然語(yǔ)言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)分支,因其在圖像處理
    的頭像 發(fā)表于 11-15 14:52 ?846次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1918次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?658次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的方法

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1381次閱讀

    激光雷達(dá)技術(shù)的基于深度學(xué)習(xí)的進(jìn)步

    信息。這使得激光雷達(dá)在自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用前景。 二、深度學(xué)習(xí)技術(shù)的發(fā)展 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它通過(guò)模擬人
    的頭像 發(fā)表于 10-27 10:57 ?1070次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門研究方向。以下是一些FPGA加速深度學(xué)習(xí)模型的案例: 一、基于FPGA的AlexNet卷積運(yùn)算加速 項(xiàng)目名稱
    的頭像 發(fā)表于 10-25 09:22 ?1235次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2897次閱讀

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?615次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    ,共同進(jìn)步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問(wèn)題(一) Q:FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?現(xiàn)在用FPGA做深度學(xué)習(xí)加速成為一個(gè)熱門,深鑒科技,商湯,曠視科技等都有基于FPG
    發(fā)表于 09-27 20:53

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大語(yǔ)言模型涉及以下幾個(gè)過(guò)程: 數(shù)據(jù)收集:大語(yǔ)言模型通過(guò)從互聯(lián)網(wǎng)、書籍、新聞、社交媒體等多種渠道
    發(fā)表于 08-02 11:03