chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習:理論和關注機制的進展

機器視覺 ? 來源:CSDN ? 作者:xtyang315 ? 2022-05-13 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、深度學習:理論和關注機制的進展(Yoshua Bengio)

二、深度語義學習 (Xiaodong He)

三、深度神經(jīng)網(wǎng)絡GPU(Julie Bernauer)

四、深度視覺Keynote(Rahul Sukthankar)

五、學習和理解視覺表示(Andrea Vedaldi)

六、用于目標檢測的可變深度卷積神經(jīng)網(wǎng)絡(Xiaogang Wang)

一直自稱研究方向是“機器視覺、機器學習和深度學習”,然而除了做過幾個相關的項目以外,感覺自己對這個領域并沒有足夠深入的認識和理解。趁著這個假期我要好好補補課了。今天先來看一些high level的內(nèi)容,看看深度學習近期的最近進展以及其在機器視覺問題中的應用。學習資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應用、實現(xiàn)等方面的內(nèi)容,應該是干貨滿滿的。對于每一個talk,我會把內(nèi)容框架記錄下來(可以check一下對這些點是否有一定了解?),并記下一些個人覺得有趣的點。

一、深度學習:理論和關注機制的進展(Yoshua Bengio)

顧名思義,Bengio的talk主要講了兩個部分:理論進展和attention mechanism。理論進展介紹了:

分布式表示的“指數(shù)級”優(yōu)點

深度的“指數(shù)級”優(yōu)點

非凸優(yōu)化和局部最小值

編碼器的概率解釋

Attention 機制則介紹了在機器翻譯、語音、圖像、視頻和記憶單元中的應用。

分布式表示和深度的優(yōu)點Bengio之前的talk里已經(jīng)講過不少次了。簡單的說,雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經(jīng)網(wǎng)絡也可近似任意的函數(shù),但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達到exponentially more statistically efficient的效果。

接下來提到了在深度學習中凸性質(zhì)(convexity)可能并不是必要的。因為在高維空間中,鞍點(saddle point)的存在是主要問題,而局部最小值通常都會很接近全局最小值了。這部分的內(nèi)容比較陌生,有興趣可以看看最近的論文。

Attention 機制方面,講了很多最新的進展。有很多相關的paper都非常有趣,我要找個時間好好看看這個系列了。一個基本的思路是:我們給每一層引入一個額外的輸入,這個輸入反應的是之前的一個加權,來表示它們的關注程度。在所謂的soft-attention中,這個加權的值可以直接通過BP訓練得到。記下幾句有趣的話:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語義學習 (Xiaodong He)

來自微軟研究院的報告,主要內(nèi)容:

學習文本的語義性(semantic)表示

知識庫和問答系統(tǒng)

多模態(tài)(圖片——文本)語義模型

講座開始引入了一點有趣的motivation:一般我們測試機器是否能夠理解圖片(其實就是訓練對了),方法是給圖片標記標簽然后計算其錯誤率。然而對于含有豐富內(nèi)容的復雜場景來說,很難定義所有fine-grained的類別。因此,用自然語言的描述來測試對圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標記一個句子的語義,但我們知道哪些句子的語義是比較接近的,因此文章通過優(yōu)化一個基于相似性的目標函數(shù)來訓練模型,使具有相近語義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。

Deep Multimodal Similarity Model (DMSM):將目標函數(shù)中兩個句子的相似性改成句子和圖片的相似性,便可以將DSSM擴展為一個多模態(tài)的模型。

09c15960-d260-11ec-bce3-dac502259ad0.png

MSR系統(tǒng)解決圖片–>語言問題:

圖片詞語檢測(Image word detection)

句子生成(Language generation)

全局語義性重排序(Global semantic re-ranking)

其中圖片詞語檢測用了CNN+MIL(Multiple Instance Learning)的方法,個人對此比較感興趣,文章在此。

三、深度神經(jīng)網(wǎng)絡和GPU(Julie Bernauer)

換個口味,我們來看看NVIDIA關于深度學習和GPU的結(jié)合??偟膩碚f,內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學習的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫和工具。

一張比較好的圖:

09e39f02-d260-11ec-bce3-dac502259ad0.png

有用的工具:

Lasagne:基于theano上的開源庫,能方便搭建一個深度網(wǎng)絡。(Keras用得不太爽,可以試試這個)

四、深度視覺Keynote(Rahul Sukthankar)

來看看來自google的報告。這個talk里面的內(nèi)容都不太熟悉,但是看起來都非常有意思。主要內(nèi)容有:

用Peer Presssure方法來找high value mistake

結(jié)合深度學習和其他機器學習方法來更好解決視覺問題

首先來看看Peer Pressure。這是Rahul組最近的一個工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認為訓練好的模型可以準確預測的樣本,結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對的樣子。

從頭說起,深度神經(jīng)網(wǎng)絡雖然有很多成功的應用,但同時也被發(fā)現(xiàn)很容易犯愚蠢的錯誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對抗訓練(emsembles+adversarial training)的方法,來找到這些錯誤。簡單來說就是,有一組訓練于同樣數(shù)據(jù)但是初始化或者結(jié)構不同的NN分類器(稱作peers),如果一個樣本出現(xiàn)其中一個NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應該就是high-value mistake。尋找這類錯誤當然是有價值的啦:(1)它可以用在發(fā)掘無標簽的數(shù)據(jù)中(2)可以用來合成新的hard positive樣本。

接下來提到將上述的方法應用到視頻當中,找出anchor frame附近的hard positive 幀,用來訓練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思,可惜沒找到相應的paper,那就上張圖吧。

0a499e56-d260-11ec-bce3-dac502259ad0.png

五、學習和理解視覺表示(Andrea Vedaldi)

來自牛津大學的報告,題目看起來還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):

黑盒:一個將CNN用于圖片文字識別的例子

架構:卷積和紋理

可視化:CNN所知道的圖片

性質(zhì):對比CNN和視覺幾何

第一個例子用CNN做OCR,感覺并不是很有趣。一個challenge是它的類別特別多(90k個類,對應90k個單詞)。他們解決的辦法是增量地訓練網(wǎng)絡,即先只訓練5k個類,再逐步添加5k個新的類。。。效果好像還不錯。

第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來做,效果不錯不錯的。

第三部分可視化,看看就好。

第四部分還不錯,講的是圖像變換對特征表示的影響。除去語義層面上的影響(特征的不變性跟任務相關),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉(zhuǎn)和仿射變換。

類內(nèi)差異大,包括:部分出現(xiàn)(part existence)、顏色、遮擋、變形

0a68b372-d260-11ec-bce3-dac502259ad0.png

0ac6f1c6-d260-11ec-bce3-dac502259ad0.png

六、用于目標檢測的可變深度卷積神經(jīng)網(wǎng)絡(Xiaogang Wang)

最后一個talk,講的是我最近比較關注的目標檢測問題,主要介紹他們的DeepID-Net。

第一部分他們的工作,用深度學習進行行人識別。其中著重講了通過設計大小可變的卷積核來實現(xiàn)部分檢測器(Part detector),對于行人識別應該是重要的一部分。

第二部分講更general的目標檢測問題。首先介紹目標檢測的困難有(經(jīng)篩選):

對比了他們的DeepID-Net和RCNN:

0b03452c-d260-11ec-bce3-dac502259ad0.png

后面詳細的介紹了他們模型的每個環(huán)節(jié)??傮w來說,感覺每個環(huán)節(jié)都比較tricky,暫時也看不到有什么insight,故先略過了。之后專門研究object detection時可能還會重新看看他們的工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關注

    關注

    163

    文章

    4717

    瀏覽量

    124952
  • 深度學習
    +關注

    關注

    73

    文章

    5589

    瀏覽量

    123883

原文標題:學習筆記 ——深度學習和機器視覺

文章出處:【微信號:www_51qudong_com,微信公眾號:機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業(yè)制造領域 復雜缺陷檢測:處理傳統(tǒng)算法難以描述的非標準化缺陷模式 非標產(chǎn)品分類:對形狀、顏色、紋理多變的產(chǎn)品進行智能分類 外觀質(zhì)量評估:基于學習的外觀質(zhì)量標準判定 精密
    的頭像 發(fā)表于 11-27 10:19 ?28次閱讀

    如何在機器視覺中部署深度學習神經(jīng)網(wǎng)絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經(jīng)常會出現(xiàn)“神經(jīng)網(wǎng)絡”、“黑箱”、“標注”等術語。這些概
    的頭像 發(fā)表于 09-10 17:38 ?666次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經(jīng)網(wǎng)絡

    深度學習對工業(yè)物聯(lián)網(wǎng)有哪些幫助

    深度學習作為人工智能的核心分支,通過模擬人腦神經(jīng)網(wǎng)絡的層級結(jié)構,能夠自動從海量工業(yè)數(shù)據(jù)中提取復雜特征,為工業(yè)物聯(lián)網(wǎng)(IIoT)提供了從數(shù)據(jù)感知到智能決策的全鏈路升級能力。以下從技術賦能、場景突破
    的頭像 發(fā)表于 08-20 14:56 ?740次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現(xiàn),“Transformer架構是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3896次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    上海光機所在激光燒蝕曲面元件理論研究中取得新進展

    圖1 激光燒蝕曲面元件示意圖 近期,中國科學院上海光學精密機械研究所高功率激光元件技術與工程部魏朝陽研究員團隊,在激光燒蝕曲面元件理論研究中取得新進展。研究首次闡明激光燒蝕過程中曲面元件對形貌
    的頭像 發(fā)表于 07-15 09:58 ?405次閱讀
    上海光機所在激光燒蝕曲面元件<b class='flag-5'>理論</b>研究中取得新<b class='flag-5'>進展</b>

    深度學習遇上嵌入式資源困境,特征空間如何破局?

    多層神經(jīng)網(wǎng)絡的非線性變換擬合規(guī)律,理論上幾乎可以描述和模擬一切規(guī)律,但實際上該過程效率極低 —— 其計算復雜度往往呈指數(shù)級增長。這一特性使得深度學習與端側(cè)設備的資源約束存在根本性矛盾,導致其在端側(cè) AI 實施過程中屢屢碰壁。 ?
    發(fā)表于 07-14 14:50 ?1092次閱讀
    當<b class='flag-5'>深度</b><b class='flag-5'>學習</b>遇上嵌入式資源困境,特征空間如何破局?

    中國科學院西安光機所在計算成像可解釋性深度學習重建方法取得進展

    圖1 MDFP-Net網(wǎng)絡結(jié)構 近日,中國科學院西安光機所空間光學技術研究室在計算成像可解釋性深度學習重建方法研究取得創(chuàng)新性進展。相關研究成果發(fā)表于計算機視覺與圖形學領域國際著名期刊
    的頭像 發(fā)表于 06-09 09:27 ?499次閱讀
    中國科學院西安光機所在計算成像可解釋性<b class='flag-5'>深度</b><b class='flag-5'>學習</b>重建方法取得<b class='flag-5'>進展</b>

    深度學習賦能:正面吊車載箱號識別系統(tǒng)的核心技術

    支撐。 深度學習驅(qū)動的智能識別 傳統(tǒng)OCR技術易受光線、污損或箱體圖案干擾,而新一代識別系統(tǒng)通過深度卷積神經(jīng)網(wǎng)絡(CNN)和注意力機制,實現(xiàn)了復雜場景下的高精度動態(tài)識別: - 抗干擾優(yōu)
    的頭像 發(fā)表于 05-07 10:10 ?414次閱讀

    嵌入式AI技術之深度學習:數(shù)據(jù)樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經(jīng)網(wǎng)絡實現(xiàn)機器學習,網(wǎng)絡的每個層都將對輸入的數(shù)據(jù)做一次抽象,多層神經(jīng)網(wǎng)絡構成深度學習的框架,可以深度理解數(shù)據(jù)中所要表示的規(guī)律。從原理上看,使用
    的頭像 發(fā)表于 04-02 18:21 ?1265次閱讀

    廠家芯資訊|WTK6900系列語音識別芯片自學習功能深度答疑

    在智能硬件全面擁抱語音交互的時代,廣州唯創(chuàng)電子WTK6900系列芯片憑借其獨特的離線自學習能力,已成為智能家居、工業(yè)控制等領域的核心交互模塊。本文針對實際應用中的高頻問題,深度解析故障排除方法與優(yōu)化
    的頭像 發(fā)表于 03-20 09:13 ?637次閱讀
    廠家芯資訊|WTK6900系列語音識別芯片自<b class='flag-5'>學習</b>功能<b class='flag-5'>深度</b>答疑

    如何排除深度學習工作臺上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學習工作臺上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    深度解讀 30KPA64A 單向 TVS:64V 擊穿機制與高效防護策略

    深度解讀 30KPA64A 單向 TVS:64V 擊穿機制與高效防護策略
    的頭像 發(fā)表于 02-24 13:52 ?600次閱讀
    <b class='flag-5'>深度</b>解讀 30KPA64A 單向 TVS:64V 擊穿<b class='flag-5'>機制</b>與高效防護策略

    軍事應用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術的最新進展,加速了不同應用領域的創(chuàng)新與發(fā)展。深度學習技術的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變
    的頭像 發(fā)表于 02-14 11:15 ?810次閱讀

    BP神經(jīng)網(wǎng)絡與深度學習的關系

    BP神經(jīng)網(wǎng)絡與深度學習之間存在著密切的關系,以下是對它們之間關系的介紹: 一、BP神經(jīng)網(wǎng)絡的基本概念 BP神經(jīng)網(wǎng)絡,即反向傳播神經(jīng)網(wǎng)絡(Backpropagation Neural Network
    的頭像 發(fā)表于 02-12 15:15 ?1323次閱讀

    AI自動化生產(chǎn):深度學習在質(zhì)量控制中的應用

    隨著科技的飛速發(fā)展,人工智能(AI)與深度學習技術正逐步滲透到各個行業(yè),特別是在自動化生產(chǎn)中,其潛力與價值愈發(fā)凸顯。深度學習軟件不僅使人工和基于規(guī)則的算法難以勝任的大量生產(chǎn)任務得以自動
    的頭像 發(fā)表于 01-17 16:35 ?1199次閱讀
    AI自動化生產(chǎn):<b class='flag-5'>深度</b><b class='flag-5'>學習</b>在質(zhì)量控制中的應用