chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

答疑解惑探討小樣本學習的最新進展

5b9O_deeplearni ? 來源:深度學習大講堂 ? 2020-05-12 10:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:深度學習和人類智能存在一個顯著差異,即人類擅長通過極少量的樣本識別新類別物體,而深度學習在此情況下很容易產(chǎn)生過擬合。因此,小樣本問題成為了機器學習領域中重要的研究方向之一。目前已有基于度量學習、語義信息以及數(shù)據(jù)增強等多種方法,而至于大小樣本的邊界、小樣本學習的方法論等問題還備受關注。在本文中,復旦大學付彥偉、上??萍即髮W何旭明、北京郵電大學馬占宇、中科院計算所王瑞平(按發(fā)言順序整理),將答疑解惑探討小樣本學習的最新進展。本文整理自VALSE Webinar 2019第29 期Panel。

議題1

小樣本 vs 大樣本,多“小”才算小,多“大”才算大?什么樣的情況下,需要專門設計“小樣本”學習算法?小樣本學習在智能體學習過程中如何和不同大小樣本的數(shù)據(jù)融合?如何在數(shù)據(jù)積累中過渡到大樣本學習?

付彥偉:這個問題很基礎也很有意思,我們其實做小樣本,一般都考慮每個類只有一個三個五個、或者十來個樣本,這種one-shot 、three-shot、five-shot情況。此外在深度學習之前,從partical learning這個角度來看其實有些問題可以借鑒,在統(tǒng)計學,小樣本學習不叫one-shot learning,而叫做smoothing probability,也就是小樣本可能還和特征維度有關系。假設你的特征維度是D的話,當樣本量小于logD,就算一個比較小的樣本。當然現(xiàn)在有深度學習了,我們可能并不會從這個角度去看。

至于什么樣的情況需要專門設計小 樣本學習算法,其實這是一個很實際或者很工業(yè)的問題,比如在醫(yī)療圖像處理中解決很罕見的病變,樣本量確實不夠,我們想去學一個分類器就只能根據(jù)這個數(shù)據(jù)去設計小樣本學習算法。

小樣本學習在智能體學習過程如何和不同大小樣本的數(shù)據(jù)融合,這其實有很多角度。比如李飛飛老師在 ICCV2003年的一篇文章,通過貝葉斯這條思路去融合;我們也可以和專家系統(tǒng),或者通過一些專家知識融合,甚至可以和不同的領域,比如vocabulary inference learning領域,通過NLP去學習一些語義字典幫助小樣本學習;如何在數(shù)據(jù)積累中過渡到大樣本學習,這有一個很典型的增量學習問題。

何旭明:從視覺概念的認知角度來看,小樣本的“大小”也體現(xiàn)在它與其他類別之間區(qū)分度的大小。即使有些類別樣本數(shù)量比較小,如果它和其他類別相似度較高,可以用很多先驗知識來幫助學習這些小樣本,因此也可以不算“小樣本”。如果碰到一個和其他類區(qū)別很大的類別,可能通常的學習就會變得非常困難,需要當作小樣本看待。

如果利用一些先驗知識能夠幫助學習小樣本類別,我覺得這種情況是可以設計相關算法的。但如果很難得到先驗知識,那無論什么設計也學不到有用信息。

針對如何從不同大小樣本中的數(shù)據(jù)融合問題,我認為可以從大樣本入手開始學習,然后擴展到小樣本。即使類別不同,如果有相關性的話,依然可以去借鑒大樣本統(tǒng)計上的一些規(guī)律來幫助小樣本學習。

最后,借鑒人類的學習過程來說,一開始可能是小樣本,然后不斷在數(shù)據(jù)積累和反饋機制下,可以獲得更新的數(shù)據(jù)。這樣可以把視覺概念的表征不斷地細化,最后能夠自然而然地就能過渡到大樣本。

馬占宇:關于如何與不同規(guī)模大小樣本的數(shù)據(jù)融合,我覺得還有一個不平衡的學習問題。即首先分清哪些類別樣本是小的,哪些類別是大的。這種情況下,不是簡簡單單真地把小樣本變大,或者是說把大樣本增強,理想的狀況是能夠在數(shù)據(jù)分布不平衡的情況下,去做一個比較好的分類器。

議題2

引入知識來彌補小樣本的數(shù)據(jù)不足是一個較為公認的趨勢,到底什么算是“知識”,有哪些形式?目前真正管用/好用的“知識”是什么,來自哪里?

王瑞平:現(xiàn)在模型能夠取得成功,基本上都是依賴數(shù)據(jù)驅動。在數(shù)據(jù)不足的情況下,尤其在零樣本學習(極端情況)里面,一定要利用語義的知識去輔助。到底什么算是“知識”,現(xiàn)在零樣本里面可能會用一些屬性的標注,包括一些類別在語義層面的相似性關系,都算比較底層的知識。從人類的認知角度來看,相關的知識庫和應用也可稱之為“知識”,這可能是一種更自然的方式。

那么目前真正管用或者是好用的“知識”有哪些?在零樣本和小樣本學習里面,大部分還是屬性、詞向量這種人類手工標注的語義描述,其實這種知識可擴展性比較差。我們不可能對所有類別標注它所需要的全部知識,將來更有實踐意義的,應該是從大量原始文本數(shù)據(jù)中進行類別相關的語義挖掘和提純,然后結合手工標注的屬性。這方面目前很大程度上仍受限于自然語言處理技術的發(fā)展,所以真正地用知識去彌補數(shù)據(jù)不足應該是可努力的方向。

何旭明:在一些特定專業(yè)領域里面標注是很困難的,比如醫(yī)學圖像分析。但是很多醫(yī)學學科已經(jīng)建立了比較完整的知識體系,因此充分利用這些專業(yè)的知識體系,可以幫助彌補數(shù)據(jù)匱乏的弱點。

付彥偉:從貝葉斯的角度,我們可以把知識當做一個先驗信息,把小樣本或者這些知識建模成一個分布,來幫助小樣本學習。甚至可能從圖形學模型的角度去思考,比如把一些領域的知識建模成一個ontology或者是一個圖形學模型。目前這方面還沒有探索得特別清楚,掌握知識其實是一個很基礎的問題。

議題3

在小樣本學習的實際場景中,數(shù)據(jù)量缺乏會帶來domain gap(域漂移)問題,怎么看待域漂移給小樣本學習帶來的挑戰(zhàn)?

馬占宇:我覺得域漂移和知識遷移都屬于跨域問題,從不同域之間這個層面上來定義比較好。所以說域漂移給小樣本學習帶來了挑戰(zhàn),也帶來了一些好處和機會,比如我們前面提到的跨模態(tài)、多模態(tài),可以把不同域之間的知識融合起來,最終進行小樣本學習。

議題4

什么樣的小樣本訓練數(shù)據(jù)集能夠產(chǎn)生較好的模型?

付彥偉:源數(shù)據(jù)和目標數(shù)據(jù)比較相近或者相似的時候,源數(shù)據(jù)上訓練的模型用于目標數(shù)據(jù)的小樣本學習,效果還是比較好的,如果差得比較大的話,其實還是有很大影響的,這個其實直接就和域漂移有很大關系。我們在做一些缺陷檢測時也會遇到很多類似的問題。

何旭明:在實用場景里面可以依據(jù)情況來考慮樣本選擇,依據(jù)問題賦予的靈活性分兩種情況:第一類問題,如果類別是可以選的,那就選擇和源數(shù)據(jù)比較近的樣本;第二類,如果類別是預規(guī)定好的,可以在每個類別通過數(shù)據(jù)選擇產(chǎn)生一些比較好的數(shù)據(jù)幫助訓練。

議題5

one-shot learning要解決的是僅有少量訓練數(shù)據(jù)時模型的過擬合問題么?那傳統(tǒng)解決過擬合的方法(如特征選取,正則化,提高訓練樣本多樣性等)如何體現(xiàn)在現(xiàn)有的one-shot方法中呢?

付彥偉:之前基本就是以上的傳統(tǒng)策略。但是有了深度學習之后,我們?nèi)绻挥眠w移學習,每個類5個訓練樣本來訓練一個學習器,可能就要考慮特征選擇、正則化這些問題。用深度學習的話,這個問題應該還是存在的,可能只是形式變了,我們采用batch normalization 或者instance normalization來進行正則化,特征選取可能也能對應得上。因為我們在深度學習中會隱含去做這些事情,比如說注意力機制本身也是一種特征選取。

何旭明:注意力機制實際上其實是在動態(tài)地特征選取。正則化的作用,除了BN,其實你的網(wǎng)絡模型設計就體現(xiàn)了對模型的約束;還有模型訓練的損失函數(shù)設計也體現(xiàn)了這點,比如添加額外的約束項。提高訓練樣本的多樣性的話,現(xiàn)在很多的趨勢,就是做feature augmentation(特征增廣)。

議題6

機器學習(深度學習)如今依賴海量數(shù)據(jù),樣本量過小容易過擬合,模型表達能力不足。但某些實際場景下樣本很難收集,應該如何處理這些問題,如何防止過擬合?

王瑞平:這應該就是小樣本學習的背景,小樣本和數(shù)據(jù)不平衡問題其實是共生的,實際生活當中這兩個問題是普遍存在的。從企業(yè)界的項目經(jīng)驗來看,通過數(shù)據(jù)增廣、相似類別之間的知識遷移、數(shù)據(jù)合成和domain adaptation(域自適應學習)。針對樣本類別之間的不平衡問題,可以做數(shù)據(jù)的合成或者分類器的合成。

馬占宇:樣本量過小導致的過擬合不僅是小樣本學習中面臨的問題。傳統(tǒng)機器學習里也同樣面臨這個問題,需要結合不同場景具體分析。

議題7

在小樣本學習中如何考慮任務之間的相關程度?如何在新領域的任務中應用小樣本學習方法?

何旭明:現(xiàn)在的很多假設任務是獨立同分布的,也就是從一個分布中采樣出獨立的任務。在這個假設下,很難去探索任務之間的相關度。在實際應用中,這個假設是比較強的,很多時候任務之間的確是有相關度的。那么或許最后會變成一個類似于多任務學習的問題設定。

議題8

零樣本學習中,輔助信息(屬性,詞向量,文本描述等)未來的發(fā)展趨勢是怎樣的?

付彥偉:無論圖像識別、自然語言處理還是其他領域,都可能會存在零樣本學習的問題。屬性和詞向量也有很多缺點,比如多義性,你說apple是apple公司還水果apple,這本身就有歧義性。

何旭明:如果利用這些輔助信息其中的內(nèi)在關聯(lián)建立起信息之間的聯(lián)系,就可能是一種有結構的知識圖譜。換個角度,因為這些屬性詞向量,就是知識表達的一個具體體現(xiàn),而背后的應該是整個的一個知識體系。

議題9

可解釋性學習能否促進零樣本學習的發(fā)展?

馬占宇:我先打一個比方,可能不太恰當。在信號處理領域里,我們接受到的是信號,然后從中獲取信息,最后又把信息提煉成知識,這個是不同層次,不同內(nèi)涵的事情。當然對于我們做視覺任務來說,也許就是圖像中尋找一些顯著區(qū)域,然后在該區(qū)域搜集某些特征、目標。因此,從這個角度講,可解釋性學習對零樣本的發(fā)展是有幫助的,但是目前如何促進以及結合知識,我覺得還是一個比較有挑戰(zhàn)或者開放的問題。

王瑞平:模型的可解釋性肯定能促進零樣本學習的發(fā)展,零樣本學習之所以能做,就是因為能夠去建立類別之間的關聯(lián),把所謂的已知類的語義信息遷移到未知類別上面。

類別通過什么關聯(lián)的呢?其實類別背后的根本是一些概念的組合,比如有沒有四條腿、皮毛、何種顏色等概念。那么如果能夠從已有分類模型中學習出來樣本和類別間的因果關系,并知道類別之間的差異何在,以及模型與概念的對應關系,試圖去解決零樣本和小樣本之間的問題,就能追溯到可遷移的根本所在。

付彥偉:深度學習的可解釋性可能更側重于特征的描述,零樣本學習最開始的一些工作,其實一直都是以可解釋性這個思路去做,就是把X映射到一個Y,Y是H的空間,后來我們又通過這種語義的可解釋性來做零樣本學習。如果單純地只是深度學習特征的可解釋性,就相當于怎么去更好地提取X,由X去構造零樣本學習.。

小結

正所謂“巧婦難為無米之炊”,在使用深度學習這一工具解決實際問題時,難免會遇到樣本不足的情況。而受人類快速學習能力的啟發(fā),研究人員希望機器學習模型能夠在習得一定類別數(shù)據(jù)后,只需少量樣本就可以學習新的類別,這就是小樣本學習(Few-shot Learning)要解決的問題。

“樣本量與特征維度的大小關系“、”樣本與其他類別的區(qū)分度”等因素,可能和大小樣本的界定有緊密關聯(lián)。小樣本學習可以同專家系統(tǒng)、自然語言處理等領域融合,并借助大樣本上的數(shù)據(jù)積累和一些反饋機制自然過渡到大樣本學習。雖然小樣本學習是人類學習的一個特長,但即便是人類,其本質上的學習也是基于大樣本的,它包括漫長的進化過程和多模態(tài)共生信息的影響,人類的“舉一反三”依舊是基于大數(shù)據(jù)和知識的轉化問題。因此,通過引入知識來彌補小樣本的數(shù)據(jù)不足是一個較為公認的趨勢。人類手工標注或者提取自大數(shù)據(jù)的語義描述、特定領域的知識體系都是可利用的“知識”。在實際應用中,小樣本和數(shù)據(jù)不平衡往往是共生的,通過數(shù)據(jù)增廣、相似類別之間的知識遷移、數(shù)據(jù)合成、結構化的知識圖譜、域自適應學習、借助模型的可解性等策略可提升小樣本學習性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4775

    瀏覽量

    97620
  • 小樣本
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6925
  • 深度學習
    +關注

    關注

    73

    文章

    5594

    瀏覽量

    124142

原文標題:小樣本學習,路在何方?【VALSE Webinar】

文章出處:【微信號:deeplearningclass,微信公眾號:深度學習大講堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    國芯科技DPNPU新IP產(chǎn)品最新進展,單核支持0.5~4.8TOPS靈活算力配置

    國芯科技DPNPU新IP產(chǎn)品 最新進展,單核支持0.5~4.8TOPS 靈活算力配置 ? 電子發(fā)燒友網(wǎng)綜合報道 國芯科技發(fā)布公告稱,其自主研發(fā)的神經(jīng)網(wǎng)絡處理器DPNPU(Dataflow
    的頭像 發(fā)表于 01-09 09:19 ?1689次閱讀
    國芯科技DPNPU新IP產(chǎn)品<b class='flag-5'>最新進展</b>,單核支持0.5~4.8TOPS靈活算力配置

    從協(xié)議到實踐——EtherNet/IP與NetStaX的最新進展

    從協(xié)議到實踐——EtherNet/IP與NetStaX的最新進展
    的頭像 發(fā)表于 12-19 15:26 ?1376次閱讀
    從協(xié)議到實踐——EtherNet/IP與NetStaX的<b class='flag-5'>最新進展</b>

    立訊精密披露在人形機器人領域的最新進展

    11月26日,立訊精密在最新的投資者關系活動記錄中披露了在人形機器人領域的最新進展。
    的頭像 發(fā)表于 12-03 14:50 ?938次閱讀

    芯科科技分享在物聯(lián)網(wǎng)領域的最新進展

    Labs(芯科科技)亞太區(qū)業(yè)務副總裁王祿銘、中國大陸區(qū)總經(jīng)理周巍及臺灣區(qū)總經(jīng)理寶陸格就公司技術路線、產(chǎn)品策略及市場趨勢回答了媒體提問。三位高管圍繞安全認證、無線連接、邊緣計算等議題,介紹了公司在物聯(lián)網(wǎng)領域的最新進展
    的頭像 發(fā)表于 11-13 10:48 ?1333次閱讀

    易控智駕與中科院端到端自動駕駛方案入選CoRL 2025

    近日,旨在分享和探討機器人技術與機器學習交叉領域最新進展的國際頂級機器人學習會議CoRL 2025 (Conference on Robot Learning)論文接收結果揭曉。
    的頭像 發(fā)表于 08-18 14:43 ?2258次閱讀
    易控智駕與中科院端到端自動駕駛方案入選CoRL 2025

    東風汽車轉型突破取得新進展

    上半年,東風汽車堅定高質量發(fā)展步伐,整體銷量逐月回升,經(jīng)營質量持續(xù)改善,自主品牌和新能源滲透率和收益性進一步提升,半年累計終端銷售汽車111.6萬輛,轉型突破取得新進展。
    的頭像 發(fā)表于 07-10 15:29 ?836次閱讀

    英特爾持續(xù)推進核心制程和先進封裝技術創(chuàng)新,分享最新進展

    近日,在2025英特爾代工大會上,英特爾展示了多代核心制程和先進封裝技術的最新進展,這些突破不僅體現(xiàn)了英特爾在技術開發(fā)領域的持續(xù)創(chuàng)新,也面向客戶需求提供了更高效、更靈活的解決方案。 在制程技術方面
    的頭像 發(fā)表于 05-09 11:42 ?776次閱讀
    英特爾持續(xù)推進核心制程和先進封裝技術創(chuàng)新,分享<b class='flag-5'>最新進展</b>

    百度在AI領域的最新進展

    近日,我們在武漢舉辦了Create2025百度AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百度在AI領域的新進展
    的頭像 發(fā)表于 04-30 10:14 ?1250次閱讀

    谷歌Gemini API最新進展

    體驗的 Live API 的最新進展,以及正式面向開發(fā)者開放的高質量視頻生成工具 Veo 2。近期,我們面向在 Google AI Studio 中使用 Gemini API 的開發(fā)者推出了許多不容錯過的重要更新,一起來看看吧。
    的頭像 發(fā)表于 04-12 16:10 ?1570次閱讀

    華為公布AI基礎設施架構突破性新進展

    近日,華為公司常務董事、華為云計算CEO張平安在華為云生態(tài)大會2025上公布了AI基礎設施架構突破性新進展——推出基于新型高速總線架構的CloudMatrix 384超節(jié)點集群,并宣布已在蕪湖數(shù)據(jù)中心規(guī)模上線。
    的頭像 發(fā)表于 04-12 15:09 ?1861次閱讀

    京東方華燦光電氮化鎵器件的最新進展

    日前,京東方華燦的氮化鎵研發(fā)總監(jiān)馬歡應半導體在線邀請,分享了關于氮化鎵器件的最新進展,引起了行業(yè)的廣泛關注。隨著全球半導體領域對高性能、高效率器件的需求不斷加大,氮化鎵(GaN)技術逐漸成為新一代電子器件的熱點,其優(yōu)越的性能使其在電源轉換和射頻應用中展現(xiàn)出巨大的潛力。
    的頭像 發(fā)表于 03-13 11:44 ?1579次閱讀

    翱捷科技在5G領域的最新產(chǎn)品進展

    近日,翱捷科技作為芯片企業(yè)代表受邀出席第42屆GTI WORKSHOP, 并分享關于RedCap芯片及產(chǎn)業(yè)化的最新進展。
    的頭像 發(fā)表于 03-04 11:51 ?1412次閱讀

    華大半導體與湖南大學成功舉辦SiC功率半導體技術研討會

    近日,華大半導體與湖南大學在上海舉辦SiC功率半導體技術研討會,共同探討SiC功率半導體在設計、制造、材料等領域的最新進展及挑戰(zhàn)。
    的頭像 發(fā)表于 02-28 17:33 ?1225次閱讀

    汽車結構件焊接技術進展與應用分析

    汽車結構件焊接技術的最新進展、應用現(xiàn)狀以及未來發(fā)展趨勢三個方面進行探討。 ### 汽車結構件焊接技術的最新進展 近年來,隨著輕量化設計要求的提高,高強度鋼、鋁合金
    的頭像 發(fā)表于 02-20 08:45 ?880次閱讀

    垂直氮化鎵器件的最新進展和可靠性挑戰(zhàn)

    過去兩年中,氮化鎵雖然發(fā)展迅速,但似乎已經(jīng)遇到了瓶頸。與此同時,不少垂直氮化鎵的初創(chuàng)企業(yè)倒閉或者賣盤,這引發(fā)大家對垂直氮化鎵未來的擔憂。為此,在本文中,我們先對氮化鎵未來的發(fā)展進行分析,并討論了垂直氮化鎵器件開發(fā)的最新進展以及相關的可靠性挑戰(zhàn)。
    的頭像 發(fā)表于 02-17 14:27 ?2084次閱讀
    垂直氮化鎵器件的<b class='flag-5'>最新進展</b>和可靠性挑戰(zhàn)