chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺新范式Transformer之ViT的成功

深度學(xué)習(xí)實戰(zhàn) ? 來源:深度學(xué)習(xí)實戰(zhàn) ? 作者:深度學(xué)習(xí)實戰(zhàn) ? 2021-02-24 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是一篇來自谷歌大腦的paper。這篇paper的主要成果是用Transformer[1]取代CNN,并證明了CNN不是必需的,甚至在大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練的基礎(chǔ)上在一些benchmarks做到了SOTA,并且訓(xùn)練時使用的資源更少。

圖像分塊

要將圖片分塊是因為Transformer是用于NLP領(lǐng)域的,在NLP里面,Transformer的輸入是一個序列,每個元素是一個word embedding。因此將Transformer用于圖像時也要找出word的概念,于是就有了這篇paper的title:AN IMAGE IS WORTH 16X16 WORDS,將一張圖片看成是16*16個“單詞”。

inductive biases

機器學(xué)習(xí)中,人們對算法做了各種的假設(shè),這些假設(shè)就是inductive biases(歸納偏置),例如卷積神經(jīng)網(wǎng)絡(luò)就有很強的inductive biases。文中做了一個實驗,在中等大小數(shù)據(jù)集訓(xùn)練時,精度會略遜色于ResNets。但是這個結(jié)果也是應(yīng)該預(yù)料到的,因為Transformer缺少了CNN固有的一些inductive biases,比如平移不變性和局部性。所以當(dāng)沒有足夠的數(shù)據(jù)用于訓(xùn)練時,你懂的。但是恰恰Transformer就強在這一點,由于Transformer運算效率更高,而且模型性能并沒有因為數(shù)據(jù)量的增大而飽和,至少目前是這樣的,就是說模型性能的上限很高,所以Transformer很適合訓(xùn)練大型的數(shù)據(jù)集。

ViT

20d8869e-74f8-11eb-8b86-12bb97331649.png

在ViT中,模型只有Encoder的,沒有Decoder,因為只是用于識別任務(wù),不需要Decoder。

首先按照慣例,先把圖像的patch映射成一個embedding,即圖中的linear projection層。然后加上position embedding,這里的position是1D的,因為按照作者的說法是在2D上并沒有性能上的提升。最后還要加上一個learnable classification token放在序列的前面,classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合,即Transformer的輸入不是原圖像的patch,而是經(jīng)過CNN得到的feature map的patch。

實驗結(jié)果

211198d0-74f8-11eb-8b86-12bb97331649.png

不同大小的ViT的參數(shù)量。

2159b7b4-74f8-11eb-8b86-12bb97331649.png

可以看到在預(yù)訓(xùn)練數(shù)據(jù)集很小的情況下ViT的效果并不好,但是好在隨著預(yù)訓(xùn)練數(shù)據(jù)集越大時ViT的效果越好,最終超過ResNet。

21979b1a-74f8-11eb-8b86-12bb97331649.png

BiT[2]是谷歌用JFT-300M(谷歌內(nèi)部非公開數(shù)據(jù)集)訓(xùn)練的ResNet模型。Noisy Student[3]是谷歌提出借助半監(jiān)督大大提升了imagenet性能的算法。可以看到,在JFT-300M預(yù)訓(xùn)練的情況下,ViT比ResNet好上不少,并且開銷更小。

總結(jié)

ViT的成功我認(rèn)為是以下幾點:

1、self-attention比CNN更容易捕捉long-range的信息;

2、大量的數(shù)據(jù),在視覺中CNN是人類實踐中很成功的inductive biases,顯然大量的數(shù)據(jù)是能戰(zhàn)勝inductive biases的;

3、計算效率高,因為self-attention可以看作是矩陣運算,所以效率很高,容易訓(xùn)練大型的模型。

原文標(biāo)題:視覺新范式Transformer之ViT

文章出處:【微信公眾號:深度學(xué)習(xí)實戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關(guān)注

    關(guān)注

    163

    文章

    4717

    瀏覽量

    124950
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8540

    瀏覽量

    136206
  • Transforme
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    8938

原文標(biāo)題:視覺新范式Transformer之ViT

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學(xué)習(xí)實戰(zhàn)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關(guān)鍵,同時可以將這些重要信息有效地關(guān)聯(lián)起來。
    的頭像 發(fā)表于 11-19 18:17 ?1864次閱讀

    自動駕駛中Transformer大模型會取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3895次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學(xué)習(xí)嗎?

    使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機控制軟件時,找不到對應(yīng)型號怎么解決?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機控制軟件時,找不到對應(yīng)型號只有745,如何解決,是否可以相似信號替代(如果可以的話有沒有說明手冊),或者有沒有其他手段解決。
    發(fā)表于 06-17 06:17

    MotorControl Workbench_6.3.2配置單片機時找不到STM32H743VIT6E,如何解決?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC電機控制軟件時,找不到對應(yīng)型號只有745,如何解決,是否可以相似信號替代(如果可以的話有沒有說明手冊),或者有沒有其他手段解決。
    發(fā)表于 06-16 07:03

    STM32H743VIT6用QSPI的接口,想換個CS的管腳,但芯片內(nèi)置是綁死的,這個要怎么處理?

    關(guān)于STM32H743VIT6 在用QSPI的接口,想換個CS的管腳,但芯片內(nèi)置是綁死的,這個要怎么處理,用個其他的IO口做片選
    發(fā)表于 06-11 08:02

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?809次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?906次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    ALVA空間智能視覺焊接方案重構(gòu)工業(yè)焊接范式

    在智能制造浪潮席卷全球的今天,焊接工藝作為制造業(yè)的核心環(huán)節(jié),正經(jīng)歷著從“經(jīng)驗驅(qū)動”向“數(shù)據(jù)驅(qū)動”的范式躍遷。
    的頭像 發(fā)表于 05-15 11:30 ?696次閱讀

    演講實錄丨阿丘科技李嘉悅:大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進化

    3月28日,由機器視覺產(chǎn)業(yè)聯(lián)盟(CMVU)主辦、慕尼黑展覽(上海)有限公司承辦的VisionChina2025(上海)機器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機器視覺及工業(yè)
    的頭像 發(fā)表于 04-02 16:21 ?992次閱讀
    演講實錄丨阿丘科技李嘉悅:大模型驅(qū)動的AI檢測<b class='flag-5'>范式</b>變革——大模型、小模型、智能體的協(xié)同進化

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺TransformerViT)。 語言模型 :處理文本輸入/輸出,如GPT、BE
    的頭像 發(fā)表于 03-17 15:32 ?7494次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言模型)?詳細解析

    使用stm32u575vit6時應(yīng)該是使用lqfp100的引腳順序還是lqfp100-smps的引腳順序?

    在使用stm32u575vit6時應(yīng)該是使用lqfp100的引腳順序還是lqfp100-smps的引腳順序我適應(yīng)的lqfp100的引腳順序上電電流有700多ma,3.3v不短路,拆掉芯片電流一點幾
    發(fā)表于 03-11 06:29

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計初衷是為了解決自然語言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5703次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    地平線ViG基于視覺Mamba的通用視覺主干網(wǎng)絡(luò)

    Vision Mamba的成功預(yù)示著將視覺表征學(xué)習(xí)轉(zhuǎn)換為線性復(fù)雜度視覺序列表征學(xué)習(xí)具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺序列表征學(xué)習(xí)結(jié)構(gòu)在高清圖像上展示了顯著的
    的頭像 發(fā)表于 01-08 09:33 ?918次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網(wǎng)絡(luò)

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統(tǒng)治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT中的“T”)的專用芯片。 將transformer
    的頭像 發(fā)表于 01-06 09:13 ?1660次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    知行科技大模型研發(fā)體系初見效果

    11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預(yù)訓(xùn)練ViT(視覺
    的頭像 發(fā)表于 12-27 09:38 ?899次閱讀
    知行科技大模型研發(fā)體系初見效果