chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀CV架構(gòu)回歸多層感知機;自動生成模型動畫

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:機器之心 ? 作者:機器之心 ? 2021-05-13 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本周的重要論文包括來自谷歌大腦的研究團隊提出了一種舍棄卷積和自注意力且完全使用多層感知機(MLP)的視覺網(wǎng)絡(luò)架構(gòu),在 ImageNet 數(shù)據(jù)集上實現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn);清華大學圖形學實驗室 Jittor 團隊提出了一種新的注意機制,通過控制記憶單元的大小,External-attention 可以輕松實現(xiàn)線性的復雜度等研究。

論文 1:MLP-Mixer: An all-MLP Architecture for Vision

摘要:計算機視覺的發(fā)展史證明,規(guī)模更大的數(shù)據(jù)集加上更強的計算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為計算機視覺領(lǐng)域的標準,但最近一段時間,基于自注意力層的替代方法 Vision Transformer(ViT)實現(xiàn)新的 SOTA 性能。從技術(shù)上講,ViT 模型延續(xù)了長久以來去除模型中手工構(gòu)建特征和歸納偏置的趨勢,并進一步依賴基于原始數(shù)據(jù)的學習。

近日,原 ViT 團隊提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)(簡稱 Mixer),這是一種頗具競爭力并且在概念和技術(shù)上都非常簡單的替代方案。Mixer 架構(gòu)完全基于在空間位置或特征通道重復利用的多層感知機(MLP),并且僅依賴于基礎(chǔ)矩陣乘法運算、數(shù)據(jù)布局變換(如 reshape 和 transposition)和非線性層。

JAX/Flax 編寫的 MLP-Mixer 代碼。

推薦:CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。

論文 2:Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

摘要:清華大學圖形學實驗室 Jittor 團隊提出了一種新的注意機制,稱之為「External Attention」,基于兩個外部的、小的、可學習的和共享的存儲器,只用兩個級聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學習架構(gòu)中的「Self-attention」,揭示了線性層和注意力機制之間的關(guān)系。自注意力機制一個明顯的缺陷在于計算量非常大,存在一定的計算冗余。通過控制記憶單元的大小,External-attention 可以輕松實現(xiàn)線性的復雜度。

d98242e8-b364-11eb-bf61-12bb97331649.jpg

Self Attention 和 External Attention 的區(qū)別。

推薦:External Attention 的部分計圖代碼已經(jīng)在 Github 開源,后續(xù)將盡快開源全部計圖代碼。

論文 3:Learning Skeletal Articulations with Neural Blend Shapes

摘要:該論文由北京大學陳寶權(quán)教授研究團隊、北京電影學院未來影像高精尖創(chuàng)新中心、Google Research、特拉維夫大學以及蘇黎世聯(lián)邦理工學院合作,針對骨骼驅(qū)動的模型動畫的高質(zhì)量自動化生成進行改進,提出了神經(jīng)融合形狀技術(shù)。實驗證明,該方法顯著減少了已有方法中需要的人工干預,大大提升了生成動畫的質(zhì)量。

具體而言,為了簡化骨骼搭建和蒙皮權(quán)重綁定的過程、高效利用動作捕捉數(shù)據(jù)以及生成高質(zhì)量的動畫,研究者開發(fā)了一套能生成具有指定結(jié)構(gòu)的骨骼以及精準綁定權(quán)重的神經(jīng)網(wǎng)絡(luò)。加以他們提出的神經(jīng)融合形狀(neural blend shapes)技術(shù),研究者實現(xiàn)了實時高質(zhì)量三維人物模型動畫的端到端自動生成。

d9d77bfa-b364-11eb-bf61-12bb97331649.jpg

框架概覽。

推薦:該論文已被計算機圖形學頂級會議 SIGGRAPH 2021 接收。

論文 4:A Survey of Modern Deep Learning based Object Detection Models

摘要:在本文中,來自阿斯隆理工學院的研究者概述了基于深度學習的目標檢測器的最新發(fā)展,提供了用于檢測的基準數(shù)據(jù)集和評估指標的簡要概述以及用于識別任務(wù)的主要主干架構(gòu)。

da0bce78-b364-11eb-bf61-12bb97331649.jpg

文章結(jié)構(gòu)。

推薦:基于現(xiàn)代深度學習的目標檢測模型綜述。

論文 5:Total Relighting: Learning to Relight Portraits for Background Replacement

摘要:在人像摳圖中,前景預測背景替換是至關(guān)重要的組成部分,此前也出現(xiàn)過各種效果不錯的摳圖方法,如商湯等提出的只需單張圖像、單個模型的方法 MODNet、華盛頓大學單塊 GPU 實現(xiàn) 4K 分辨率每秒 30 幀的 Background Matting 2.0 等。這些方法或多或少都有其局限性。

近日,來自谷歌的幾位研究者提出了一種全新的人像重照明(portrait relighting)和背景替換系統(tǒng),該系統(tǒng)不僅保留了高頻邊界細節(jié),并精確地合成了目標人像在新照明下的外觀,從而為任何所需場景生成逼真的合成圖像。該研究的亮點是通過前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)進行前景估計。

推薦:該論文已被 SIGGRAPH 2021 會議接收。

論文 6:Graph Learning: A Survey

摘要:本文是對圖學習的最全面綜述,重點關(guān)注四類已有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習,回顧了采用這四類方法的主要模型和算法。此外,研究者探討了文本、圖像、科學、知識圖譜和組合優(yōu)化等領(lǐng)域的圖學習應用。本文作者來自澳大利亞聯(lián)邦大學、大連理工、莫納什大學和亞利桑那州立大學。

推薦:最新圖機器學習論文綜述。

論文 7:Locate then Segment: A Strong Pipeline for Referring Image Segmentation

摘要:如何通過自然語言定位并分割出場景中的目標物體?比如給定一張圖片,語言指示 「分割出穿白色襯衫的人」。這個任務(wù)在學術(shù)界叫做指代性物體分割(Referring Image Segmentation)。目前指代性分割的工作通常著重于設(shè)計一種隱式的遞歸特征交互機制用于融合視覺 - 語言特征來直接生成最終的分割結(jié)果,而沒有顯式建模被指代物體的位置。

為了強調(diào)語言描述的指代作用,來自中科院自動化所、字節(jié)跳動的研究者將該任務(wù)解耦為先定位再分割的方案(LTS, Locate then Segment),它在直觀上也與人類的視覺感知機制相同。比如給定一句語言描述,人們通常首先會注意相應的目標圖像區(qū)域,然后根據(jù)對象的環(huán)境信息生成關(guān)于對象的精細分割結(jié)果。該方法雖然很簡單但效果較好。在三個流行的基準數(shù)據(jù)集上,該方法大幅度優(yōu)于所有以前的方法。這個框架很有希望作為指代性分割的通用框架。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5035

    瀏覽量

    133723
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8528

    瀏覽量

    135861
  • 視覺感知
    +關(guān)注

    關(guān)注

    0

    文章

    50

    瀏覽量

    3530

原文標題:7 Papers & Radios | CV架構(gòu)回歸多層感知機;自動生成模型動畫

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學習”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3770次閱讀
    <b class='flag-5'>自動</b>駕駛中Transformer大<b class='flag-5'>模型</b>會取代深度學習嗎?

    自動駕駛感知系統(tǒng)如何設(shè)計才能確保足夠安全?

    高可靠性、高可用性和高魯棒性,必須多層面、全方位地統(tǒng)籌技術(shù)架構(gòu)、硬件部署、軟件算法、系統(tǒng)冗余與安全管理,共同構(gòu)筑一套穩(wěn)健的感知體系。
    的頭像 發(fā)表于 07-24 18:11 ?500次閱讀

    動態(tài)感知+智能決策,一文解讀 AI 場景組網(wǎng)下的動態(tài)智能選路技術(shù)

    人工智能(AI),特別是大規(guī)模模型訓練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡(luò)。傳統(tǒng)的“盡力而為”網(wǎng)絡(luò)架構(gòu),在處理海量、突發(fā)的AI數(shù)據(jù)洪流時捉襟見肘。AI模型對網(wǎng)絡(luò)性能的嚴苛要求——高帶寬、低延遲
    的頭像 發(fā)表于 06-20 15:01 ?1113次閱讀
    動態(tài)<b class='flag-5'>感知</b>+智能決策,一文<b class='flag-5'>解讀</b> AI 場景組網(wǎng)下的動態(tài)智能選路技術(shù)

    半導體器件CV測量技術(shù)解析

    前言:研究器件特性和器件建模都離不開精確的電容電壓(CV)測量。精確的CV模型在仿真器件的開關(guān)特性,延遲特性等方面尤為重要。目前,在寬禁帶器件(GaN/SiC)、納米器件、有機器件、MEMS等下
    的頭像 發(fā)表于 06-01 10:02 ?878次閱讀
    半導體器件<b class='flag-5'>CV</b>測量技術(shù)解析

    模型如何推動自動駕駛技術(shù)革新?

    分模塊設(shè)計,從環(huán)境感知、決策規(guī)劃到車輛控制,各個子系統(tǒng)之間都是獨立工作,協(xié)同控制車輛的行駛,在復雜的交通場景下,這種分層架構(gòu)容易受到累積誤差、信息丟失以及實時性不足等問題的困擾。大模型憑借其海量參數(shù)、跨模態(tài)
    的頭像 發(fā)表于 04-20 13:16 ?539次閱讀
    大<b class='flag-5'>模型</b>如何推動<b class='flag-5'>自動</b>駕駛技術(shù)革新?

    CORE-V(OpenHW Group)CV32E40P 詳細解讀

    CV32E40P 是 OpenHW Group 推出的開源 RISC-V 處理器 IP 內(nèi)核,基于 PULP 平臺的 RI5CY 內(nèi)核演進而來,專為高效嵌入式系統(tǒng)設(shè)計。以下從技術(shù)架構(gòu)、性能特性
    的頭像 發(fā)表于 04-10 15:44 ?1375次閱讀
    CORE-V(OpenHW Group)<b class='flag-5'>CV</b>32E40P 詳細<b class='flag-5'>解讀</b>

    英偉達Cosmos-Reason1 模型深度解讀

    。以下從技術(shù)架構(gòu)、訓練策略、核心能力及行業(yè)影響四方面展開深度解讀: Cosmos-Reason 1:從物理 AI 常識到具體決策 物理 AI 系統(tǒng)需要感知、理解和執(zhí)行物理世界中的復雜作。在本文中,我們提出了 Cosmos-Rea
    的頭像 發(fā)表于 03-29 23:29 ?2472次閱讀

    多層料箱高速堆垛搭載 RFID:構(gòu)建部隊智能倉儲新生態(tài)

    在部隊邁向現(xiàn)代化的進程中,倉儲管理的高效運轉(zhuǎn)與信息化程度,對物資保障能力起著決定性作用。多層料箱高速堆垛憑借其在貨物高密度存儲與快速搬運方面的卓越表現(xiàn),與 RFID 技術(shù)所實現(xiàn)的物資信息自動采集
    的頭像 發(fā)表于 03-26 14:25 ?465次閱讀
    <b class='flag-5'>多層</b>料箱高速堆垛<b class='flag-5'>機</b>搭載 RFID:構(gòu)建部隊智能倉儲新生態(tài)

    ?Diffusion生成式動作引擎技術(shù)解析

    Diffusion生成式動作引擎 Diffusion生成式動作引擎是一種基于擴散模型(Diffusion Models)的生成式人工智能技術(shù),專注于
    的頭像 發(fā)表于 03-17 15:14 ?2519次閱讀

    用DeepSeek-R1實現(xiàn)自動生成Manim動畫

    ? 作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 前面我們分享了在本地運行能與OpenAI-o1 能力相媲美的DeepSeek-R1 模型。本文將介紹如何使用DeepSeek-R1實現(xiàn)自動生成Manim
    的頭像 發(fā)表于 02-07 12:31 ?4351次閱讀
    用DeepSeek-R1實現(xiàn)<b class='flag-5'>自動</b><b class='flag-5'>生成</b>Manim<b class='flag-5'>動畫</b>

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    今天學習大模型RAG 檢索增強生成技術(shù)Embedding,即嵌入,是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù)。這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系,使得計算機能夠更好地處
    發(fā)表于 01-17 19:53

    AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?

    電子發(fā)燒友網(wǎng)站提供《AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?.pdf》資料免費下載
    發(fā)表于 01-13 14:21 ?0次下載
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它們是如何<b class='flag-5'>生成</b>的?

    基于移動自回歸的時序擴散預測模型

    回歸取得了比傳統(tǒng)基于噪聲的擴散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預測領(lǐng)域,當前主流的擴散方法還是傳統(tǒng)的基于噪聲的方法,未能充分利用自
    的頭像 發(fā)表于 01-03 14:05 ?1450次閱讀
    基于移動自<b class='flag-5'>回歸</b>的時序擴散預測<b class='flag-5'>模型</b>

    大語言模型優(yōu)化生成管理方法

    大語言模型的優(yōu)化生成管理是一個系統(tǒng)工程,涉及模型架構(gòu)、數(shù)據(jù)處理、內(nèi)容控制、實時響應以及倫理監(jiān)管等多個層面。以下,是對大語言模型優(yōu)化
    的頭像 發(fā)表于 12-02 10:45 ?565次閱讀

    如何自動生成verilog代碼

    介紹幾種自動生成verilog代碼的方法。
    的頭像 發(fā)表于 11-05 11:45 ?1333次閱讀
    如何<b class='flag-5'>自動</b><b class='flag-5'>生成</b>verilog代碼