chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人類(lèi)視覺(jué)理解機(jī)理

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:通信信號(hào)處理研究所 ? 作者:通信信號(hào)處理研究 ? 2020-07-04 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,上海交通大學(xué)盧策吾團(tuán)隊(duì)在《自然 - 機(jī)器智能》子刊上發(fā)表了關(guān)于高維度視覺(jué)序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時(shí),該團(tuán)隊(duì)將論文代碼與近兩年在視頻理解領(lǐng)域的先進(jìn)成果開(kāi)源為視頻理解工具箱 AlphaVideo。

AlphaVideo 在物體跟蹤任務(wù)(MOT)和行為理解(AVA 單模型)上都達(dá)到最高準(zhǔn)確率,相比 SlowFast (AVA 單模型)有 12.6% 的性能提升。

動(dòng)作理解任務(wù)的時(shí)空信息特征圖。左:輸入序列;右:空間特征更關(guān)注物體形狀,時(shí)間特征更關(guān)注物體運(yùn)動(dòng)趨勢(shì)。

AlphaVideo 中的行為理解(Alphaction)

時(shí)空概念提取展示

人類(lèi)視覺(jué)理解機(jī)理

在人類(lèi)的視覺(jué)認(rèn)知過(guò)程中,時(shí)間和空間概念是解耦的。神經(jīng)科學(xué)領(lǐng)域的研究發(fā)現(xiàn)在人類(lèi)的記憶形成過(guò)程中,時(shí)間信息與空間上下文信息通過(guò)兩個(gè)相對(duì)獨(dú)立的信息通路到達(dá)海馬體,進(jìn)而形成完整的記憶。

新技能:自主學(xué)習(xí)時(shí)空概念

通過(guò)模仿人類(lèi)的認(rèn)知機(jī)制,盧策吾團(tuán)隊(duì)提出了應(yīng)用于高維度信息的半耦合結(jié)構(gòu)模型(SCS)。

SCS 自主發(fā)掘(awareness)時(shí)間 - 空間概念,并讓他們耦合協(xié)作以理解序列信息。這種能力代表著機(jī)器學(xué)習(xí)模型自主掌握了時(shí)空的概念,這是一種更高層的智能。更進(jìn)一步,時(shí)空信息概念的分離也讓「概念編輯」成為可能。

半耦合結(jié)構(gòu)模型(SCS)

半耦合結(jié)構(gòu)首先解耦時(shí)空信息(模仿人腦中的兩條信息通路),并在分別處理時(shí)間和空間信息之后將二者耦合(模仿海馬體):

該研究通過(guò)堆疊這種半耦合的元結(jié)構(gòu)來(lái)構(gòu)建深度模型,其中時(shí)空信息始終以先解耦再融合的模式向后流動(dòng)。

為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設(shè)計(jì)為不對(duì)稱(chēng)的結(jié)構(gòu),同時(shí),使用兩個(gè)特殊的監(jiān)督目標(biāo) r_s、r_t 來(lái)進(jìn)一步約束二者關(guān)注各自的工作。

該研究進(jìn)一步提出了一種訓(xùn)練注意力機(jī)制。這種注意力機(jī)制控制模型在優(yōu)化過(guò)程中學(xué)習(xí)哪種信息。例如在視頻信息中,模型可以?xún)?yōu)先將注意力集中在空間信息上,待空間信息有效且穩(wěn)定時(shí),再逐步將模型訓(xùn)練的注意力轉(zhuǎn)換到時(shí)間信息上。

SCS 的表現(xiàn)如何?

該研究展示了 SCS 在多項(xiàng)任務(wù)中與傳統(tǒng) LSTM 的性能對(duì)比結(jié)果:

SCS 在視頻動(dòng)作分類(lèi)、自動(dòng)駕駛、天氣預(yù)報(bào)等 4 個(gè)任務(wù)上的性能均超越傳統(tǒng)的序列模型。

概念編輯

有了時(shí)空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過(guò)編輯空間概念且保留時(shí)間概念,我們可以讓一個(gè)原本用于預(yù)測(cè)狗運(yùn)動(dòng)軌跡的模型來(lái)預(yù)測(cè)貓的軌跡。這樣就能以較小的代價(jià)實(shí)現(xiàn)模型的泛化,同時(shí)也拓寬了模型的使用場(chǎng)景,降低了部署難度。

概念編輯 demo

研究者讓計(jì)算機(jī)看 Flappy Bird 的視頻,然后看一張靜態(tài)的 Mario 圖片(外觀形象)。在這個(gè)過(guò)程中,模型并沒(méi)有接觸到任何 Mario 在管道中穿梭的運(yùn)動(dòng)信息。但通過(guò)「概念編輯」,在測(cè)試時(shí) SCS 可以準(zhǔn)確地預(yù)測(cè) Mario 的運(yùn)動(dòng)軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時(shí)空概念分解,研究者還提供了單階段端對(duì)端訓(xùn)練的多目標(biāo)跟蹤模型 TubeTK 和視頻動(dòng)作檢測(cè)模型 AlphAction。使用一行代碼,即可調(diào)用預(yù)訓(xùn)好的各類(lèi)模型。

AlphAction

AlphAction 是面向行為理解的開(kāi)源系統(tǒng),基于 MVIG 提出的交互理解與異步訓(xùn)練策略 在 AVA 數(shù)據(jù)集上達(dá)到最優(yōu)準(zhǔn)確率,速度達(dá)到 10 幀每秒。其中包含的 15 個(gè)開(kāi)源常見(jiàn)行為基本模型的 mAP 達(dá)到約 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基于 Bounding-Tube 的單階段訓(xùn)練模型(CVPR2020-oral),是首個(gè)單階段端對(duì)端訓(xùn)練的多目標(biāo)跟蹤模型。它在 MOT-16 數(shù)據(jù)集上達(dá)到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓(xùn)練數(shù)據(jù)下達(dá)到的最高精度 。

TubeTK 可視化結(jié)果

Bounding-Tube 示意圖。使用 bounding-tube 可以輕松跟蹤到 bounding-box 無(wú)法檢測(cè)到的被遮擋目標(biāo)(圖中黃色框)。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解耦
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    12165
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    791

    文章

    14658

    瀏覽量

    176134
  • 機(jī)器智能
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    8900
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    安防監(jiān)控系統(tǒng)如何成為城市的“智慧視覺(jué)中樞”

    安防監(jiān)控系統(tǒng),曾經(jīng)只是記錄事件的“電子眼”,如今已演進(jìn)為能夠理解、分析和預(yù)測(cè)的“智慧視覺(jué)中樞”。它不再僅僅回答“發(fā)生了什么”,更開(kāi)始回答“正在發(fā)生什么”以及“可能發(fā)生什么”,這背后是一場(chǎng)從純視覺(jué)感知
    的頭像 發(fā)表于 09-30 11:18 ?237次閱讀

    iTOF技術(shù),多樣化的3D視覺(jué)應(yīng)用

    視覺(jué)傳感器對(duì)于機(jī)器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類(lèi)視覺(jué)能力,從而推動(dòng)創(chuàng)新應(yīng)用。3D 視覺(jué)解決方案大致分為立體
    發(fā)表于 09-05 07:24

    機(jī)器視覺(jué)系統(tǒng)工業(yè)相機(jī)的成像原理及如何選型

    機(jī)器視覺(jué)系統(tǒng)是一種模擬人類(lèi)視覺(jué)功能,通過(guò)光學(xué)裝置和非接觸式傳感器獲取圖像數(shù)據(jù),并進(jìn)行分析和處理,以實(shí)現(xiàn)對(duì)目標(biāo)物體的識(shí)別、測(cè)量、檢測(cè)和定位等功能的智能化系統(tǒng)。其目的是讓機(jī)器能夠理解和解釋
    的頭像 發(fā)表于 08-07 14:14 ?976次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>系統(tǒng)工業(yè)相機(jī)的成像原理及如何選型

    基于LockAI視覺(jué)識(shí)別模塊:C++圖像的基本運(yùn)算

    在圖像處理中,理解圖像的基本操作是掌握計(jì)算機(jī)視覺(jué)技術(shù)的關(guān)鍵。本文章將介紹基于LockAI視覺(jué)識(shí)別模塊下OpenCV中圖像的基本運(yùn)算方法,包括像素操作、邏輯運(yùn)算和差值運(yùn)算,并通過(guò)一個(gè)綜合示例展示其實(shí)際應(yīng)用。
    的頭像 發(fā)表于 05-06 16:20 ?512次閱讀
    基于LockAI<b class='flag-5'>視覺(jué)</b>識(shí)別模塊:C++圖像的基本運(yùn)算

    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)理解模型

    多模態(tài)理解模型是讓AI像人類(lèi)一樣,通過(guò)整合多維度信息(如視覺(jué)、語(yǔ)言、聽(tīng)覺(jué)等),理解數(shù)據(jù)背后的語(yǔ)義、情感、邏輯或場(chǎng)景,從而完成推理、決策等任務(wù)。
    的頭像 發(fā)表于 04-18 09:30 ?2611次閱讀
    基于MindSpeed MM玩轉(zhuǎn)Qwen2.5VL多模態(tài)<b class='flag-5'>理解</b>模型

    詳解半導(dǎo)體集成電路的失效機(jī)理

    半導(dǎo)體集成電路失效機(jī)理中除了與封裝有關(guān)的失效機(jī)理以外,還有與應(yīng)用有關(guān)的失效機(jī)理。
    的頭像 發(fā)表于 03-25 15:41 ?1521次閱讀
    詳解半導(dǎo)體集成電路的失效<b class='flag-5'>機(jī)理</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺(jué)內(nèi)容相關(guān)的自然語(yǔ)言。以下
    的頭像 發(fā)表于 03-17 15:32 ?7473次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b>語(yǔ)言模型)?詳細(xì)解析

    工業(yè)自動(dòng)化中機(jī)器視覺(jué)技術(shù)的演變和未來(lái)發(fā)展趨勢(shì)

    機(jī)器視覺(jué)是一項(xiàng)使機(jī)器或工業(yè)設(shè)備能夠解釋和分析視覺(jué)數(shù)據(jù)的技術(shù),它將計(jì)算機(jī)科學(xué)與圖像處理技術(shù)相結(jié)合,實(shí)現(xiàn)了自動(dòng)化的視覺(jué)檢查和分析。你也可以把它看作是一種賦予機(jī)器看到和理解周?chē)h(huán)境的能力。
    的頭像 發(fā)表于 03-06 11:39 ?1614次閱讀
    工業(yè)自動(dòng)化中機(jī)器<b class='flag-5'>視覺(jué)</b>技術(shù)的演變和未來(lái)發(fā)展趨勢(shì)

    DLP160CP DMD是否可以應(yīng)用于機(jī)器視覺(jué)應(yīng)用?

    關(guān)于DLP160CPDMD芯片有一個(gè)疑問(wèn), 請(qǐng)問(wèn)該芯片是否可以應(yīng)用在機(jī)器3D視覺(jué)(結(jié)構(gòu)光)場(chǎng)景應(yīng)用呢?我在TI TLP機(jī)器視覺(jué),“3D掃描視覺(jué)機(jī)器
    發(fā)表于 02-20 07:39

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3164次閱讀
    一文詳解<b class='flag-5'>視覺(jué)</b>語(yǔ)言模型

    IGBT的導(dǎo)熱機(jī)理詳解

    影響其性能和壽命。因此,了解IGBT的導(dǎo)熱機(jī)理對(duì)于確保其長(zhǎng)期穩(wěn)定運(yùn)行至關(guān)重要。本文將詳細(xì)探討IGBT的導(dǎo)熱機(jī)理,包括熱量產(chǎn)生、傳導(dǎo)路徑、散熱材料以及熱管理策略等方面。
    的頭像 發(fā)表于 02-03 14:26 ?1026次閱讀

    馬斯克預(yù)言:AI將全面超越人類(lèi)智力

    近日,科技巨頭馬斯克作出了一個(gè)關(guān)于人工智能(AI)的大膽預(yù)測(cè)。他斷言,AI的發(fā)展速度將超乎人類(lèi)的想象,并將在不久的將來(lái)全面超越人類(lèi)的智力。 馬斯克在X平臺(tái)上明確表示,AI的迅猛進(jìn)步不容忽視。他預(yù)測(cè)
    的頭像 發(fā)表于 12-28 14:23 ?1149次閱讀

    超越人類(lèi)視覺(jué)!昱感微“多維像素”多模態(tài)超級(jí)攝像頭方案產(chǎn)品賦能超凡感知力

    如今人工智能發(fā)展之日新月異,令人不由感嘆也許科幻電影里仿生人的應(yīng)用不再是遙不可及,那么未來(lái)AI會(huì)超越人類(lèi)甚至取代人類(lèi)嗎?也許現(xiàn)在AI的大腦還無(wú)法做到,但眼睛已經(jīng)做到,機(jī)器視覺(jué)的感知力已全面超越
    的頭像 發(fā)表于 12-12 17:17 ?1251次閱讀
    超越<b class='flag-5'>人類(lèi)</b><b class='flag-5'>視覺(jué)</b>!昱感微“多維像素”多模態(tài)超級(jí)攝像頭方案產(chǎn)品賦能超凡感知力

    鐵磁性的概念、產(chǎn)生機(jī)理、應(yīng)用

    本文簡(jiǎn)單介紹鐵磁性的概念、產(chǎn)生機(jī)理、應(yīng)用等內(nèi)容。 鐵磁性是一種最引人入勝且被廣泛研究的磁現(xiàn)象,指某些材料(如鐵、鈷、鎳及其合金)表現(xiàn)出強(qiáng)大且永久磁性的機(jī)制。這種特性使鐵磁性材料在從家用磁鐵、電動(dòng)機(jī)到
    的頭像 發(fā)表于 12-06 16:36 ?4409次閱讀

    請(qǐng)問(wèn)怎么理解DAC1280的比特流?

    關(guān)于DAC1280這個(gè)芯片的1s density modulation怎么理解。我的理解:1S不斷的往TDATA引腳輸入高低電平,根據(jù)1S內(nèi)傳輸?shù)谋忍亓髦?占得比重來(lái)輸出一個(gè)對(duì)應(yīng)的電流。這樣的話根據(jù)采樣定理,按照一個(gè)周期10個(gè)
    發(fā)表于 12-05 06:04