chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多模態(tài)機(jī)器學(xué)習(xí)的圖像語(yǔ)言轉(zhuǎn)換器

傳感器技術(shù) ? 來(lái)源:麻省科技評(píng)論 ? 作者:麻省科技評(píng)論 ? 2022-04-24 15:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對(duì)于 AI 系統(tǒng)來(lái)說(shuō),將語(yǔ)言與視覺(jué)聯(lián)系起來(lái)是它需要面對(duì)并學(xué)會(huì)解決的基本問(wèn)題,例如在進(jìn)行圖像的檢索時(shí),AI 系統(tǒng)需要既能識(shí)別圖像,也能識(shí)別語(yǔ)言,并將二者相關(guān)聯(lián)起來(lái)。

對(duì)于這類(lèi)需要 AI 系統(tǒng)識(shí)別不同種類(lèi)或形式的信息來(lái)源的任務(wù)中,就需要多模態(tài)機(jī)器學(xué)習(xí)(MML/Multimodal Machine Learning)來(lái)發(fā)揮作用。所謂模態(tài),指的是一種信息的來(lái)源或形式,例如文字、圖像、視頻、音頻等都是模態(tài)。多模態(tài)機(jī)器學(xué)習(xí)是指利用機(jī)器學(xué)習(xí)來(lái)處理多種模態(tài)的信息。

近些年來(lái),在多模態(tài)機(jī)器學(xué)習(xí)領(lǐng)域中,多模態(tài)圖像語(yǔ)言轉(zhuǎn)換器(Multimodal image–language transformers)已經(jīng)取得了深刻進(jìn)展,尤其在解決各種需要微調(diào)的任務(wù),如視覺(jué)問(wèn)答、圖像檢索中發(fā)揮了關(guān)鍵性作用。

但是,在既需要處理圖像又需要處理語(yǔ)言文本的多模態(tài)機(jī)器學(xué)習(xí)任務(wù)中,有一類(lèi)問(wèn)題對(duì)于多模態(tài)圖像語(yǔ)言轉(zhuǎn)換器來(lái)說(shuō)尤其棘手,那就是對(duì)文本中的動(dòng)詞的理解。例如要求 AI 系統(tǒng)來(lái)在圖像中區(qū)分識(shí)別找出“踢球”和“拋球”這兩種情景。在這一任務(wù)中,AI 系統(tǒng)不僅需要識(shí)別出圖像中的“球”這一對(duì)象,還需要識(shí)別圖像中不同對(duì)象之間的關(guān)系。

為了評(píng)估近年來(lái)多模態(tài)圖像語(yǔ)言轉(zhuǎn)換器的預(yù)訓(xùn)練水平,尤其是在“看圖理解”中對(duì)于上文所說(shuō)的動(dòng)詞的識(shí)別能力。近日,DeepMind 開(kāi)發(fā)出一套方法,并引入了名為 SVO-Probes 的“圖像-句子對(duì)” 數(shù)據(jù)集,來(lái)評(píng)估不同 AI 系統(tǒng)的多模態(tài)預(yù)訓(xùn)練模型對(duì)于動(dòng)詞的理解水平,尤其是了解這些 AI 系統(tǒng)多模態(tài)轉(zhuǎn)換器的預(yù)訓(xùn)練模型在結(jié)合語(yǔ)言文本來(lái)識(shí)別圖像時(shí),到底是既能夠識(shí)別中圖片中的物體、也能區(qū)分中圖像中的動(dòng)作,還是只能夠識(shí)別出圖中的物體。

為了達(dá)到這一目的,DeepMind 建立的 SVO-Probes 數(shù)據(jù)集包含了 48000 個(gè)圖像-句子對(duì),可以測(cè)試 AI 系統(tǒng)對(duì) 447 個(gè)動(dòng)詞的理解,這些動(dòng)詞要么是視覺(jué)可以區(qū)分的,要么是在預(yù)訓(xùn)練數(shù)據(jù)中常見(jiàn)的,例如許多概念字幕數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中的每個(gè)句子都可以分解成 一個(gè) <主語(yǔ)、動(dòng)詞、賓語(yǔ)> 三元組,也就是 SVO 三元組,并分別配對(duì)有與句子描述的內(nèi)容相符和不符的圖像,它們?cè)谑菍?shí)驗(yàn)中分別被稱(chēng)為“正實(shí)例圖像” 和 “負(fù)實(shí)例圖像”。

69a52362-c3a0-11ec-bce3-dac502259ad0.png

圖|評(píng)估多模態(tài)語(yǔ)言圖像轉(zhuǎn)換器對(duì)于動(dòng)詞的識(shí)別能力的 SVO- Probes 數(shù)據(jù)集中的圖像-句子對(duì)(來(lái)源:DeepMind)

上圖顯示了圖像-句子對(duì)的幾個(gè)例子,以左上角的圖像-句子對(duì)為例,分別顯示了與句子“孩子、過(guò)、馬路”相符的正示例圖像,以及與“女士、過(guò)、馬路”不符的負(fù)示例圖像,通過(guò)這一對(duì)可以測(cè)試 AI 系統(tǒng)識(shí)別圖中的對(duì)象——也就是名詞的能力;而上方中間的圖像-句子對(duì),則分別顯示了”人、唱歌、演唱會(huì)上“ 的正示例圖像和”“人、跳舞、演唱會(huì)上“ 的負(fù)示例圖像。通過(guò)這一對(duì)就可以既測(cè)試 AI 系統(tǒng)識(shí)別圖中的名詞的能力,也能測(cè)試 AI 識(shí)別動(dòng)詞的能力。

在實(shí)驗(yàn)中使用這一 SVO-Probes 數(shù)據(jù)集以零樣本的方式對(duì) AI 預(yù)訓(xùn)練模型進(jìn)行評(píng)估之后,DeepMind 的工程師發(fā)現(xiàn),相比名詞等其他詞性,預(yù)訓(xùn)練模型在需要?jiǎng)釉~理解的情況下錯(cuò)誤率要高很多。

下面的條形圖詳細(xì)說(shuō)明了測(cè)試的結(jié)果。標(biāo)準(zhǔn)多模態(tài)轉(zhuǎn)換器模型經(jīng)過(guò)測(cè)試后總體準(zhǔn)確率達(dá)到 64.3%,這也顯示了 SVO- Probes 數(shù)據(jù)集確實(shí)具有挑戰(zhàn)性。而這一 AI 模型在對(duì)于主語(yǔ)和賓語(yǔ)判斷的準(zhǔn)確率分別為 67.0% 和 73.4%,但是對(duì)于動(dòng)詞判斷的準(zhǔn)確率卻下降到 60.8%。這一結(jié)果表明,動(dòng)詞識(shí)別確實(shí)對(duì) AI 系統(tǒng)模型具有挑戰(zhàn)性。

此外,該公司的工程師們還進(jìn)一步總結(jié)調(diào)查了哪些類(lèi)別的動(dòng)詞對(duì)于這些 AI 預(yù)訓(xùn)練模型尤其具有挑戰(zhàn)性。結(jié)果發(fā)現(xiàn),像“抓”這樣的運(yùn)動(dòng)性動(dòng)詞以及“帶領(lǐng)”這樣在不同類(lèi)型的語(yǔ)境中經(jīng)常出現(xiàn)的動(dòng)詞對(duì)于 AI 來(lái)說(shuō)更容易。而 AI 模型判斷的正確率最高的動(dòng)詞有“打斗”“包圍”“滑雪”“參加”等;而錯(cuò)誤率最高的幾個(gè)動(dòng)詞有“切”“爭(zhēng)論”“斷”等。

69be475c-c3a0-11ec-bce3-dac502259ad0.png

圖|多模態(tài)機(jī)器學(xué)習(xí)的圖像語(yǔ)言轉(zhuǎn)換器對(duì)于 SVO-Probes 數(shù)據(jù)集進(jìn)行判斷測(cè)試之后的結(jié)果(來(lái)源:DeepMind)

值得一提的是,當(dāng)工程師們對(duì)哪些模型架構(gòu)在 SVO-Probes 數(shù)據(jù)集上的表現(xiàn)更好這一問(wèn)題進(jìn)行探索時(shí),他們驚訝地發(fā)現(xiàn),相比圖像建模能力更強(qiáng)的標(biāo)準(zhǔn)圖像語(yǔ)言轉(zhuǎn)換器模型,那些圖像建模較弱的模型反而表現(xiàn)更好。對(duì)這一與直覺(jué)相反的發(fā)現(xiàn)的解釋的一個(gè)假設(shè)是,標(biāo)準(zhǔn)轉(zhuǎn)換器模型在圖像識(shí)別方面可能有些“過(guò)度訓(xùn)練”了。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 轉(zhuǎn)換器
    +關(guān)注

    關(guān)注

    27

    文章

    9417

    瀏覽量

    156317
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39707

    瀏覽量

    301326
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187

原文標(biāo)題:AI多模態(tài)圖像語(yǔ)言轉(zhuǎn)換器在看圖理解中對(duì)動(dòng)詞的識(shí)別力

文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    振弦信號(hào)轉(zhuǎn)換器 多輸出與導(dǎo)軌安裝

    轉(zhuǎn)換器
    穩(wěn)控自動(dòng)化
    發(fā)布于 :2026年02月05日 14:49:18

    國(guó)產(chǎn)電平轉(zhuǎn)換器雙雄登場(chǎng)!GS0104/GS0108 如何破解場(chǎng)景電壓適配難題?

    電平轉(zhuǎn)換器
    聚洵半導(dǎo)體科技
    發(fā)布于 :2025年12月22日 14:27:36

    圖像采集卡:機(jī)器視覺(jué)時(shí)代的圖像數(shù)據(jù)核心樞紐

    一、圖像采集卡的技術(shù)本質(zhì):從信號(hào)到數(shù)據(jù)的“轉(zhuǎn)換器”與“傳輸通道”圖像采集卡(ImageCaptureCard)是機(jī)器視覺(jué)系統(tǒng)的核心硬件組件,本質(zhì)是通過(guò)專(zhuān)用芯片(如FPGA、ASIC)實(shí)
    的頭像 發(fā)表于 11-12 15:15 ?620次閱讀
    <b class='flag-5'>圖像</b>采集卡:<b class='flag-5'>機(jī)器</b>視覺(jué)時(shí)代的<b class='flag-5'>圖像</b>數(shù)據(jù)核心樞紐

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專(zhuān)為Agentic RAG與語(yǔ)義搜索應(yīng)用打造的頂尖模態(tài)嵌入模型。該模型是首個(gè)通過(guò)單一模型支持文本、
    的頭像 發(fā)表于 10-29 17:15 ?258次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    細(xì)化需求,系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略 1.2 輪對(duì)話(huà)系統(tǒng)鳥(niǎo)瞰:三顆“核心”協(xié)同驅(qū)動(dòng)RK3576 模態(tài)交互對(duì)話(huà)方案基于 RKLLM 的核心運(yùn)作,依賴(lài)于圖像視覺(jué)編碼
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ?在人工智能邁向AGI通用智能的關(guān)鍵道路上,大模型正從單一的文本理解者,演進(jìn)為能同時(shí)看、聽(tīng)、讀、想的“多面手”。驅(qū)動(dòng)這一進(jìn)化的核心燃料,正是高質(zhì)量的模態(tài)數(shù)據(jù),而將原始數(shù)據(jù)轉(zhuǎn)化為“機(jī)器可讀教材
    的頭像 發(fā)表于 09-05 13:49 ?2216次閱讀

    基于米爾瑞芯微RK3576開(kāi)發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    關(guān)鍵詞:瑞芯微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理)、端側(cè)小語(yǔ)言模型(SLM)、模態(tài) LLM、邊緣 AI 部署、開(kāi)發(fā)板、RKLLM隨著大語(yǔ)言
    發(fā)表于 08-29 18:08

    飛凌嵌入式RK3576模態(tài)大模型圖像理解助手,讓嵌入式設(shè)備“看懂”世界

    (LLM)+視覺(jué)語(yǔ)言模型(VLM)模態(tài)架構(gòu),推出模態(tài)大模型圖像理解助手,為嵌入式設(shè)備打造 “
    的頭像 發(fā)表于 07-25 11:09 ?1661次閱讀
    飛凌嵌入式RK3576<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型<b class='flag-5'>圖像</b>理解助手,讓嵌入式設(shè)備“看懂”世界

    國(guó)產(chǎn)模數(shù)轉(zhuǎn)換器100%替換ADS1278應(yīng)用于振動(dòng)和模態(tài)分析

    國(guó)產(chǎn)模數(shù)轉(zhuǎn)換器100%替換ADS1278應(yīng)用于振動(dòng)和模態(tài)分析
    的頭像 發(fā)表于 04-16 09:50 ?971次閱讀
    國(guó)產(chǎn)模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>100%替換ADS1278應(yīng)用于振動(dòng)和<b class='flag-5'>模態(tài)</b>分析

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速,模態(tài)AI大模型的應(yīng)用需求不斷攀升,圖像、語(yǔ)音、視頻等多樣化的交互方式正逐漸成為推動(dòng)行業(yè)變革的新動(dòng)力。 ? 3月20日,全球物聯(lián)網(wǎng)整體解決方案供應(yīng)商移遠(yuǎn)通信宣布,其
    發(fā)表于 03-21 14:12 ?532次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI大模型,重塑智能交互新體驗(yàn)

    隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速,模態(tài)AI大模型的應(yīng)用需求不斷攀升,圖像、語(yǔ)音、視頻等多樣化的交互方式正逐漸成為推動(dòng)行業(yè)變革的新動(dòng)力。3月20日,全球物聯(lián)網(wǎng)整體解決方案供應(yīng)商移遠(yuǎn)通信宣布,其全系
    的頭像 發(fā)表于 03-20 19:03 ?816次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型,重塑智能交互新體驗(yàn)

    商湯“日日新”融合大模型登頂大語(yǔ)言模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡(jiǎn)稱(chēng)“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025年中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言模態(tài)核心能力測(cè)評(píng)中,商湯“日日新”融合大模型斬獲國(guó)內(nèi)第一梯隊(duì)成績(jī)。
    的頭像 發(fā)表于 03-18 10:35 ?1137次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的模態(tài)人工智能模型,
    的頭像 發(fā)表于 03-17 15:32 ?8802次閱讀
    ?VLM(視覺(jué)<b class='flag-5'>語(yǔ)言</b>模型)?詳細(xì)解析

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過(guò)多種感官通道(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)或多種交互方式(如語(yǔ)音、手勢(shì)、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、
    的頭像 發(fā)表于 03-17 15:12 ?4384次閱讀