chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:AI公園 ? 作者:Synced ? 2021-03-08 10:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一個(gè)模型完成了CV,NLP方向的7個(gè)任務(wù),每個(gè)任務(wù)上表現(xiàn)都非常好。

Transformer架構(gòu)在自然語(yǔ)言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個(gè)領(lǐng)域或特定的多模態(tài)領(lǐng)域的任務(wù)。例如,ViT專門用于視覺相關(guān)的任務(wù),BERT專注于語(yǔ)言任務(wù),而VILBERT-MT只用于相關(guān)的視覺和語(yǔ)言任務(wù)。

一個(gè)自然產(chǎn)生的問題是:我們能否建立一個(gè)單一的Transformer,能夠在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?最近,F(xiàn)acebook的一個(gè)人工智能研究團(tuán)隊(duì)進(jìn)行了一個(gè)新的統(tǒng)一Transformer(UniT) encoder-decoder模型的挑戰(zhàn),該模型在不同的模態(tài)下聯(lián)合訓(xùn)練多個(gè)任務(wù),并通過一組統(tǒng)一的模型參數(shù)在這些不同的任務(wù)上都實(shí)現(xiàn)了強(qiáng)大的性能。

Transformer首先應(yīng)用于sequence-to-sequence模型的語(yǔ)言領(lǐng)域。它們已經(jīng)擴(kuò)展到視覺領(lǐng)域,甚至被應(yīng)用于視覺和語(yǔ)言的聯(lián)合推理任務(wù)。盡管可以針對(duì)各種下游任務(wù)中的應(yīng)用對(duì)預(yù)先訓(xùn)練好的Transformer進(jìn)行微調(diào),并獲得良好的結(jié)果,但這種模型微調(diào)方法會(huì)導(dǎo)致為每個(gè)下游任務(wù)創(chuàng)建不同的參數(shù)集。

Facebook的人工智能研究人員提出,一個(gè)Transformer可能就是我們真正需要的。他們的UniT是建立在傳統(tǒng)的Transformer編碼器-解碼器架構(gòu)上,包括每個(gè)輸入模態(tài)類型的獨(dú)立編碼器,后面跟一個(gè)具有簡(jiǎn)單的每個(gè)任務(wù)特定的頭的解碼器。輸入有兩種形式:圖像和文本。首先,卷積神經(jīng)網(wǎng)絡(luò)骨干網(wǎng)提取視覺特征,然后BERT將語(yǔ)言輸入編碼成隱藏狀態(tài)序列。然后,Transformer解碼器應(yīng)用于編碼的單個(gè)模態(tài)或兩個(gè)編碼模態(tài)的連接序列(取決于任務(wù)是單模態(tài)還是多模態(tài))。最后,Transformer解碼器的表示將被傳遞到特定任務(wù)的頭,該頭將輸出最終的預(yù)測(cè)。

UniT模型概要

評(píng)估UniT的性能,研究人員進(jìn)行了實(shí)驗(yàn),需要共同學(xué)習(xí)來自不同領(lǐng)域的許多流行的任務(wù):COCO目標(biāo)檢測(cè)和 Visual Genome數(shù)據(jù)集,語(yǔ)言理解任務(wù)的GLUE基準(zhǔn)(QNLI, QQP、MNLI-mismatched SST-2),以及視覺推理任務(wù)VQAv2 SNLI-VE數(shù)據(jù)集。

8d044a88-7f2a-11eb-8b86-12bb97331649.png

多任務(wù)訓(xùn)練的UniT性能優(yōu)于單獨(dú)訓(xùn)練的目標(biāo)檢測(cè)和VQA

8d3f74fa-7f2a-11eb-8b86-12bb97331649.png

基于UniT模型的目標(biāo)檢測(cè)與VQA的分析

8d86f6fe-7f2a-11eb-8b86-12bb97331649.png

UniT模型在8個(gè)數(shù)據(jù)集的7個(gè)任務(wù)上的性能

具有共享解碼器的UniT模型的預(yù)測(cè)

結(jié)果表明,所提出的UniT 模型同時(shí)處理8個(gè)數(shù)據(jù)集上的7個(gè)任務(wù),在統(tǒng)一的模型參數(shù)集下,每個(gè)任務(wù)都有較強(qiáng)的性能。強(qiáng)大的性能表明UniT有潛力成為一種領(lǐng)域未知的transformer 架構(gòu),向更通用的智能的目標(biāo)邁進(jìn)了一步。

原文標(biāo)題:【多模態(tài)】來自Facebook AI的多任務(wù)多模態(tài)的統(tǒng)一Transformer:向更通用的智能邁出了一步

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35118

    瀏覽量

    279669
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49012

    瀏覽量

    249388
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134597

原文標(biāo)題:【多模態(tài)】來自Facebook AI的多任務(wù)多模態(tài)的統(tǒng)一Transformer:向更通用的智能邁出了一步

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI多模態(tài)在建筑業(yè)安全領(lǐng)域廣泛應(yīng)用# 智慧工地#人工智能

    人工智能
    jf_60804796
    發(fā)布于 :2025年04月16日 11:05:07

    圓形連接器的廣泛應(yīng)用場(chǎng)景及其優(yōu)勢(shì)

    現(xiàn)代工業(yè)和科技領(lǐng)域,圓形連接器因其獨(dú)特的結(jié)構(gòu)和性能優(yōu)勢(shì),被廣泛應(yīng)用于各種場(chǎng)景。本文將詳細(xì)介紹圓形連接器的主要應(yīng)用場(chǎng)景及其優(yōu)勢(shì),幫助您更好地理解其重要性。 1. 工業(yè)自動(dòng)化 工業(yè)自動(dòng)
    的頭像 發(fā)表于 02-17 11:30 ?422次閱讀

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?4021次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    Norflash閃存芯片HT25Q20D廣泛應(yīng)用在汽車電子領(lǐng)域

    全球NOR Flash市場(chǎng)由四家主要制造商主導(dǎo),除巨頭之外,還有華芯邦等廠商市場(chǎng)上也占有一席之地,主要為藍(lán)牙、音頻、WIFI等SoC主控芯片生產(chǎn)商供貨,其產(chǎn)品廣泛應(yīng)用于各種消費(fèi)電子品牌。例如HT25Q20D廣泛應(yīng)用在汽車電子
    的頭像 發(fā)表于 01-13 15:20 ?878次閱讀
    Norflash閃存芯片HT25Q20D<b class='flag-5'>廣泛應(yīng)用</b>在汽車電子<b class='flag-5'>領(lǐng)域</b>

    領(lǐng)域廣泛應(yīng)用,DSP芯片市場(chǎng)有多大?

    從全球范圍來看,在數(shù)字化應(yīng)用越來越廣的情況下,DSP芯片使用率處于增長(zhǎng)態(tài)勢(shì)。那么,DSP芯片目前市場(chǎng)情況如何? 隨著通信、消費(fèi)電子、人工智能等領(lǐng)域的快速發(fā)展,對(duì)數(shù)字信號(hào)處理技術(shù)的要求也越來越高
    的頭像 發(fā)表于 12-12 10:28 ?671次閱讀
    多<b class='flag-5'>領(lǐng)域</b><b class='flag-5'>廣泛應(yīng)用</b>,DSP芯片市場(chǎng)有多大?

    智慧交通技術(shù)的廣泛應(yīng)用領(lǐng)域

    智慧交通 是一種結(jié)合了信息技術(shù)、通信技術(shù)和交通管理的創(chuàng)新模式,旨在提高城市交通系統(tǒng)的效率、安全性和可持續(xù)性。智慧交通技術(shù)各個(gè)領(lǐng)域廣泛的運(yùn)用范圍,涵蓋了城市交通管理、公共交通系統(tǒng)、道路安全、車輛
    的頭像 發(fā)表于 12-11 11:51 ?1076次閱讀

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?1560次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    氣體傳感器模塊應(yīng)急救援領(lǐng)域廣泛應(yīng)用與未來展望

    能力和強(qiáng)大的氣體監(jiān)測(cè)功能,成為應(yīng)急救援工作中不可或缺的重要工具。 氣體傳感器應(yīng)急救援領(lǐng)域的應(yīng)用范圍十分廣泛,從預(yù)防階段到響應(yīng)階段,再到恢復(fù)階段,都發(fā)揮著舉足輕重的作用。預(yù)防階段,通
    的頭像 發(fā)表于 11-18 10:03 ?688次閱讀
    氣體傳感器模塊<b class='flag-5'>在</b>應(yīng)急救援<b class='flag-5'>領(lǐng)域</b>的<b class='flag-5'>廣泛應(yīng)用</b>與未來展望

    AI大模型的最新研究進(jìn)展

    。例如,醫(yī)療領(lǐng)域,生成式AI可以幫助醫(yī)生生成診斷報(bào)告、治療方案等;在教育領(lǐng)域,AI大模型可以生成個(gè)性化的學(xué)習(xí)資源和建議。 多模態(tài)融合與交互 : AI大模型正在向多
    的頭像 發(fā)表于 10-23 15:19 ?1506次閱讀

    利用OpenVINO部署Qwen2多模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說,多模態(tài)大模型可以可以理解
    的頭像 發(fā)表于 10-18 09:39 ?1254次閱讀

    FPGA圖像處理領(lǐng)域的優(yōu)勢(shì)有哪些?

    高的應(yīng)用領(lǐng)域,F(xiàn)PGA是圖像處理的理想選擇。 綜上所述,F(xiàn)PGA圖像處理領(lǐng)域具有并行處理能力強(qiáng)
    發(fā)表于 10-09 14:36

    IP宿主信息不同領(lǐng)域廣泛應(yīng)用

    廣泛應(yīng)用。 什么是IP宿主信息? IP宿主信息是指與特定IP地址相關(guān)聯(lián)的詳細(xì)數(shù)據(jù)集合。通過網(wǎng)絡(luò)技術(shù)手段,對(duì)特定IP地址進(jìn)行深度解析后獲得的一系列相關(guān)信息。提供郵政編碼、經(jīng)緯度等信息的基礎(chǔ)上為用戶提供更加詳細(xì)的信息,如行業(yè)類型、商圈地址、
    的頭像 發(fā)表于 09-06 09:49 ?779次閱讀

    觸控傳感器:工作原理、運(yùn)行方式及廣泛應(yīng)用

    、便捷的操作方式,極大地提升了用戶體驗(yàn)。本文將深入探討觸控傳感器的工作原理、多樣化的運(yùn)行方式以及其領(lǐng)域廣泛應(yīng)用,帶領(lǐng)讀者一窺這一技術(shù)的奧秘。 觸控傳感器的工作原理 觸控傳感器的工作原理基于
    的頭像 發(fā)表于 08-29 10:17 ?1379次閱讀

    傳統(tǒng)型視頻展臺(tái)方案,廣泛應(yīng)用于教學(xué)培訓(xùn)、公司展示等領(lǐng)域

    傳統(tǒng)型視頻展臺(tái)方案,廣泛應(yīng)用于教學(xué)培訓(xùn)、公司展示等領(lǐng)域深圳市芯視音科技賴工 芯視音科技提供視頻展臺(tái)方案中后端圖像處理主IC-CV1860,此IC直接接收前端Sensor IC傳過來的如656等
    的頭像 發(fā)表于 08-23 16:06 ?501次閱讀

    FPGA自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用?

    控制。視覺算法方面,F(xiàn)PGA利用自身并行處理和高速存儲(chǔ)器的特點(diǎn),極大地加快了算法的執(zhí)行速度,提高了運(yùn)算效率。 五、未來發(fā)展趨勢(shì)隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展,F(xiàn)PGA自動(dòng)駕駛領(lǐng)域的應(yīng)用
    發(fā)表于 07-29 17:09