chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞研提出VL-BERT,現(xiàn)取得了當前單模型的最好效果

JqWP_youuav ? 來源:陳年麗 ? 2019-09-03 15:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器之心發(fā)布

來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語言預訓練模型(Visual-Linguistic BERT,簡稱 VL-BERT),該模型采用簡單而強大的 Transformer 模型作為主干網(wǎng)絡,并將其輸入擴展為同時包含視覺與語言輸入的多模態(tài)形式,適用于絕大多數(shù)視覺-語言下游任務。

為了讓 VL-BERT 模型利用更為通用的特征表示,作者在大規(guī)模圖片描述生成數(shù)據(jù)集 ConceptualCaptions 中進行 VL-BERT 的預訓練,實驗證明此預訓練過程可以顯著提高下游的視覺-語言任務的效果,包含視覺常識推理、視覺問答與引用表達式理解等。值得一提的是,在視覺常識推理排行榜中,VL-BERT 取得了當前單模型的最好效果。

適用于下游任務的通用特征表示預訓練是深度網(wǎng)絡成功的標志之一。在計算機視覺領(lǐng)域,深度網(wǎng)絡在 ImageNet 數(shù)據(jù)集進行圖像分類的預訓練過程,被發(fā)現(xiàn)可廣泛提高多種圖像識別任務的效果。在自然語言處理領(lǐng)域中,Transformer 模型在大規(guī)模語料庫中使用語言模型進行預訓練的過程,也被證明可廣泛提高多種自然語言處理任務的效果。

但對于計算機視覺和自然語言處理領(lǐng)域交叉的任務,例如圖像標題生成、視覺問答、視覺常識推理等,缺少這種預訓練的通用多模態(tài)特征表示。

一般來說,之前的視覺-語言模型分別使用計算機視覺或自然語言處理領(lǐng)域中的預訓練模型進行初始化,但如果目標任務數(shù)據(jù)量不足,模型容易過擬合從而損失性能。并且對于不同的視覺-語言任務,其網(wǎng)絡架構(gòu)一般是經(jīng)過特殊設計的,由此很難通過視覺-語言聯(lián)合預訓練的過程幫助下游任務。

由此,在本文中,提出了一種可廣泛應用于視覺-語言任務的預訓練通用特征表示,稱為 Visual-LinguisitcBERT,簡稱 VL-BERT,其架構(gòu)如下圖所示:

VL-BERT 的主干網(wǎng)絡使用 TransformerAttention 模塊,并將視覺與語言嵌入特征作為輸入,其中輸入的每個元素是來自句子中的單詞、或圖像中的感興趣區(qū)域(Region of Interests,簡稱 RoIs)。在模型訓練的過程中,每個元素均可以根據(jù)其內(nèi)容、位置、類別等信息自適應地聚合來自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后,其特征表示即具有更為豐富的聚合與對齊視覺和語言線索的能力。

為了更好地建模通用的視覺-語言表示,在大規(guī)模視覺-語言語料庫中對 VL-BERT 進行了預訓練。采用的預訓練數(shù)據(jù)集為圖像標題生成數(shù)據(jù)集,Conceptual Captions,其中包含了大約 330 萬個圖像標題對。

VL-BERT 的預訓練主要采用三個任務:a) 屏蔽語言模型(Masked Language Modeling),即隨機屏蔽掉語句中的一些詞,并預測當前位置的詞是什么;b) 屏蔽 RoI 分類(MaskedRoIClassification),即隨機屏蔽掉視覺輸入中的一些 RoIs,并預測此空間位置對應 RoI 的所屬類別;c) 圖像標題關(guān)聯(lián)預測(Sentence-Image Relationship Prediction),即預測圖像與標題是否屬于同一對。

在預訓練結(jié)束后,使用微調(diào)來進行下游任務的訓練。本文中主要在三個視覺-語言下游任務中進行微調(diào),即視覺常識推理(VisualCommonsenseReasoning)、視覺問答(VisualQuestionAnswering)與引用表達式理解(ReferringExpressionComprehension),下面將分別介紹。

視覺常識推理任務即給定圖片與相關(guān)問題,機器不僅需要回答問題,還需要提供理由來證明答案的正確性。此任務(Q-》AR)被分解為兩個子任務,即視覺問答(Q-》A,給定圖片與問題,輸出正確答案),以及視覺推理(QA-》R,給定圖片、問題與答案,輸出正確的理由)。

下面以視覺問答子任務為例,此任務的輸入為問題、答案與圖像的 RoIs,并預測此答案是否為正確答案。除此之外,作者發(fā)現(xiàn)微調(diào)時增加與預訓練類似的 RoI 分類損失也會進一步提升性能,如下:

視覺問答任務即給定圖片,回答與圖片輸入相關(guān)的問題。由此模型的輸入即為問題與圖像,基本元素為單詞或 RoI,最終對答案進行預測,如下:

引用表達式理解任務是使用給定的引用表達式來定位圖像中的相關(guān)對象,由此輸入為查詢(引用表達式)與圖片中的 RoIs,并預測哪個 RoI 為查詢輸入的引用,如下:

下面將介紹論文中的一些主要實驗結(jié)果:

a)在視覺常識推理(Visual Commonsense Reasoning)任務中,與當前最好方法的結(jié)果比較如下:

b)在視覺問答(Visual Question Answering)任務中,與當前最好方法的結(jié)果比較如下:

c)在引用表達式理解(Referring Expression Comprehension)任務中,與當前最好方法的結(jié)果比較如下:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6705

    瀏覽量

    107100
  • 機器
    +關(guān)注

    關(guān)注

    0

    文章

    795

    瀏覽量

    41727

原文標題:牛人發(fā)明無人機自動建房,空中噴“水泥”,網(wǎng)友:建筑工人要失業(yè)

文章出處:【微信號:youuav,微信公眾號:無人機網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中軟國際在能源化工行業(yè)大模型項目取得重大突破

    近日,中軟國際簽約某大型石油企業(yè)大模型開發(fā)項目。作為中國能源化工行業(yè)首個備案的大模型,此次簽約標志著中軟國際在能源化工行業(yè)人工智能領(lǐng)域取得了重大突破。根據(jù)項目規(guī)劃,中軟國際將針對輸送管質(zhì)量檢測、常減壓工藝運行優(yōu)化、設備預測性維護
    的頭像 發(fā)表于 07-05 17:03 ?1072次閱讀

    CADENAS 在 2025 年金字塔公司聯(lián)系博覽會上取得圓滿成功

    表現(xiàn)出了極大的積極性和好奇心。這種直接的交流和相互了解讓我們覺得這次招聘會非常特別! 感謝奧格斯堡大學的活動團隊 展會出色的組織工作、友好的氛圍以及美味的食物再次給我們留下了深刻印象。每年的金字塔公司招聘會都為我們提供了一個接觸年輕人才的絕佳平臺,2025 年的招聘會對我們來說又一次取得了圓滿成功。
    發(fā)表于 06-04 14:32

    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列模型

    近期阿里通義實驗室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內(nèi)的 3 個模型尺寸。
    的頭像 發(fā)表于 03-12 13:42 ?1947次閱讀
    利用英特爾OpenVINO在本地運行Qwen2.5-<b class='flag-5'>VL</b>系列<b class='flag-5'>模型</b>

    使用OpenVINO? 2021.4在CPU和MYRIAD上進行自定義對象檢測,為什么結(jié)果差異巨大?

    使用自定義訓練的模型執(zhí)行推理,以便在 2021.4 OpenVINO?中進行人員檢測。 與 MYRIAD 相比,CPU 的輸出結(jié)果取得了巨大的差異
    發(fā)表于 03-06 07:45

    一種基于正交與縮放變換的大模型量化方法

    近年來,大規(guī)模語言模型(Large Language Models, LLMs)在自然語言處理領(lǐng)域取得了革命性進展。以 GPT 系列、LLaMA 等為代表的模型,通過千億級參數(shù)的復雜結(jié)構(gòu)展現(xiàn)出強大的語義理解和生成能力。
    的頭像 發(fā)表于 03-04 11:10 ?756次閱讀
    一種基于正交與縮放變換的大<b class='flag-5'>模型</b>量化方法

    中科馭數(shù)DPU助力大模型訓練和推理

    隨著深度學習技術(shù)的快速發(fā)展,大模型(如GPT、BERT等)在自然語言處理、計算機視覺等領(lǐng)域取得了顯著成果。然而,大模型的參數(shù)量和計算量極其龐大,傳統(tǒng)的硬件架構(gòu)或者單臺設備(如單個GPU
    的頭像 發(fā)表于 02-19 09:48 ?964次閱讀
    中科馭數(shù)DPU助力大<b class='flag-5'>模型</b>訓練和推理

    字節(jié)豆包大模型團隊提出稀疏模型架構(gòu)

    字節(jié)跳動豆包大模型Foundation團隊近期研發(fā)出UltraMem,一種創(chuàng)新的稀疏模型架構(gòu),旨在解決推理過程中的訪存問題,同時確保模型效果不受影響。
    的頭像 發(fā)表于 02-13 15:25 ?885次閱讀

    國內(nèi)AI行業(yè)近期取得顯著進展

    近期,國內(nèi)AI行業(yè)在視覺訓練和應用層面取得了多項令人矚目的進展。其中,VideoWorld的純視覺訓練方式在LDM(可能是指某種特定技術(shù)或模型,原文未明確)的加持下,展現(xiàn)出了卓越的訓練效果。這種訓練
    的頭像 發(fā)表于 02-13 11:25 ?780次閱讀

    字節(jié)豆包大模型團隊推出UltraMem稀疏架構(gòu)

    字節(jié)跳動豆包大模型Foundation團隊近期在稀疏模型架構(gòu)領(lǐng)域取得了新突破,提出了一種名為UltraMem的新型架構(gòu)。這一架構(gòu)通過將計算和參數(shù)解耦,成功解決了
    的頭像 發(fā)表于 02-13 11:17 ?973次閱讀

    生成式人工智能模型的安全可信評測

    近些年來,生成式人工智能技術(shù)取得了飛躍發(fā)展。隨著各式各樣的大模型不斷迭代升級,從一般通用生成能力,到各種專有領(lǐng)域的細分能力,再到更注重與用戶的實際交互,大模型的各項能力顯著提升,人工智能應用越來越
    的頭像 發(fā)表于 01-22 13:55 ?1420次閱讀
    生成式人工智能<b class='flag-5'>模型</b>的安全可信評測

    大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

    的機制,應用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結(jié)構(gòu)。 為了解決這些問題,大連理工大學的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾方法。所提出方法在圖像分類和目標檢測任務上均
    的頭像 發(fā)表于 01-21 09:45 ?881次閱讀

    基于移動自回歸的時序擴散預測模型

    回歸取得了比傳統(tǒng)基于噪聲的擴散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預測領(lǐng)域,
    的頭像 發(fā)表于 01-03 14:05 ?1487次閱讀
    基于移動自回歸的時序擴散預測<b class='flag-5'>模型</b>

    微軟科技2025年的新年祝福

    2024即將畫上句號,在過去的一年里,很微軟 AI持續(xù)創(chuàng)新和突破,并取得了矚目的成就。
    的頭像 發(fā)表于 01-02 09:09 ?764次閱讀

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    取得了令人矚目的效果。 閱讀感悟 從傳統(tǒng)的手動編程到借助大模型實現(xiàn)智能化、自主化,從單一模態(tài)的交互到多模態(tài)信息的深度融合,再到擴散模型的應用,機器人控制技術(shù)正在以驚人的速度進化。這不
    發(fā)表于 12-29 23:04

    國外科研團隊在X射線科學領(lǐng)域取得了重大突破

    近日,據(jù)《自然·光子學》報道,歐洲X射線自由電子激光裝置(XFEL)和德國電子同步加速器研究中心團隊在X射線科學領(lǐng)域取得了重大突破。他們成功生成了前所未有的高功率、阿秒級硬X射線脈沖,且重復頻率達到
    的頭像 發(fā)表于 12-20 09:11 ?614次閱讀