草裙社区精品播放2区3区,免费AA片在线观看国产不卡,欧美爆乳在线观看视频

一個模型完成了CV，NLP方向的7個任務，每個任務上表現都非常好。

Transformer架構在自然語言處理和其他領域的機器學習(ML)任務中表現出了巨大的成功，但大多僅限于單個領域或特定的多模態(tài)領域的任務。例如，ViT專門用于視覺相關的任務，BERT專注于語言任務，而VILBERT-MT只用于相關的視覺和語言任務。

一個自然產生的問題是：我們能否建立一個單一的Transformer，能夠在多種模態(tài)下處理不同領域的廣泛應用？最近，Facebook的一個人工智能研究團隊進行了一個新的統(tǒng)一Transformer(UniT) encoder-decoder模型的挑戰(zhàn)，該模型在不同的模態(tài)下聯(lián)合訓練多個任務，并通過一組統(tǒng)一的模型參數在這些不同的任務上都實現了強大的性能。

Transformer首先應用于sequence-to-sequence模型的語言領域。它們已經擴展到視覺領域，甚至被應用于視覺和語言的聯(lián)合推理任務。盡管可以針對各種下游任務中的應用對預先訓練好的Transformer進行微調，并獲得良好的結果，但這種模型微調方法會導致為每個下游任務創(chuàng)建不同的參數集。

Facebook的人工智能研究人員提出，一個Transformer可能就是我們真正需要的。他們的UniT是建立在傳統(tǒng)的Transformer編碼器-解碼器架構上，包括每個輸入模態(tài)類型的獨立編碼器，后面跟一個具有簡單的每個任務特定的頭的解碼器。輸入有兩種形式：圖像和文本。首先，卷積神經網絡骨干網提取視覺特征，然后BERT將語言輸入編碼成隱藏狀態(tài)序列。然后，Transformer解碼器應用于編碼的單個模態(tài)或兩個編碼模態(tài)的連接序列(取決于任務是單模態(tài)還是多模態(tài))。最后，Transformer解碼器的表示將被傳遞到特定任務的頭，該頭將輸出最終的預測。

UniT模型概要

評估UniT的性能，研究人員進行了實驗，需要共同學習來自不同領域的許多流行的任務：COCO目標檢測和 Visual Genome數據集，語言理解任務的GLUE基準(QNLI, QQP、MNLI-mismatched SST-2)，以及視覺推理任務VQAv2 SNLI-VE數據集。