青春娱乐视频精品99,熟妇乱6P,亚洲女模扒泬大尺度自拍

日前，智源「悟道·視界」通用視覺大模型系列，帶來計算機(jī)視覺多任務(wù)處理能力方面的6項(xiàng)國際領(lǐng)先技術(shù)，迎接通用視覺智能曙光降臨，包括：

在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型Emu

最強(qiáng)十億級視覺基礎(chǔ)模型EVA

一通百通、分割一切的視界通用分割模型

首創(chuàng)上下文圖像學(xué)習(xí)技術(shù)路徑的通用視覺模型Painter

性能最強(qiáng)開源CLIP模型 EVA-CLIP

簡單prompt（提示）即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術(shù)

“悟道·視界”

通用視覺大模型系列開源地址：

EVA代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/EVA

論文地址

https://arxiv.org/abs/2211.07636

EVA-CLIP代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

論文地址

https://arxiv.org/abs/2303.15389

Painter代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2212.02499

「視界通用分割模型」代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/Painter

論文地址

https://arxiv.org/abs/2304.03284

Demo 地址

https://huggingface.co/spaces/BAAI/SegGPT

vid2vid-zero代碼和論文

Github 項(xiàng)目地址

https://github.com/baaivision/vid2vid-zero

論文鏈接

https://arxiv.org/abs/2303.17599

Demo 地址

https://huggingface.co/spaces/BAAI/vid2vid-zero

Emu：在多模態(tài)序列中補(bǔ)全一切的多模態(tài)大模型

多模態(tài)輸入，多模態(tài)輸出。

Emu作為業(yè)界首個多模態(tài)-to-多模態(tài)的多模態(tài)大模型，可以接受和處理不同模態(tài)的數(shù)據(jù)，并輸出想要的多模態(tài)類別。

基于多模態(tài)上下文學(xué)習(xí)技術(shù)路徑，從圖文、交錯圖文、交錯視頻文本等海量多模態(tài)序列中學(xué)習(xí)。訓(xùn)練完成后，Emu能在多模態(tài)序列的上下文中補(bǔ)全一切，對圖像、文本和視頻等多種模態(tài)的數(shù)據(jù)進(jìn)行感知、推理和生成，實(shí)現(xiàn)多輪圖文對話、視頻理解、精準(zhǔn)圖像認(rèn)知、文圖生成、多模態(tài)上下文學(xué)習(xí)、視頻問答和圖圖生成等多模態(tài)能力。

在零樣本COCO圖像描述性能方面，Emu超越Flagmingo-80B，取得109分。相比其他多模態(tài)模型，可以準(zhǔn)確識別出莫奈的日出印象；可以完成少樣本圖文理解，以兩個圖文對為例，可自動完成對應(yīng)任務(wù)；還可根據(jù)圖片或視頻進(jìn)行問答和多輪對話。

在生成能力方面，可以根據(jù)任意長度文本生成圖像；在圖圖生成方面，可以自動推理生成新的圖片；在多模態(tài)上下文生成方面，可以根據(jù)文本-圖片作為prompt，生成融合了上下文的新圖片。

EVA：最強(qiáng)十億級視覺基礎(chǔ)模型

通用性是大模型能力的重要指標(biāo)，亦是研究難點(diǎn)所在。如何讓通用視覺模型，在更高效的同時更簡單？語義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)是解決視覺問題的兩大關(guān)鍵點(diǎn)。

將最強(qiáng)十億級視覺基礎(chǔ)模型 EVA 正是將最強(qiáng)語義學(xué)習(xí)（CLIP）與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)（MIM）結(jié)合，再將標(biāo)準(zhǔn)的 ViT 模型擴(kuò)大規(guī)模至 10 億參數(shù)進(jìn)行訓(xùn)練，一舉在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務(wù)中取得當(dāng)時最強(qiáng)性能。

視覺預(yù)訓(xùn)練模型EVA的命名來源于論文標(biāo)題“Exploring the Limits of Masked Visual Representation Learning at Scale”相關(guān)字母的簡化，意為探索遮蔽視覺表征學(xué)習(xí)的極限。

EVA模型把以“視覺為中心”作為建模思想，將語義學(xué)習(xí)（CLIP）與幾何結(jié)構(gòu)學(xué)習(xí)（MIM）結(jié)合，僅使用標(biāo)準(zhǔn)的 ViT 模型，并將其規(guī)模擴(kuò)大到十億參數(shù)（1-Billion）進(jìn)行訓(xùn)練。

模型訓(xùn)練方法是使用圖像-文本對齊（即CLIP）的視覺特征作為MIM的預(yù)測目標(biāo)，模型設(shè)計思路有兩個特點(diǎn)：

高效，EVA僅使用開源的純圖像數(shù)據(jù)即可進(jìn)行掩碼預(yù)測任務(wù)，不需要預(yù)訓(xùn)練階段重新學(xué)習(xí)語義以及不需要巨量的成對有標(biāo)注數(shù)據(jù)。相比而言，主流標(biāo)桿性模型（ViT-g、SwinV2、CoCa等）仍依賴于冗長的有監(jiān)督或弱監(jiān)督訓(xùn)練，以及不可公開訪問的數(shù)億級有標(biāo)簽數(shù)據(jù)。

簡單，EVA不需要特殊設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。使用簡單的網(wǎng)絡(luò)結(jié)構(gòu)—標(biāo)準(zhǔn)的ViT-g，而無需額外特殊設(shè)計的算子，使得其非常容易的遷移到廣泛的下游任務(wù)，并且可以和其他模態(tài)共享。

經(jīng)過實(shí)驗(yàn)，模型在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務(wù)中取得當(dāng)前最強(qiáng)性能。

如上圖，ImageNet圖像分類中取得89.7%的top-1準(zhǔn)確率；Kinetics-700視頻動作識別取得82.9%的top-1準(zhǔn)確率；COCO目標(biāo)檢測取得64.7 mAP、實(shí)例分割取得55.5 mAP；LVIS的實(shí)例分割取得55.0 mAP；語義分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。

Painter通用視覺模型：首創(chuàng)「上下文視覺學(xué)習(xí)」技術(shù)路徑

圖像理解圖像、圖像解釋圖像，圖像輸出圖像。將NLP中的上下文學(xué)習(xí)概念引入視覺模型，是智源對通用智能的新探索。

通用視覺模型 Painter , 將“以視覺為中心”作為建模核心思想，將圖像作為輸入和輸出，從而獲得上下文視覺信息，完成不同的視覺任務(wù)。

通用視覺模型Painter的設(shè)計思路是將大多數(shù)視覺任務(wù)看成”圖像修復(fù)問題“，即給定輸入（“缺失”）圖像，預(yù)測輸出是“修復(fù)“過的圖像。這保持了像素之間的空間關(guān)系，確保每個輸出圖像的像素仍然代表相關(guān)任務(wù)的輸出。

Painter的建模要素可以歸納為三部分：輸入、架構(gòu)以及損失函數(shù)。

輸入為圖像。任務(wù)輸入和輸出都是圖像，會隨機(jī)遮蔽任務(wù)輸出圖像，并訓(xùn)練模型重構(gòu)缺失（被遮蔽掉）的像素。研究人員發(fā)現(xiàn)，遮蔽比例為75%效果最好。

損失函數(shù)采用簡單的回歸損失。研究人員發(fā)現(xiàn)，Smooth l1 損失能幫助模型取得最好的性能。

架構(gòu)采用基本的ViT（vision Transformer）作為編碼器。具體來說，神經(jīng)網(wǎng)絡(luò)頭部（head）由兩個線性層（每個是1×1卷積），一個3×3卷積層組成。

模型目前可完成 7 種主流視覺任務(wù)，已經(jīng)在深度估計、語義分割等核心視覺任務(wù)中性能“大幅超越同類”，相比同類模型具有 11%~25% 的性能提升，超過了圖靈獎得主 Geoffrey Hinton 團(tuán)隊(duì)的 Pix2Seqv2，艾倫AI研究所的視覺通用模型 Unified-IO 和谷歌的 UViM。

「視界」通用分割模型：一通百通，分割一切

「視界通用分割模型」基于通用模型Painter開發(fā)，是首個利用視覺提示（prompt）完成任意分割任務(wù)的通用視覺模型，一通百通、分割一切。

從影像中分割出各種各樣的對象，是視覺智能的關(guān)鍵里程碑。今年年初，智源視界分割模型與Meta 的 SAM 模型同時發(fā)布，點(diǎn)亮通用視覺曙光。

它將分割任務(wù)視為一種通用的視覺感知格式，即通過將它們轉(zhuǎn)化為圖像的相同格式來適應(yīng)不同種類的分割數(shù)據(jù)；同時，模型訓(xùn)練被構(gòu)造為一個在上下文中的著色問題，即目標(biāo)是只根據(jù)上下文，來著色相應(yīng)的區(qū)域，而不是依賴特定的顏色，這使得模型更靈活和可泛化。

總的來說「視界通用分割模型」在基礎(chǔ)模型Painter做了三點(diǎn)主要創(chuàng)新：

1.上下文隨機(jī)著色方法。首先隨機(jī)采樣與輸入圖像“相似”的圖像，然后從目標(biāo)圖像中隨機(jī)抽取一組顏色，并將每種顏色映射到一個隨機(jī)顏色，如此可得到兩對圖像，被定義為上下文對。從而打破了原始圖像中的顏色關(guān)聯(lián)，迫使模型“放棄”顏色信息依賴，更多依賴依賴上下文信息。

2.上下文集成方法。兩種集成方案：空間集成，將多個示例圖像拼接在一起，并將它們調(diào)整到與單個示例相同的大?。惶卣骷?，將多個示例在批處理維度上進(jìn)行組合，并獨(dú)立計算。兩種集成方式讓模型可以使用多個示例，從而提供更準(zhǔn)確和具體的上下文信息。

3.上下文微調(diào)方法。凍結(jié)整個模型，并初始化一個可學(xué)習(xí)的圖像張量作為輸入上下文。在訓(xùn)練過程中，只有這個可學(xué)習(xí)的圖像張量會被更新，其他的訓(xùn)練過程保持不變。從而能以靈活的方式適應(yīng)特定的任務(wù)或數(shù)據(jù)集。

以上技術(shù)讓「視界通用分割模型」具備輸入任意數(shù)量的prompt，以及對特定場景優(yōu)化專用prompt的能力。即「視界通用分割模型」解鎖了上下文推理能力，訓(xùn)練完成后無需微調(diào)，只需提供示例即可自動推理并完成對應(yīng)分割任務(wù)。

實(shí)驗(yàn)結(jié)果也顯示了模型強(qiáng)大的能力。例如模型只需少數(shù) prompt 示例，在 COCO 和 PASCAL 數(shù)據(jù)集上取得最優(yōu)性能；模型的零樣本場景遷移實(shí)驗(yàn)中，模型在少樣本語義分割測試集 FSS-1000 上，在無需訓(xùn)練的情況下取得最佳性能；另外，無需視頻訓(xùn)練數(shù)據(jù)，模型可直接進(jìn)行視頻物體分割，并取得和專門優(yōu)化的模型相當(dāng)?shù)男阅堋?/p>

EVA-CLIP：性能最強(qiáng)開源CLIP模型

零樣本學(xué)習(xí)是指僅通過描述讓AI“認(rèn)出”未見過的物體，是評價模型泛化能力的重要指標(biāo)。多模態(tài)預(yù)訓(xùn)練模型CLIP 作為零樣本學(xué)習(xí)基礎(chǔ)模型，廣受業(yè)界認(rèn)可。

智源視覺團(tuán)隊(duì)于2023年初發(fā)布的 EVA-CLIP 5B 版本，創(chuàng)造了零樣本學(xué)習(xí)性能新高度：超越此前最強(qiáng)的 OpenCLIP 模型，在 ImageNet1K 零樣本 top1 達(dá)到最高的 82.0% 準(zhǔn)確率。

而去年發(fā)布的 EVA-CLIP 1B 版本，今年才被 Meta 發(fā)布的 DINOv2 模型追平 ImageNet kNN準(zhǔn)確率指標(biāo)。

EVA-CLIP是一系列模型的總稱，集成了當(dāng)前新興的幾種模型訓(xùn)練技術(shù)，包括用EVA預(yù)訓(xùn)練模型進(jìn)行初始化，用LAMB優(yōu)化器加速模型，用FLIP技術(shù)節(jié)省訓(xùn)練時間等等。具體而言，模型有兩種集成思路：

1.EVA預(yù)訓(xùn)練 + LAMB優(yōu)化器讓CLIP模型表現(xiàn)更加強(qiáng)大。

視覺預(yù)訓(xùn)練模型 EVA 能將語義學(xué)習(xí)（CLIP）與幾何結(jié)構(gòu)學(xué)習(xí)（MIM）結(jié)合，在標(biāo)準(zhǔn)模型基礎(chǔ)上，將規(guī)模擴(kuò)大到十億參數(shù)（1-Billion）進(jìn)行訓(xùn)練。EVA 模型的輸入為有遮蓋的圖像，但遮蓋部分能重構(gòu) CLIP 模型對應(yīng)位置，從而獲得高效、簡單的可泛化模型。

LAMB優(yōu)化器專門面向大批量（batch）訓(xùn)練，考慮到它自適應(yīng)的學(xué)習(xí)率和動量參數(shù)設(shè)置的優(yōu)勢，為避免泛化差距難題，研究員認(rèn)為LAMB優(yōu)化器比Adam、RMSprop更適合訓(xùn)練大規(guī)模CLIP模型。

2，F(xiàn)lashAttention機(jī)制+ FLIP加速讓CLIP模型訓(xùn)練更迅速。

FlashAttention算法可以在執(zhí)行更少的內(nèi)存/訪問的基礎(chǔ)之上，在加速和節(jié)省內(nèi)存的基礎(chǔ)上計算精確注意力。研究員使用該機(jī)制訓(xùn)練CLIP時可以提升15%-30%的訓(xùn)練速度。

FLIP旨在通過簡單的圖像掩蔽提升CLIP的訓(xùn)練速度，帶來性能提升。實(shí)踐中，研究員隨機(jī)掩蔽了50%的圖像標(biāo)簽，減少一半的時間復(fù)雜度。

實(shí)驗(yàn)結(jié)果表現(xiàn)，50億參數(shù)量的EVA-CLIP模型，零樣本分類和檢索的性能全面提升。在ImageNet1K零樣本top1 準(zhǔn)確率達(dá)到了82.0%，高于此前最佳OpenCLIP的80%；在 MS COCO 上實(shí)現(xiàn)了75.0% 的zero-shot圖像檢索（Recall@5）。

同時，EVA-CLIP兼顧了泛化能力和魯棒性。例如EVA-CLIP與27個零樣本圖像分類基準(zhǔn)的對比，效果最好的EVA-CLIP達(dá)到了平均77.5的Top-1準(zhǔn)確率，模型泛化能力業(yè)界領(lǐng)先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6個基準(zhǔn)測試中獲得了平均80.9%的準(zhǔn)確率，這充分證實(shí)了魯棒性。

vid2vid-zero：簡單prompt（提示）即可視頻編輯的零樣本視頻編輯方法

現(xiàn)有文本驅(qū)動的 AIGC 視頻編輯方法嚴(yán)重依賴于在大量「文本-視頻」數(shù)據(jù)上調(diào)整預(yù)訓(xùn)練好的視頻擴(kuò)散模型，需要龐大的計算資源，帶來了高昂的人工數(shù)據(jù)標(biāo)注成本和計算成本。

智源研究院提出了零樣本視頻編輯方法「vid2vid-zero」，首次在無需額外視頻訓(xùn)練的情況下，利用注意力機(jī)制動態(tài)運(yùn)算的特點(diǎn)，結(jié)合現(xiàn)有圖像擴(kuò)散模型，實(shí)現(xiàn)可指定屬性的視頻編輯。

這里用兩組視頻展示了模型的有效性。我們介紹第一組：輸入文本“a man is running”。

加入指令：動漫風(fēng)格。輸出結(jié)果可以很好的將人物轉(zhuǎn)換成動漫，展示了模型風(fēng)格編輯能力。

加入指令：一位老人在海灘。輸出結(jié)果說明模型的屬性編輯和背景編輯能力已經(jīng)過關(guān)。

此外，論文中公布了更多的視頻案例，更多模型能力，請?jiān)L問論文。

用戶根據(jù)「視頻質(zhì)量」、「文本與視頻的對齊程度」、「對原始視頻的保真度」在 32 段視頻上對 vid2vid-zero、TAV、PnP 模型的性能進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明，vid2vid-zero 在上述三項(xiàng)指標(biāo)上都具有顯著優(yōu)勢。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

大模型

大模型

+關(guān)注

關(guān)注
2

文章
3579

瀏覽量
5077

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

「悟道·視界」視覺大模型系列，6項(xiàng)領(lǐng)先成果技術(shù)詳解

評論

搜索歷史

「悟道·視界」視覺大模型系列，6項(xiàng)領(lǐng)先成果技術(shù)詳解

評論

「悟道·視界」視覺大模型系列，6項(xiàng)領(lǐng)先成果技術(shù)詳解