
通過單擊、交互式點擊即可分割圖像或視頻
英偉達 AI 科學(xué)家 Jim Fan 在 Twitter 上驚呼,Meta 發(fā)布的 SAM 讓計算機視覺(CV)迎來 GPT-3 時刻。更不可思議的是,模型和數(shù)據(jù)(1100萬張圖像,10億個掩碼)都已經(jīng)基于 Apache 2.0 許可開源。

今日,Meta 發(fā)布首個可“任意圖像分割”的基礎(chǔ)模型 Segment-Anything Model(SAM)和最大規(guī)模的“任意分割 10 億掩碼數(shù)據(jù)集「Segment Anything 1-Billion mask dataset (SA-1B)」,將自然語言領(lǐng)域的 prompt 范式引入了 CV 領(lǐng)域,進而為 CV 基礎(chǔ)模型提供更廣泛的支持與深度研究。
SAM Demo:https://segment-anything.com/
開源地址:https://github.com/facebookresearch/segment-anything
論文地址:https://ai.facebook.com/research/publications/segment-anything/
SA-1B數(shù)據(jù)集:https://ai.facebook.com/datasets/segment-anything/
1. 圖片、視頻皆可分割
分割,作為 CV 領(lǐng)域的核心任務(wù),被廣泛應(yīng)用在科學(xué)圖像到編輯照片等應(yīng)用程序員中,但是,為特定任務(wù)創(chuàng)建準確的分割模型通常需要技術(shù)專家進行高度專業(yè)化的工作,并且需要訪問 AI 培訓(xùn)基礎(chǔ)設(shè)施和大量精心注釋領(lǐng)域內(nèi)方面的數(shù)據(jù)能力。
SAM 通過 prompt 工程能力即可分割任意想分割的圖像。

截圖自SAM論文
SAM 已經(jīng)學(xué)會了物體的一般概念,并且可以為任何圖像或視頻中的任何對象生成掩模,甚至包括在訓(xùn)練期間沒有遇到過的對象和圖像類型。
SAM 足夠通用,可以涵蓋廣泛的用例,并且可以直接在新的圖像“領(lǐng)域”上使用——無論是水下照片還是細胞顯微鏡——都不需要額外的訓(xùn)練(這種能力通常稱為零樣本遷移)。
之前,為了解決分割問題,一般會采用兩種分類方法:
第一種是交互式分割,可以對任何類別的對象進行分割,但需要人員通過迭代地細化掩模來指導(dǎo)該方法。
第二種是自動分割,允許預(yù)先定義特定對象類別(例如貓或椅子)的分割,但需要大量手動注釋的對象進行訓(xùn)練(例如數(shù)千甚至數(shù)萬個已經(jīng)過分割處理的貓示例),以及計算資源和技術(shù)專業(yè)知識來訓(xùn)練分割模型。這兩種方法都沒有提供通用、完全自動化的分割方法。
SAM 集合了上面兩種方法,成為一個單一模型,可以輕松執(zhí)行交互式分割和自動分割。
1、SAM 允許用戶通過單擊、交互式點擊或邊界框提示來分割對象;
2、當面臨關(guān)于正在分割的對象歧義時,SAM可以輸出多個有效掩碼,這是解決現(xiàn)實世界中分割問題所必需的重要能力;
3、SAM可以自動查找并遮罩圖像中的所有對象;
4、在預(yù)計算圖像嵌入后,SAM 可以為任何提示生成實時分割掩碼,從而允許與模型進行實時交互。
SAM 在超過 10億個掩碼組成的多樣化高質(zhì)量數(shù)據(jù)集上進行訓(xùn)練(作為該項目的一部分),從而使其能夠推廣到訓(xùn)練期間未觀察到的新類型對象和圖像之外。這種推廣能力意味著,總體來說,從業(yè)者將不再需要收集自己的分割數(shù)據(jù)并微調(diào)用于他們用例場景中的模型。
2. SAM 背后的技術(shù)
Meta AI 團隊在官博中直言到,SAM 的研發(fā)靈感來自于自然語言和計算機視覺中的 “prompt 工程”,只需對新數(shù)據(jù)集和任務(wù)執(zhí)行零樣本學(xué)習(xí)和少樣本學(xué)習(xí)即可使其能夠基于任何提示返回有效的分割掩模。其中,提示可以是前景/背景點、粗略框或掩模、自由文本或者一般情況下指示圖像中需要進行分割的任何信息。有效掩模的要求意味著即使提示不明確并且可能涉及多個對象(例如,在襯衫上的一個點既可能表示襯衫也可能表示穿著它的人),輸出應(yīng)該是其中一個對象合理的掩模。這項任務(wù)用于預(yù)訓(xùn)練模型,并通過提示解決通用下游分割任務(wù)。
研發(fā)人員觀察到預(yù)訓(xùn)練任務(wù)和交互式數(shù)據(jù)收集對模型設(shè)計施加了特定的限制。特別是,為了使標注員能夠在實時交互中高效地進行標注,模型需要在 Web 瀏覽器上以實時方式運行于 CPU 上。雖然運行時間約束意味著質(zhì)量和運行時間之間存在權(quán)衡,但他們發(fā)現(xiàn),簡單的設(shè)計在實踐中產(chǎn)生良好的結(jié)果。
在模型設(shè)計中,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器實時將任何提示轉(zhuǎn)換為嵌入向量。然后,在輕量級解碼器中將這兩個信息源組合起來以預(yù)測分割掩模。計算出圖像嵌入后,SAM 可以在 Web 瀏覽器中僅用 50 毫秒的時間根據(jù)任何提示生成一個段落。

在 Web 瀏覽器中,SAM 高效地將圖像特征和一組提示嵌入映射到生成分割掩模。
3. 超 1100 萬張照片,1B+掩碼
數(shù)據(jù)集來自 SAM 收集,而在訓(xùn)練起初,并無任何數(shù)據(jù),而今天發(fā)布的數(shù)據(jù)集已是迄今為止最大的數(shù)據(jù)了。注釋員使用 SAM 交互式地注釋圖像,然后新注釋的數(shù)據(jù)反過來用于更新 SAM,彼此相互作用,重復(fù)執(zhí)行此循環(huán)來改善模型和數(shù)據(jù)集。
使用 SAM 收集新分割掩碼比以往任何時候都更快,僅需約 14 秒即可交互式地注釋掩碼。相對于標記邊界框所需時間約 7 秒鐘(使用最快速度標記接口),每個掩碼標記流程只慢 2 倍左右。與之前大規(guī)模分割數(shù)據(jù)收集努力相比,該模型比 COCO 完全手動基于多邊形遮罩注釋快 6.5 倍,比先前最大的數(shù)據(jù)注釋工作快了 2 倍,并且是基于模型協(xié)助完成任務(wù) 。
盡管如此,交互式的標記掩碼依然無法擴展創(chuàng)建 10 億個掩碼數(shù)據(jù)庫,于是便有了用于創(chuàng)建 SA-1B 數(shù)據(jù)庫的“引擎”。該引擎有三個“檔位”。
在第一檔中,模型協(xié)助注釋員,相互作用;
第二檔是完全自動化的注釋與輔助注釋相結(jié)合,有助于增加收集到的掩碼的多樣性;
數(shù)據(jù)引擎的最后一個檔位是完全自動遮罩創(chuàng)建,進而使數(shù)據(jù)庫可以擴展。
最終,數(shù)據(jù)集在超過 1100 萬張經(jīng)過許可和隱私保護的圖像上收集到了超過 11 億個分割掩模。SA-1B 比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍,經(jīng)人類評估驗證,這些掩模具有高質(zhì)量和多樣性,在某些情況下甚至可以與以前規(guī)模小得多、完全手動注釋的數(shù)據(jù)集中的掩模相媲美。


Segment Anything 是通過使用數(shù)據(jù)引擎收集數(shù)百萬張圖像和掩模進行訓(xùn)練,從而得到一個超 10 億個分割掩模的數(shù)據(jù)集,這比以往任何分割數(shù)據(jù)集都大400倍。
將來,SAM 可能被用于任何需要在圖像中找到和分割任何對象的領(lǐng)域應(yīng)用程序。
對于 AI 研究社區(qū)或其他人來說,SAM 可能更普遍理解世界、例如理解網(wǎng)頁視覺和文本內(nèi)容等更大型 AI 系統(tǒng)中組件;
在 AR/VR 領(lǐng)域,SAM 可以根據(jù)用戶注視選擇一個對象,然后將其“提升”到 3D;
對于內(nèi)容創(chuàng)作者來說,SAM 可以改進諸如提取碎片或視頻編輯等創(chuàng)意應(yīng)用程序;
SAM 也可用來輔助科學(xué)領(lǐng)域研究,如地球上甚至空間自然現(xiàn)象, 例如通過定位要研究并跟蹤視頻中的動物或物體。


最后,SAM 團隊表示,通過分享他們的研究和數(shù)據(jù)集,來進一步加速分割更常見的圖像和視頻??商崾臼椒指钅P涂梢宰鳛檩^大系統(tǒng)中的組件執(zhí)行分割任務(wù)。未來,通過組合系統(tǒng)可擴展單個模型使用,通過提示工程等技術(shù)實現(xiàn)可組合系統(tǒng)設(shè)計,進而使得比專門針對固定任務(wù)集訓(xùn)練的系統(tǒng)能夠得更廣泛的領(lǐng)域應(yīng)用。
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
91文章
39058瀏覽量
299621 -
開源
+關(guān)注
關(guān)注
3文章
4124瀏覽量
45767 -
CV
+關(guān)注
關(guān)注
0文章
54瀏覽量
17504 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1715瀏覽量
47539
原文標題:CV 迎來 GPT-3 時刻:Meta 開源“萬物可分割 AI ”模型
文章出處:【微信號:軟件質(zhì)量報道,微信公眾號:軟件質(zhì)量報道】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一文解析人工智能中GPT-3 到底有多厲害?
線下活動 | 開源工作坊第2期——開源與萬物互聯(lián)
史上最大AI模型GPT-3你要開始收費了 接下去可能用不起它了
微軟獲得AI神器 GPT-3 獨家授權(quán),引來馬斯克等業(yè)內(nèi)人士怒懟
GPT-3引發(fā)公眾的遐想 能根據(jù)文字產(chǎn)生圖片的AI!
史上最大AI模型GPT-3強勢霸榜Github
GPT系列的“高仿” 最大可達GPT-3大小 自主訓(xùn)練
谷歌開發(fā)出超過一萬億參數(shù)的語言模型,秒殺GPT-3
Eleuther AI:已經(jīng)開源了復(fù)現(xiàn)版GPT-3的模型參數(shù)
萬物皆可ChatGPT ChatGPT的iPhone時刻已到 ChatGPT概念廠商概述
第一篇綜述!分割一切模型(SAM)的全面調(diào)研
MEANEST家庭自動化AI(使用GPT-3)
CV迎來GPT-3時刻:Meta開源“萬物可分割A(yù)I”模型
評論