chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于可變形卷積的大規(guī)模視覺基礎模型

CVer ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-21 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自浦江實驗室、清華等機構(gòu)的研究人員提出了一種新的基于卷積的基礎模型,稱為 InternImage,與基于 Transformer 的網(wǎng)絡不同,InternImage 以可變形卷積作為核心算子,使模型不僅具有檢測和分割等下游任務所需的動態(tài)有效感受野,而且能夠進行以輸入信息和任務為條件的自適應空間聚合。InternImage-H 在 COCO 物體檢測上達到 65.4 mAP,ADE20K 達到 62.9,刷新檢測分割新紀錄。

近年來大規(guī)模視覺 Transformer 的蓬勃發(fā)展推動了計算機視覺領域的性能邊界。視覺 Transformer 模型通過擴大模型參數(shù)量和訓練數(shù)據(jù)從而擊敗了卷積神經(jīng)網(wǎng)絡。來自上海人工智能實驗室、清華、南大、商湯和港中文的研究人員總結(jié)了卷積神經(jīng)網(wǎng)絡和視覺 Transformer 之間的差距。從算子層面看,傳統(tǒng)的 CNNs 算子缺乏長距離依賴和自適應空間聚合能力;從結(jié)構(gòu)層面看,傳統(tǒng) CNNs 結(jié)構(gòu)缺乏先進組件。

針對上述技術(shù)問題,來自浦江實驗室、清華等機構(gòu)的研究人員創(chuàng)新地提出了一個基于卷積神經(jīng)網(wǎng)絡的大規(guī)模模型,稱為 InternImage,它將稀疏動態(tài)卷積作為核心算子,通過輸入相關的信息為條件實現(xiàn)自適應空間聚合。InternImage 通過減少傳統(tǒng) CNN 的嚴格歸納偏置實現(xiàn)了從海量數(shù)據(jù)中學習到更強大、更穩(wěn)健的大規(guī)模參數(shù)模式。其有效性在包括圖像分類、目標檢測和語義分割等視覺任務上得到了驗證。并在 ImageNet、COCO 和 ADE20K 在內(nèi)的挑戰(zhàn)性基準數(shù)據(jù)集中取得了具有競爭力的效果,在同參數(shù)量水平的情況下,超過了視覺 Transformer 結(jié)構(gòu),為圖像大模型提供了新的方向。

2c37a85e-68ed-11ed-8abf-dac502259ad0.png

InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions

論文鏈接:https://arxiv.org/abs/2211.05778

開源代碼:https://github.com/OpenGVLab/InternImage

2c4c0fd8-68ed-11ed-8abf-dac502259ad0.png

2c81da46-68ed-11ed-8abf-dac502259ad0.png

傳統(tǒng)卷積神經(jīng)網(wǎng)絡的局限

擴大模型的規(guī)模是提高特征表示質(zhì)量的重要策略,在計算機視覺領域,模型參數(shù)量的擴大不僅能夠有效加強深度模型的表征學習能力,而且能夠?qū)崿F(xiàn)從海量數(shù)據(jù)中進行學習和知識獲取。ViT 和 Swin Transformer 首次將深度模型擴大到 20 億和 30 億參數(shù)級別,其單模型在 ImageNet 數(shù)據(jù)集的分類準確率也都突破了 90%,遠超傳統(tǒng) CNN 網(wǎng)絡和小規(guī)模模型,突破了技術(shù)瓶頸。但是,傳統(tǒng)的 CNN 模型由于缺乏長距離依賴和空間關系建模能力,無法實現(xiàn)同 Transformer 結(jié)構(gòu)相似的模型規(guī)模擴展能力。研究者總結(jié)了傳統(tǒng)卷積神經(jīng)網(wǎng)絡與視覺 Transformer 的不同之處:

(1)從算子層面來看,視覺 Transformer 的多頭注意力機制具有長距離依賴和自適應空間聚合能力,受益于此,視覺 Transformer 可以從海量數(shù)據(jù)中學到比 CNN 網(wǎng)絡更加強大和魯棒的表征。

(2)從模型架構(gòu)層面來看,除了多頭注意力機制,視覺 Transformer 擁有 CNN 網(wǎng)絡不具有的更加先進的模塊,例如 Layer Normalization (LN), 前饋神經(jīng)網(wǎng)絡 FFN, GELU 等。

盡管最近的一些工作嘗試使用大核卷積來獲取長距離依賴,但是在模型尺度和精度方面都與最先進的視覺 Transformer 有著一定距離。

可變形卷積網(wǎng)絡的進一步拓展

InternImage 通過重新設計算子和模型結(jié)構(gòu)提升了卷積模型的可擴展性并且緩解了歸納偏置,包括(1)DCNv3 算子,基于 DCNv2 算子引入共享投射權(quán)重、多組機制和采樣點調(diào)制。(2)基礎模塊,融合先進模塊作為模型構(gòu)建的基本模塊單元(3)模塊堆疊規(guī)則,擴展模型時規(guī)范化模型的寬度、深度、組數(shù)等超參數(shù)。

該工作致力于構(gòu)建一個能夠有效地擴展到大規(guī)模參數(shù)的 CNN 模型。首先,重新設計的可變形卷積算子 DCNv2 以適應長距離依賴和弱化歸納偏置;然后,將調(diào)整后的卷積算子與先進組件相結(jié)合,建立了基礎單元模塊;最后,探索并實現(xiàn)模塊的堆疊和縮放規(guī)則,以建立一個具有大規(guī)模參數(shù)的基礎模型,并且可以從海量數(shù)據(jù)中學習到強大的表征。

2cbcc4ee-68ed-11ed-8abf-dac502259ad0.png

算子層面,該研究首先總結(jié)了卷積算子與其他主流算子的主要區(qū)別。當前主流的 Transformer 系列模型主要依靠多頭自注意力機制實現(xiàn)大模型構(gòu)建,其算子具有長距離依賴性,足以構(gòu)建遠距離特征間的連接關系,還具有空間的自適應聚合能力以實現(xiàn)構(gòu)建像素級別的關系。但這種全局的注意力機制其計算和存儲需求量巨大,很難實現(xiàn)高效訓練和快速收斂。同樣的,局部注意力機制缺乏遠距離特征依賴。大核密集卷積由于沒有空間聚合能力,而難以克服卷積天然的歸納偏置,不利于擴大模型。因此,InternImage 通過設計動態(tài)稀疏卷積算子,達到實現(xiàn)全局注意力效果的同時不過多浪費計算和存儲資源,實現(xiàn)高效訓練。

研究者基于 DCNv2 算子,重新設計調(diào)整并提出 DCNv3 算子,具體改進包括以下幾個部分。

(1)共享投射權(quán)重。與常規(guī)卷積類似,DCNv2 中的不同采樣點具有獨立的投射權(quán)重,因此其參數(shù)大小與采樣點總數(shù)呈線性關系。為了降低參數(shù)和內(nèi)存復雜度,借鑒可分離卷積的思路,采用與位置無關的權(quán)重代替分組權(quán)重,在不同采樣點之間共享投影權(quán)重,所有采樣位置依賴性都得以保留。

(2)引入多組機制。多組設計最早是在分組卷積中引入的,并在 Transformer 的多頭自注意力中廣泛使用,它可以與自適應空間聚合配合,有效地提高特征的多樣性。受此啟發(fā),研究者將空間聚合過程分成若干組,每個組都有獨立的采樣偏移量。自此,單個 DCNv3 層的不同組擁有不同的空間聚合模式,從而產(chǎn)生豐富的特征多樣性。

(3)采樣點調(diào)制標量歸一化。為了緩解模型容量擴大時的不穩(wěn)定問題,研究者將歸一化模式設定為逐采樣點的 Softmax 歸一化,這不僅使大規(guī)模模型的訓練過程更加穩(wěn)定,而且還構(gòu)建了所有采樣點的連接關系。

2d10f4d8-68ed-11ed-8abf-dac502259ad0.png

構(gòu)建 DCNv3 算子之后,接下來首先需要規(guī)范化模型的基礎模塊和其他層的整體細節(jié),然后通過探索這些基礎模塊的堆疊策略,構(gòu)建 InternImage。最后,根據(jù)所提出模型的擴展規(guī)則,構(gòu)建不同參數(shù)量的模型。

基礎模塊。與傳統(tǒng) CNN 中廣泛使用的瓶頸結(jié)構(gòu)不同,該研究采用了更接近 ViTs 的基礎模塊,配備了更先進的組件,包括 GELU、層歸一化(LN)和前饋網(wǎng)絡(FFN),這些都被證明在各種視覺任務中更有效率?;A模塊的細節(jié)如上圖所示,其中核心算子是 DCNv3,通過將輸入特征通過一個輕量級的可分離卷積來預測采樣偏置和調(diào)制尺度。對于其他組件,遵循與普通 Transformer 相同的設計。

疊加規(guī)則。為了明確區(qū)塊堆疊過程,該研究提出兩條模塊堆疊規(guī)則,其中第一條規(guī)則是后三個階段的通道數(shù)2d59db1c-68ed-11ed-8abf-dac502259ad0.png,由第一階段的通道數(shù)2d6c067a-68ed-11ed-8abf-dac502259ad0.png決定,即2d785876-68ed-11ed-8abf-dac502259ad0.png;第二條規(guī)則是各模塊組號與各階段的通道數(shù)對應,即2d856d0e-68ed-11ed-8abf-dac502259ad0.png;第三,堆疊模式固定為 “AABA”,即第 1、2 和 4 階段的模塊堆疊數(shù)是相同的2d941656-68ed-11ed-8abf-dac502259ad0.png,并且不大于第 3 階段2da0103c-68ed-11ed-8abf-dac502259ad0.png。由此選擇將參數(shù)量為 30M 級別的模型作為基礎,其具體參數(shù)為:Steam 輸出通道數(shù)2dae0ec6-68ed-11ed-8abf-dac502259ad0.png為 64;分組數(shù)為每個階段輸入通道數(shù)的 1/16,第 1、2、4 階段的模塊堆疊數(shù)2dbbec94-68ed-11ed-8abf-dac502259ad0.png為 4,第 3 階段的模塊堆疊數(shù)2dc93ab6-68ed-11ed-8abf-dac502259ad0.png為 18,模型參數(shù)為 30M。

模型縮放規(guī)則?;谏鲜黾s束條件下的最優(yōu)模型,該研究規(guī)范化了網(wǎng)絡模型的兩個縮放維度:即深度 D(模塊堆疊數(shù))和寬度 C(通道數(shù)),利用限制因子2dd62cbc-68ed-11ed-8abf-dac502259ad0.png2de3ae1e-68ed-11ed-8abf-dac502259ad0.png沿著復合系數(shù)2df24a46-68ed-11ed-8abf-dac502259ad0.png對深度和寬度進行縮放,即,2e01bc42-68ed-11ed-8abf-dac502259ad0.png,其中2e12e260-68ed-11ed-8abf-dac502259ad0.png,根據(jù)實驗其最佳設置為2e20a0f8-68ed-11ed-8abf-dac502259ad0.png

按照此規(guī)則,該研究構(gòu)建了不同尺度的模型,即 InternImage-T、S、B、L、XL。具體參數(shù)為:

2e2d0df2-68ed-11ed-8abf-dac502259ad0.png

實驗結(jié)果

圖像分類實驗:通過使用 427M 的公共數(shù)據(jù)集合:Laion-400M,YFCC15M,CC12M,InternImage-H 在 ImageNet-1K 的精度達到了 89.2%。

2e428ef2-68ed-11ed-8abf-dac502259ad0.png

目標檢測:以最大規(guī)模的 InternImage-H 為骨干網(wǎng)絡,并使用 DINO 作為基礎檢測框架,在 Objects365 數(shù)據(jù)集上預訓練 DINO 檢測器,然后在 COCO 上進行微調(diào)。該模型在目標檢測任務中達到了 65.4% 的最優(yōu)結(jié)果,突破了 COCO 目標檢測的性能邊界。

2e9077f2-68ed-11ed-8abf-dac502259ad0.png

語義分割:在語義分割上,InternImage-H 同樣取得了很好的性能,結(jié)合 Mask2Former 在 ADE20K 上取得了當前最高的 62.9%。

2ebae5be-68ed-11ed-8abf-dac502259ad0.png

結(jié)論

該研究提出了 InternImage,這是一種新的基于 CNN 的大規(guī)模基礎模型,可以為圖像分類、對象檢測和語義分割等多功能視覺任務提供強大的表示。研究者調(diào)整靈活的 DCNv2 算子以滿足基礎模型的需求,并以核心算子為核心開發(fā)了一系列的 block、stacking 和 scaling 規(guī)則。目標檢測和語義分割基準的大量實驗驗證了 InternImage 可以獲得與經(jīng)過大量數(shù)據(jù)訓練、且精心設計的大規(guī)模視覺 Transformer 相當或更好的性能,這表明 CNN 也是大規(guī)模視覺基礎模型研究的一個相當大的選擇。盡管如此,大規(guī)模的 CNN 仍處于早期發(fā)展階段,研究人員希望 InternImage 可以作為一個很好的起點。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:65.4 AP!刷新COCO目標檢測新記錄!InternImage:基于可變形卷積的大規(guī)模視覺基礎模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    卷積運算分析

    卷積運算的基礎運算是乘加運算(MAC,Multiplication and Accumulation),本文設計了基本運算單元PE模塊來實現(xiàn)MAC運算。對于卷積運算而言,一次性至少處理一個感受域規(guī)模
    發(fā)表于 10-28 07:31

    TensorRT-LLM的大規(guī)模專家并行架構(gòu)設計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構(gòu)設計與創(chuàng)新實現(xiàn)。
    的頭像 發(fā)表于 09-23 14:42 ?650次閱讀
    TensorRT-LLM的<b class='flag-5'>大規(guī)模</b>專家并行架構(gòu)設計

    大規(guī)模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構(gòu),大幅提升了開源模型的質(zhì)量。Llama 4 和 Qwen3 等新發(fā)布的開源
    的頭像 發(fā)表于 09-06 15:21 ?897次閱讀
    <b class='flag-5'>大規(guī)模</b>專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設計

    基于大規(guī)模人類操作數(shù)據(jù)預訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR
    的頭像 發(fā)表于 08-21 09:56 ?756次閱讀
    基于<b class='flag-5'>大規(guī)模</b>人類操作數(shù)據(jù)預訓練的VLA<b class='flag-5'>模型</b>H-RDT

    三維高斯?jié)姙R大規(guī)模視覺SLAM系統(tǒng)解析

    近期興起的神經(jīng)輻射場(NeRF)與三維高斯?jié)姙R(3DGS)技術(shù)在視覺SLAM中展現(xiàn)出令人鼓舞的突破性成果。然而,當前主流方法多依賴RGBD傳感器,并且僅適用于室內(nèi)環(huán)境。在大規(guī)模室外場景中的重建魯棒性
    的頭像 發(fā)表于 05-27 14:13 ?1112次閱讀
    三維高斯?jié)姙R<b class='flag-5'>大規(guī)模</b><b class='flag-5'>視覺</b>SLAM系統(tǒng)解析

    薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊的引腳圖、接線圖、封裝手冊、中文資料、英文資料,薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊真值表,薄型、多頻段、
    發(fā)表于 05-15 18:32
    薄型、多頻段、<b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)前端模塊 skyworksinc

    安泰電壓放大器在可變形機翼縮比模型主動變形實驗中的應用

    實驗名稱:可變形機翼縮比模型主動變形實驗驗證 研究方向:介紹了可用于低速風洞實驗要求的可變形縮比模型的設計方案,以及粘接MFC致動器之后,
    的頭像 發(fā)表于 04-25 11:59 ?424次閱讀
    安泰電壓放大器在<b class='flag-5'>可變形</b>機翼縮比<b class='flag-5'>模型</b>主動<b class='flag-5'>變形</b>實驗中的應用

    構(gòu)建大規(guī)模Simulink模型的標準化最佳實踐

    隨著系統(tǒng)規(guī)模和復雜性的增長,工程團隊面臨著一系列在小規(guī)模上不存在的全新挑戰(zhàn)。
    的頭像 發(fā)表于 04-24 13:03 ?764次閱讀
    構(gòu)建<b class='flag-5'>大規(guī)模</b>Simulink<b class='flag-5'>模型</b>的標準化最佳實踐

    AI原生架構(gòu)升級:RAKsmart服務器在超大規(guī)模模型訓練中的算力突破

    近年來,隨著千億級參數(shù)模型的崛起,AI訓練對算力的需求呈現(xiàn)指數(shù)級增長。傳統(tǒng)服務器架構(gòu)在應對分布式訓練、高并發(fā)計算和顯存優(yōu)化等場景時逐漸顯露瓶頸。而RAKsmart為超大規(guī)模模型訓練提供了全新的算力解決方案。
    的頭像 發(fā)表于 04-24 09:27 ?603次閱讀

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。 ? 在核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU 芯片,能夠有力支持大規(guī)模思考
    的頭像 發(fā)表于 04-12 00:57 ?3154次閱讀

    5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝的引腳圖、接線圖、封裝手冊、中文資料、英文資料,5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝真值表,5G
    發(fā)表于 04-11 15:21
    5G <b class='flag-5'>大規(guī)模</b>物聯(lián)網(wǎng)系統(tǒng)級封裝 skyworksinc

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與
    的頭像 發(fā)表于 03-17 15:32 ?7502次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細解析

    請問OpenVINO?工具套件是否支持使用非對稱卷積的支持模型

    無法確定使用非對稱卷積模型是否受 OpenVINO? Toolkit 的支持
    發(fā)表于 03-06 07:58

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?3176次閱讀
    一文詳解<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    介紹了如何使用分類任務進行手寫數(shù)字的分類。相信大家腦海中可能會產(chǎn)生如下疑問: 數(shù)據(jù)依賴性強:分類模型的表現(xiàn)通常依賴于大量的標注數(shù)據(jù)進行訓練。獲取高質(zhì)量、大規(guī)模的數(shù)據(jù)集既耗時又昂貴。 泛化能力有限:模型
    發(fā)表于 12-19 14:33