chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

湯新加坡團隊 針對長尾數據分布提出了視覺識別方案

ss ? 來源:學術頭條 ? 作者:學術頭條 ? 2020-11-25 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀:在NeurIPS 2020上,商湯新加坡團隊提出的Balanced-Meta Softmax (BALMS), 針對真實世界中常見的長尾數據分布提出了新的視覺識別方案。在優(yōu)化目標方面,BALMS 提出一種新的損失函數,Balanced Softmax,來修正長尾設定下因訓練與測試標簽分布不同而導致的偏差。在優(yōu)化過程方面,BALMS提出 Meta Sampler來自動學習最優(yōu)采樣率以配合Balanced Softmax,避免過平衡問題。BALMS在長尾圖像分類與長尾實例分割的共四個數據集上取得SOTA表現。這項研究也被收錄為ECCV LVIS workshop的spotlight。

論文名稱: Balanced Meta-Softmax for Long-Tailed Visual Recognition

問題和挑戰(zhàn)

真實世界中的數據分布大多符合長尾分布:常見類比占據了數據集中的主要樣本,而大量的罕見類別只在數據集中少量出現。例如一個動物圖片數據集中,寵物貓的圖片數量可能遠遠超過熊貓的圖片數量。

由于長尾現象對算法落地造成了很大的挑戰(zhàn),視覺社區(qū)對這一問題的關注日漸增加,近年陸續(xù)推出了一些長尾數據集,例如大規(guī)模實例分割數據集LVIS。我們發(fā)現長尾問題的難點主要存在于以下兩個方面:

1)優(yōu)化目標。根據長尾問題的設定,訓練集是類別不均衡的。然而主流的指標,如mean AP (mAP),衡量全部類別上的平均精度,因此鼓勵算法在類別平衡的測試集上取得較好的表現。這導致了訓練與測試時標簽分布不同的問題,我們稱之為標簽分布遷移。

2)優(yōu)化過程。罕見類別在模型訓練過程中很少出現,因此無法在優(yōu)化過程中提供足夠的梯度。這使得即使我們有了一個較好的優(yōu)化目標,也很難使模型收斂到對應的全局最優(yōu)。

方法介紹

1. Balanced Softmax

Softmax函數常常被用來將模型輸出轉化為物體屬于每個類別的條件概率。

應用貝葉斯定理可以發(fā)現常規(guī)的Softmax回歸會受到標簽分布遷移的影響,并作出帶偏差的估計。這個偏差導致Softmax回歸出的分類器更傾向于認為樣本屬于常見類別。

舉一個簡單的例子,考慮這樣一個任務:通過性別來分類貓和狗。這個任務看起來是無法完成的,因為我們知道性別在貓和狗上是均勻分布的。無論貓還是狗,都有50%的可能性是雌性和50%的可能性是雄性,因此只靠性別我們無法區(qū)別貓和狗。

有趣的是,當我們的訓練數據是類別不平衡的時,比如有90%的貓和10%的狗,我們的估計就會出現偏差:這時無論是雄性還是雌性,我們都會傾向于認為它是一只貓。在這樣的訓練數據上學習到的分類器就會天然帶有對常見類別的偏愛。

為了避免這個偏差,我們從多項分布的Exponential Family形式出發(fā)重新對Softmax進行了推導并顯式考慮了標簽分布遷移,得到了適合長尾問題的Balanced Softmax。同時,我們發(fā)現Balanced Softmax可以近似地最小化長尾設定下的泛化錯誤上界。

為了分析Balanced Softmax的效果,我們將模型在測試集上預測的分數在每個類別上累加,用來計算模型預測的標簽分布。理想情況下,模型在測試集上預測出的標簽分布應該是平衡的。在下圖中我們對不同模型的預測類別進行了可視化,類別按照出現頻率降序排列,第0類為出現次數最多的類。我們發(fā)現藍色線代表的常規(guī)Softmax明顯地偏向于常見類別,橙色線代表的Equalization Loss [1] 通過去除某閾值以下罕見類別的負樣本梯度緩解了這一問題,而紅色線代表的Balanced Softmax則進一步達到了最平衡的預測類別分布。

2. 元采樣器Meta Sampler

雖然我們得到了一個適合長尾問題的理想的優(yōu)化目標,優(yōu)化過程本身依然充滿挑戰(zhàn):罕見類別只能在訓練中出現極少次數,因此無法很好地貢獻到訓練梯度。解決這一問題的最常見的方法是類別均衡采樣 (CBS)[2],也就是對每個類別采樣同樣數量的樣本來組成訓練批次。然而,實驗表明直接將Balanced Softmax與CBS一起使用會導致模型表現下降,于是我們對兩者一起使用時的梯度進行了分析。在假設接近收斂時,我們有:

理想情況下每個類別的梯度的權重應和類別內樣本數量成反比,但上式中的權重為和類別內樣本數量成平方反比。我們將這個現象稱為過平衡問題。

下圖展示了一個對過平衡問題的可視化。這是一個類別不平衡的二維數據三分類問題,三個類別分別為紅、黃、藍,樣本數量分別為10000、100和1??梢园l(fā)現Balanced Softmax和CBS一起使用時,優(yōu)化過程會被藍色的罕見類別主導。

為了解決過平衡問題,我們提出了Meta Sampler(元采樣器),一種可學習版本的CBS。Meta Sampler使用元學習的方法,顯式地學習當前最佳的采樣率,從而更好地配合Balanced Softmax的使用。

下圖展示了我們對不同模型預測的標簽分布進行的可視化。其中,紫色線代表的Balanced Softmax與CBS的組合由于過平衡問題,明顯地偏向于尾部類別。而紅色線代表的Balanced Softmax與Meta Sampler的組合則很好地解決了這一問題,最終取得了最為均衡的標簽分布。

實驗結果

我們在圖像分類(CIFAR-10/100-LT,ImageNet-LT,Places-LT)與實例分割(LVIS-v0.5)兩個任務上分別進行了實驗驗證。實驗結果顯示了Balanced Softmax和Meta Sampler對模型表現都有明顯的貢獻。兩者的組合,Balanced Meta-Softmax (BALMS),在這兩個任務上都達到或超過了SOTA結果,尤其在最具挑戰(zhàn)性的LVIS數據集上大幅超過了之前的SOTA結果。

這項研究也被收錄為ECCV LVIS workshop的Spotlight,關于LVSI-v1.0的相關實驗結果可以在LVSI workshop主頁上找到(Team Innova)。

結語

BALMS對長尾問題下的概率建模以及采樣策略進行了探討。我們發(fā)現常用的Softmax回歸在存在標簽分布遷移時會出現估計偏差,并提出了Balanced Softmax來避免這個偏差。另一方面,我們發(fā)現類別均衡采樣器在與Balanced Softmax一起使用時會導致過平衡問題,于是提出元采樣器來顯式學習最優(yōu)采樣策略。我們的解決方案在長尾圖像分類與長尾實例分割任務上均得到了驗證。歡迎關注我們的開源代碼庫,希望BALMS可以成為未來長尾學習的良好基線。

責任編輯:xj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7298

    瀏覽量

    93578
  • 視覺識別
    +關注

    關注

    3

    文章

    110

    瀏覽量

    17269
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器視覺檢測PIN針

    : 結合形態(tài)學處理、特征提?。ㄈ玳L寬比、面積)及深度學習(針對復雜缺陷),自動檢出彎曲、斷裂、變形、污染等。輸出與控制:實時顯示檢測結果(OK/NG)及具體參數數值。生成檢測報告,支持數據追溯。NG品自動剔除信號輸出,無縫對接產線。了解更多機器
    發(fā)表于 09-26 15:09

    NVIDIA助力元科技突破智能駕駛數據獲取與生成瓶頸

    蘇州元科技有限公司(以下簡稱“元科技”)是一家專注于三維重建與世界模型的科技公司,為自動駕駛與具身智能提供高質量、多樣化的訓練數據。通過將自研的世界模型技術與 NVIDIA Cosmos 結合,實現真實物理世界的三維重建、場
    的頭像 發(fā)表于 09-06 15:16 ?1079次閱讀

    基于LockAI視覺識別模塊:C++人臉識別

    本文基于RV1106做成的LockAI視覺識別模塊,采用 LZ-Picodet 模型訓練的人臉檢測模型 LZ-Face,以及ArcFace人臉識別模型,實現人臉識別系統。 源代碼:ht
    發(fā)表于 07-01 12:01

    基于LockAI視覺識別模塊:C++人臉識別

    本文基于RV1106做成的LockAI視覺識別模塊,采用LZ-Picodet模型訓練的人臉檢測模型LZ-Face,以及ArcFace人臉識別模型,實現人臉識別系統。
    的頭像 發(fā)表于 07-01 10:09 ?393次閱讀
    基于LockAI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>模塊:C++人臉<b class='flag-5'>識別</b>

    基于LockAI視覺識別模塊:手寫數字識別

    手寫數字識別是一種經典的模式識別和圖像處理問題,旨在通過計算機自動識別用戶手寫的數字。 本文將教會你如何使用基于RV1106的 LockAI視覺識別
    發(fā)表于 06-30 16:45

    基于LockAI視覺識別模塊:手寫數字識別

    手寫數字識別是一種經典的模式識別和圖像處理問題,旨在通過計算機自動識別用戶手寫的數字。本文將教會你如何使用基于RV1106的LockAI視覺識別
    的頭像 發(fā)表于 06-30 15:44 ?725次閱讀
    基于LockAI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>模塊:手寫數字<b class='flag-5'>識別</b>

    中科慧眼亮相2025新加坡亞洲科技展

    近日,為期三天的ATx新加坡亞洲科技展盛大開幕。作為汽車產業(yè)鏈領軍企業(yè),中科慧眼將本次參展作為開拓東南亞市場的關鍵布局,攜雙目及三目立體視覺核心產品重磅亮相,不僅展示了覆蓋智能駕駛與智能底盤的前沿方案,更首次公開了機器人
    的頭像 發(fā)表于 06-03 17:21 ?680次閱讀

    基于LockAI視覺識別模塊:C++條碼識別

    條碼識別視覺模塊經常使用到的功能之一,經常用于識別超市的貨物信息。本文我們將演示如何基于瑞芯微RV1106的LockAI視覺識別進行條碼
    發(fā)表于 05-27 10:26

    基于LockAI視覺識別模塊:C++條碼識別

    條碼識別視覺模塊經常使用到的功能之一,經常用于識別超市的貨物信息。本文我們將演示如何基于瑞芯微RV1106的LockAI視覺識別進行條碼
    的頭像 發(fā)表于 05-27 09:32 ?414次閱讀
    基于LockAI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>模塊:C++條碼<b class='flag-5'>識別</b>

    基于LockAI視覺識別模塊:C++二維碼識別

    二維碼識別視覺模塊經常使用到的功能之一。我們將演示如何使用基于瑞芯微RV1106的LockAI視覺識別模塊進行二維碼識別
    的頭像 發(fā)表于 05-26 09:42 ?572次閱讀
    基于LockAI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>模塊:C++二維碼<b class='flag-5'>識別</b>

    基于LockAI視覺識別模塊:C++使用圖像的統計信息

    在圖像處理中,統計信息可以幫助我們了解圖像的特性,例如區(qū)域內的像素分布、顏色轉換以及特定區(qū)域的分析。本文將介紹基于LockAI視覺識別模塊如何提取興趣區(qū)域(ROI)、轉換顏色通道、計算均值和標準差,以及查找最小值和最大值,并通過
    的頭像 發(fā)表于 05-08 10:09 ?471次閱讀
    基于LockAI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>模塊:C++使用圖像的統計信息

    人工智能視覺識別技術的應用領域及場景

    人工智能視覺識別技術的應用領域及場景
    的頭像 發(fā)表于 03-14 11:41 ?1861次閱讀

    杰和科技GAM-AI視覺識別管理系統,讓AI走進零售營銷

    視覺識別+大數據分析+邊緣計算為核心技術,打造集“精準營銷、客流洞察、智能決策”于一體的全場景解決方案,助力零售門店實現從“人貨場”到“智貨場”的智慧升級。系統部
    的頭像 發(fā)表于 02-20 11:32 ?804次閱讀
    杰和科技GAM-AI<b class='flag-5'>視覺</b><b class='flag-5'>識別</b>管理系統,讓AI走進零售營銷

    北大攜智元機器?團隊提出OmniManip架構

    近日,北京大學與智元機器人的聯合實驗室有了重大成果,北?攜?智元機器?團隊提出 OmniManip 架構。 在具身智能領域,將視覺語言基礎模型(VLMs)應用于機器人實現通用操作一直是核心問題。目前
    的頭像 發(fā)表于 01-24 09:57 ?755次閱讀

    金蝶新加坡數據中心盛大開業(yè)

    近日,金蝶國際在新加坡迎來了一個重要的里程碑時刻,正式宣布金蝶新加坡公司的正式成立以及數據中心的落成啟用。 此次開業(yè)典禮標志著金蝶國際在全球化戰(zhàn)略上邁出了堅實的一步。金蝶
    的頭像 發(fā)表于 11-11 11:45 ?962次閱讀