2018 年 9 月騰訊 AI Lab 開源 “Tencent ML-Images” 項目,該項目由多標簽圖像數(shù)據(jù)集 ML-Images,以及業(yè)內目前同類深度學習模型中精度最高的深度殘差網(wǎng)絡 ResNet-101 構成。 近日騰訊在 arxiv 上發(fā)布論文詳細介紹了數(shù)據(jù)集的構成以及評價標準等內容,對 Tencent ML-Images 數(shù)據(jù)集的理解很有幫助。
騰訊 AI Lab 公布的圖像數(shù)據(jù)集 ML-Images,包含了 1800 萬圖像和 1.1 萬多種常見物體類別,在業(yè)內已公開的多標簽圖像數(shù)據(jù)集中規(guī)模最大,足以滿足一般科研機構及中小企業(yè)的使用場景。
此外,騰訊 AI Lab 還提供基于 ML-Images 訓練得到的深度殘差網(wǎng)絡 ResNet-101。該模型具有優(yōu)異的視覺表示能力和泛化性能,在當前業(yè)內同類模型中精度最高,將為包括圖像、視頻等在內的視覺任務提供強大支撐,并助力圖像分類、物體檢測、物體跟蹤、語義分割等技術水平的提升。
題目:Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
作者:Baoyuan Wu, Weidong Chen, Yanbo Fan, Yong Zhang, Jinlong Hou, Junzhou Huang, Wei Liu, Tong Zhang
【摘要】
在現(xiàn)有的視覺表示學習任務中,深度卷積神經(jīng)網(wǎng)絡(CNN)通常是針對帶有單個標簽的圖像進行訓練的,例如 ImageNet。然而,單個標簽無法描述一幅圖像的所有重要內容,一些有用的視覺信息在訓練過程中可能會被浪費。在這項工作中,我們建議對帶有多個標簽的圖像進行訓練,以提高訓練后的 CNN 模型的視覺表示質量。
為此,我們構建了一個大規(guī)模的多標簽圖像數(shù)據(jù)庫,其中包含 18000000 個圖像和 11000 個類別,我們稱之為 Tencent ML-Images。我們基于大規(guī)模分布式深度學習框架,即 TFplus,在 Tencent ML-Images 上高效訓練 ResNet-101 多標簽輸出模型,共 60 個 epoch,耗時 90 小時。 通過 ImageNet 和 Caltech-256 上的單標簽圖像分類、PASCAL VOC 2007 上的對象檢測、PASCAL VOC 2012 上的語義分割三個遷移學習任務,驗證了 Tencent ML-Images checkpoint 的視覺表示質量良好。
騰訊 ML-Images 數(shù)據(jù)庫,ResNet-101 的 checkpoint 以及所有訓練代碼已在https://github.com/Tencent/tencent-ml-images上發(fā)布。它有望推動研究領域和工業(yè)界的其他視覺任務的發(fā)展。
論文地址:
https://arxiv.org/abs/1901.01703
作者簡介
第一作者是吳保元,現(xiàn)在是騰訊 AI Lab 的高級研究員,2014 年 8 月至 2016 年 11 月在 KAUST 進行博士后學習,與 Bernard Ghanem 教授一起工作。2014 年 6 月獲得中國科學院自動化研究所模式識別國家重點實驗室博士學位,導師為胡包鋼教授。作者研究興趣包括機器學習、計算機視覺和優(yōu)化,包括圖像標注、弱 / 無監(jiān)督學習、結構化預測、概率圖模型、視頻處理和整數(shù)規(guī)劃。
https://sites.google.com/site/baoyuanwu2015/home
其他作者包括樊艷波、張勇也都是博士畢業(yè)于中科院自動化研究所,師從胡包鋼教授。
文章簡介
這項工作在新建的多標簽圖像數(shù)據(jù)庫(稱為 Tencent ML-Images)上展示了大規(guī)模的視覺表示學習。文章從討論以下兩個問題開始。
為什么我們需要大規(guī)模的圖像數(shù)據(jù)庫?深度學習一直處于長期低谷,直到 2012 年,AlexNet 在 ILSVRC2012 挑戰(zhàn)的單標簽圖像分類任務中取得了令人驚訝的成績。深度神經(jīng)網(wǎng)絡的潛力是通過大規(guī)模的圖像數(shù)據(jù)庫釋放出來的,即 ImageNet-ILSVRC2012 。此外,對于許多視覺任務,如目標檢測和語義分割,獲取訓練數(shù)據(jù)的成本是非常高的。由于訓練數(shù)據(jù)不足,需要在其他大型數(shù)據(jù)庫上預先訓練好的視覺呈現(xiàn)良好的 checkpoint 作為初始化,用于其他視覺任務 (如針對單標簽圖像分類的 ImageNet-ILSVRC2012)。
為什么我們需要多標簽圖像數(shù)據(jù)庫?由于在大多數(shù)自然圖像中存在多個對象,單個標注可能會遺漏一些有用的信息,從而誤導 CNN 的訓練。例如,同時包含牛和草的兩個視覺上相似的圖像可能分別被標注為牛和草。合理的方法是 “告訴”CNN 模型這兩幅圖像同時包含牛和草。
這項工作的主要貢獻有四個方面:
建立了一個包含一千八百萬張圖像和一萬一千個類別的多標簽圖像數(shù)據(jù)庫,被稱為 Tencent ML-Images,這是迄今為止最大的公開可用的多標簽圖像數(shù)據(jù)庫。
利用大規(guī)模分布式深度學習框架,在 Tencent ML-Images 上有效地訓練 ResNet-101 模型。此外,還設計了一種新的損失函數(shù)來緩解大規(guī)模多標簽數(shù)據(jù)庫中嚴重的類失衡問題。
我們通過遷移學習三種不同的視覺任務,證實了 Tencent ML-Images 和其預訓練的檢查點有著比較好的質量。
在 GitHub(https://github.com/Tencent/tencent-ml-images)上發(fā)布了 Tencent ML-Images 數(shù)據(jù)庫,包含訓練的 ResNet-101 檢查點,以及從數(shù)據(jù)預處理,預訓練,微調到圖像分類和特征提取的完整代碼。預計這將推動研究領域和工業(yè)界的其他視覺任務的發(fā)展。
附文章中部分結果
-
圖像分類
+關注
關注
0文章
96瀏覽量
12351 -
數(shù)據(jù)集
+關注
關注
4文章
1229瀏覽量
25906
原文標題:論文終于公布!騰訊開源最大規(guī)模多標簽圖像數(shù)據(jù)集,刷新行業(yè)數(shù)據(jù)集基準
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
騰訊地圖在AI時代的全新思考與實踐
騰訊發(fā)布全新一代智能駕駛地圖9.0
PCIM2025論文摘要 | 基于英飛凌S-cell產品的嵌入式PCB方案在主驅逆變器應用的優(yōu)勢分析與研究

評論