chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

汽車玩家 ? 來源: OFweek人工智能網(wǎng) ? 作者:將門創(chuàng)投 ? 2020-04-17 16:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著圖像檢索和實(shí)例識(shí)別技術(shù)的迅速發(fā)展,急需有效的基準(zhǔn)數(shù)據(jù)來對(duì)不斷出現(xiàn)算法的性能進(jìn)行有效測(cè)評(píng)。來自谷歌的研究人員為此設(shè)計(jì)并推出了Google Landmarks Dataset v2(GLDv2)數(shù)據(jù)集用于大規(guī)模、細(xì)粒度的地標(biāo)實(shí)例識(shí)別和圖像檢索人物。這一數(shù)據(jù)集包含了200k個(gè)不同實(shí)例標(biāo)簽共5M張圖像,其中包括測(cè)試集為檢索人物標(biāo)注的118k張圖像。

這一數(shù)據(jù)集的特點(diǎn)不僅在于規(guī)模,而且在于考慮了許多真實(shí)應(yīng)用中會(huì)遇到的問題,包括長尾特性、域外圖像、類內(nèi)豐富多樣性等特點(diǎn)。這一數(shù)據(jù)集除了可以作為檢索和識(shí)別人物的有效基準(zhǔn)外,研究人員還通過學(xué)習(xí)圖像嵌入呈現(xiàn)了其用于遷移學(xué)習(xí)的潛力。

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

圖像檢索與實(shí)例識(shí)別

圖像檢索和實(shí)例識(shí)別是計(jì)算機(jī)視覺研究領(lǐng)域的基本課題已經(jīng)有很長的研究歷史。其中圖像檢索的目的是基于查詢圖像來排序出最為相關(guān)的圖像,而實(shí)例識(shí)別則是為了識(shí)別出目標(biāo)類別中的特定實(shí)例(例如從“油畫”類別中識(shí)別出“蒙娜麗莎”實(shí)例)。

但隨著技術(shù)的發(fā)展,兩種任務(wù)開始結(jié)合提高了技術(shù)額魯棒性和規(guī)模性,早期的數(shù)據(jù)集越來越不足以支撐算法的發(fā)展。此外在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域都出現(xiàn)了像ImageNet、COCO、OpenImages等大規(guī)模的數(shù)據(jù)集,而圖像檢索領(lǐng)域還在使用Oxford5k和Paris6k等數(shù)據(jù)較少、時(shí)間較老的數(shù)據(jù)集。由于其大多只包含了單個(gè)城市的數(shù)據(jù),使其訓(xùn)練的結(jié)果難以大規(guī)模的泛化。

世界范圍內(nèi)的數(shù)據(jù)采集點(diǎn)的分布

很多現(xiàn)有的數(shù)據(jù)集都沒有涵蓋真實(shí)條件下的挑戰(zhàn)。例如用于視覺檢索的地標(biāo)識(shí)別app會(huì)收到大量非地標(biāo)的查詢圖像,包括動(dòng)植物或各類產(chǎn)品等,這些查詢圖像原則上不應(yīng)該得到任何查詢結(jié)果。此外絕大多數(shù)實(shí)例識(shí)別數(shù)據(jù)集僅僅有專題查詢能力,同時(shí)無法測(cè)量域外數(shù)據(jù)的假陽性率。

研究人員迫切需要更大、更具挑戰(zhàn)的數(shù)據(jù)來測(cè)評(píng)技術(shù)的發(fā)展,同時(shí)為將來的研究提供足夠的挑戰(zhàn)和動(dòng)力。這一領(lǐng)域缺乏大規(guī)模數(shù)據(jù)的原因在于上千個(gè)標(biāo)簽和上百萬圖像中進(jìn)行數(shù)千個(gè)標(biāo)簽的細(xì)粒度標(biāo)注十分耗費(fèi)人力,同時(shí)也不是簡(jiǎn)單的外包可以完成,需要專業(yè)知識(shí)才能有效標(biāo)注。為了解決這些問題,新的數(shù)據(jù)呼之欲出!

GLDv2

這一新數(shù)據(jù)集的主要目的是為了盡可能的模擬和覆蓋真實(shí)工業(yè)場(chǎng)景地標(biāo)識(shí)別系統(tǒng)所面臨的挑戰(zhàn)。為了盡可能地覆蓋真實(shí)世界,需要非常多的圖像,因此這一數(shù)據(jù)集首先需要滿足大規(guī)模的特性;其次為了適應(yīng)多種光照條件和視角,還需要每一個(gè)類別或?qū)嵗龢?biāo)簽中的圖像具有豐富的類內(nèi)多樣性。真實(shí)情況下絕大多數(shù)圖像來源于著名的地標(biāo),而還有很多來源于不那么知名的地點(diǎn),所以數(shù)據(jù)集還需要具備長尾特性。最后一個(gè)問題,在實(shí)際使用中,用戶會(huì)上傳各種各樣的查詢圖像,只有非常少的一部分圖像存在于數(shù)據(jù)集中,那么這些數(shù)據(jù)需要滿足域外查找特性(即能夠在不包含在訓(xùn)練集中的查詢圖像上依然有效運(yùn)行)。這些實(shí)際情況中的特點(diǎn)為識(shí)別算法的魯棒性提出了非常大的要求。

在這些因素的指導(dǎo)下,研究人員們開始收集對(duì)應(yīng)的圖像并進(jìn)行標(biāo)注。數(shù)據(jù)主要來源于Wikimedia Commons,這是Wikipedia背后支撐的媒體資源庫。它覆蓋了世界范圍內(nèi)大部分的地標(biāo),同時(shí)還包括了Wiki Loves Monuments來自世界各地的文化遺跡高質(zhì)量細(xì)粒度照片。此外研究人員還從眾包中獲取了真實(shí)的查詢照片。

在獲取了圖像后就需要標(biāo)記數(shù)據(jù)集建立索引了。下圖顯示了從Wikimedia Commons中挖掘地標(biāo)圖像的流程。

Wikimedia Commons中是按照分類學(xué)的方式組織資源。每一個(gè)分類有獨(dú)特的URL其中包含了所有相關(guān)的圖像列表。但這種方式并沒有合適的頂級(jí)分類來映射人造和自然地標(biāo)的,于是研究人員采用了谷歌知識(shí)圖譜來發(fā)掘世界范圍內(nèi)的地標(biāo)。

為了獲取WikiCommons中與地標(biāo)相關(guān)的分類,研究人員從谷歌知識(shí)圖譜中查詢了“l(fā)andmarks”,“tourist attractions”,“points of interest”等等詞條,每次查詢都會(huì)返回圖譜實(shí)體,利用這一實(shí)體來獲取Wikipedia中的文章,并跟隨文章中的鏈接找到Wikimedia Commons分類頁面。隨后將所有圖像下載下來,并利用嚴(yán)格的分類來確定每一張圖像對(duì)應(yīng)一種分類,并利用Wikimedia Commons中的url作為典型的類別標(biāo)簽。依照這樣的方式獲取了訓(xùn)練和索引集。而查詢數(shù)據(jù)集的構(gòu)建則包含了包含地標(biāo)的positive查詢和不包含地標(biāo)的negative查詢。

由于視覺上的檢查發(fā)現(xiàn)檢索和識(shí)別結(jié)果出現(xiàn)了一些錯(cuò)誤,主要由于遺漏了基準(zhǔn)標(biāo)注,原因源于以下幾個(gè)方面:眾包帶來的錯(cuò)誤和遺漏、某些查詢圖像包含多個(gè)地標(biāo),但基準(zhǔn)只有一個(gè)結(jié)果、某一圖像在不同層次具有不同的標(biāo)簽、某些negative查詢圖像實(shí)際上是地標(biāo)圖像。為了解決這些問題,需要對(duì)測(cè)試集進(jìn)行重新標(biāo)注。

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

GLDv2數(shù)據(jù)集與其他數(shù)據(jù)的比較

最終研究人員得到了五百萬張超過二十萬個(gè)不同實(shí)例地點(diǎn)的數(shù)據(jù)集,成為了目前領(lǐng)域內(nèi)最大的實(shí)例識(shí)別數(shù)據(jù)。它最終分為三個(gè)部分,一部分是118k包含基準(zhǔn)標(biāo)注的查詢數(shù)據(jù)、4.1M圖像包含203k地標(biāo)標(biāo)簽的訓(xùn)練數(shù)據(jù)、包含101k地標(biāo)的762k張索引圖像。此外還給出了一個(gè)小型的數(shù)據(jù)集包括1.2M圖像和15k地標(biāo)。與其他數(shù)據(jù)集相比,這一新數(shù)據(jù)集的規(guī)模和多樣性都是無可比擬的:

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

采集自世界范圍內(nèi)的圖像,分類圖顯示了超過25k地點(diǎn)類別直方圖

強(qiáng)有力的數(shù)據(jù)集

為了檢驗(yàn)這一數(shù)據(jù)集的能力,研究人員進(jìn)行了一系列實(shí)驗(yàn)。首先在GLDv2數(shù)據(jù)上進(jìn)行訓(xùn)練,測(cè)試了模型的遷移能力。通過學(xué)習(xí)全局描述子并測(cè)評(píng)他們?cè)讵?dú)立地標(biāo)檢索數(shù)據(jù)中的表現(xiàn)(Revisited Oxford,ROxf 和 Revisited Paris, RPar) 。下表顯示了這一數(shù)據(jù)集可以顯著提高模型的性能,mAP的提升將近5%。

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

針對(duì)識(shí)別和檢索任務(wù)下面兩個(gè)表展示了基于不同模型和數(shù)據(jù)集上的比較結(jié)果可以看到基于GLDv2數(shù)據(jù)集的模型性能得到了顯著提升。

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

此外在檢索挑戰(zhàn)任務(wù)上進(jìn)行了測(cè)評(píng),包括了全局特征搜索和局域特征匹配重排等技術(shù)。結(jié)果顯示,即使使用了復(fù)雜的技術(shù),這一數(shù)據(jù)集仍然具有可以挖掘提升的空間。

Google推出地標(biāo)實(shí)例識(shí)別和圖像檢索人物數(shù)據(jù)集

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111342
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26187
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RAG(檢索增強(qiáng)生成)原理與實(shí)踐

    │ └──────┬──────┘ │ ▼ ┌─────────────────┐ │查詢處理模塊│ ← 查詢改寫、擴(kuò)展 └──────┬──────────┘ │ ▼ ┌─────────────────┐ │向量檢索引擎│ ← 向量數(shù)據(jù)
    發(fā)表于 02-11 12:46

    格靈深瞳突破文本人物檢索技術(shù)難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊(duì)通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動(dòng)CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果
    的頭像 發(fā)表于 09-28 09:42 ?624次閱讀
    格靈深瞳突破文本<b class='flag-5'>人物</b><b class='flag-5'>檢索</b>技術(shù)難題

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用

    FMDN功能的手機(jī)或平板等Android設(shè)備,掃描并識(shí)別到這個(gè)特定的廣播后,會(huì)通過EID生成一個(gè)密鑰,將自己的GPS位置信息數(shù)據(jù)通過密鑰加密之后傳輸給Google服務(wù)器,Google
    發(fā)表于 08-31 21:10

    【Sipeed MaixCAM Pro開發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    圖像的快速鑒別,滿足實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的應(yīng)用需求。 3. 數(shù)據(jù)采集 AI圖片數(shù)據(jù),本項(xiàng)目使用gemini生成圖片,使用的是gem來實(shí)現(xiàn)的。 提示詞如下 你是一個(gè)能夠生成美術(shù)繪本風(fēng)格插畫的智
    發(fā)表于 08-21 13:59

    【EASY EAI Orin Nano開發(fā)板試用體驗(yàn)】PP-OCRV5文字識(shí)別實(shí)例搭建與移植

    【EASY EAI Orin Nano開發(fā)板試用體驗(yàn)】PP-OCRV5文字識(shí)別實(shí)例搭建與移植 PP-OCRV5是PP-OCR新一代文字識(shí)別解決方案, 該方案聚焦于多場(chǎng)景、多文字類型的文字識(shí)別
    發(fā)表于 08-18 16:57

    華怡豐推出ISC-B/C系列圖像識(shí)別傳感器

    在工業(yè)自動(dòng)化領(lǐng)域,精準(zhǔn)、高效的視覺檢測(cè)是提升生產(chǎn)效率的關(guān)鍵。華怡豐全新推出的ISC-B/C系列圖像識(shí)別傳感器高精度定位、測(cè)量算法與先進(jìn)圖像處理技術(shù)于一體,為各類工業(yè)場(chǎng)景提供穩(wěn)定、可靠
    的頭像 發(fā)表于 08-15 11:36 ?1707次閱讀
    華怡豐<b class='flag-5'>推出</b>ISC-B/C系列<b class='flag-5'>圖像識(shí)別</b>傳感器

    朗國科技獲深度學(xué)習(xí)數(shù)據(jù)高效管理專利,助力AI研發(fā)降本增效

    國家知識(shí)產(chǎn)權(quán)局公開信息顯示,廣州朗國電子科技股份有限公司(下文稱“朗國科技”或“公司”)近期成功獲得一項(xiàng)名為“一種深度學(xué)習(xí)數(shù)據(jù)存儲(chǔ)與檢索方法及系統(tǒng)”的發(fā)明專利授權(quán),專利號(hào)為CN116795788B
    的頭像 發(fā)表于 07-29 09:25 ?476次閱讀

    ocr識(shí)別時(shí)數(shù)據(jù)上傳壓縮包,上傳成功,但不顯示圖片,圖片數(shù)量仍顯示0,為什么?

    ocr識(shí)別時(shí)數(shù)據(jù)上傳壓縮包,上傳成功,但不顯示圖片,圖片數(shù)量仍顯示0
    發(fā)表于 07-23 08:11

    Google Fast Pair服務(wù)簡(jiǎn)介

    其谷歌賬號(hào),并嘗試配對(duì)已保存到其谷歌賬號(hào)的設(shè)備時(shí)所發(fā)生的一系列事件。在此過程中,新手機(jī)會(huì)識(shí)別出廣播里的Model ID ,它已保存到用戶的 Google 帳號(hào)中,并提供一條通知,以加快將該設(shè)備與這部
    發(fā)表于 06-29 19:28

    數(shù)據(jù)下載失敗的原因?

    數(shù)據(jù)下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓(xùn)練報(bào)錯(cuò)網(wǎng)絡(luò)錯(cuò)誤 大的數(shù)據(jù)多大?數(shù)據(jù)量有多少?
    發(fā)表于 06-18 07:04

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1254次閱讀

    NVIDIA推出開源物理AI數(shù)據(jù)

    標(biāo)準(zhǔn)化合成數(shù)據(jù)的初始版本預(yù)計(jì)將成為世界上最大的此類數(shù)據(jù),目前已作為開源版本提供給機(jī)器人開發(fā)人員。
    的頭像 發(fā)表于 03-24 17:52 ?1030次閱讀

    請(qǐng)問NanoEdge AI數(shù)據(jù)該如何構(gòu)建?

    我想用NanoEdge來識(shí)別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數(shù)據(jù)的問題,請(qǐng)問我該怎么構(gòu)建數(shù)據(jù)?或者生成模型失敗還會(huì)有哪
    發(fā)表于 03-10 08:20

    如何開發(fā)一款Google Find My Tag?

    一:Apple Find My 是蘋果公司推出的一項(xiàng)設(shè)備定位和追蹤服務(wù),旨在幫助用戶查找丟失的 Apple 設(shè)備(如 iPhone、iPad、Mac、Apple Watch)以及其他支持 Find
    發(fā)表于 03-05 17:39