chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

計算機視覺和自然語言處理這兩個領(lǐng)域AI進展的真實情況

DPVg_AI_era ? 來源:lq ? 2018-12-12 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2018年還剩20天,人工智能的熱度一點沒減。除了下圍棋、認(rèn)人臉,人工智能究竟發(fā)展到了什么地步?匯總各領(lǐng)域?qū)W術(shù)論文最先進成果,今天,讓我們來看計算機視覺和自然語言處理這兩個領(lǐng)域AI進展的真實情況。

2018年,人工智能熱度不減,成果不斷。

雖然少了去年動輒“超越人類”的銳氣,但“輔助人類”的人工智能,如今究竟發(fā)展到什么程度?就讓我們在2018即將結(jié)束的時候,來一個簡單的回顧。

拋開劑量談毒性是耍流氓,拋開數(shù)據(jù)集和特定任務(wù)談人工智能進展也一樣?!皊tate of the art.ai”是MIT和UNAM的學(xué)生做的一個網(wǎng)站,收進了目前最優(yōu)的算法,涵蓋了計算機視覺、游戲、自然語言處理、網(wǎng)絡(luò)圖和知識庫、程序歸納和程序合成、音頻處理、時間序列處理七個領(lǐng)域。

下面,我們就根據(jù)已經(jīng)發(fā)表的科研論文,先來看看計算機視覺和自然語言處理這兩大AI領(lǐng)域的情況。

計算機視覺

3D/3D Reconstruction

“3D”可以說是眼下CV領(lǐng)域最火的一個詞。今年各家智能手機宣傳里都提到了“3D結(jié)構(gòu)光”。那么,3D視覺發(fā)展到了什么程度?

2017年的CVPR,MIT、馬薩諸塞大學(xué)阿默斯特分校和谷歌DeepMind的研究人員展示了一項成果,使用自動編碼器(VAE),構(gòu)建了一個名叫SingleVPNet的框架,能從多個視角的深度圖或其相應(yīng)的輪廓(silhouette)學(xué)習(xí)生成模型,并使用渲染函數(shù)從這些圖像生成細(xì)節(jié)精致的3D形狀。

不僅如此,他們提出的框架還能通過綜合不同視角的2D深度圖(甚至在有遮擋的情況下),生成新的3D形狀。

SingleVPNet在3D形狀數(shù)據(jù)集SharpNetCore上取得了平均誤差0.35的結(jié)果。換句話說,生成逼真的3D形狀還有一段距離。

補充,SharpNetCore是ShapeNet的一個子集,目前包括55個常見對象類別(覆蓋了計算機視覺領(lǐng)域常用的3D基準(zhǔn)數(shù)據(jù)集PASCAL 3D+的12個對象類別),約有51300個獨特的3D模型,每個模型都有手動驗證的類別和對齊注釋,由普林斯頓、斯坦福和豐田技術(shù)研究所(TTIC)的研究人員共同創(chuàng)建。

動作識別

動作識別指從視頻中識別不同的動作,這個動作可能貫穿整個視頻,也可能不會。動作識別是圖像識別的擴展,涉及從多幀視頻中進行圖像識別,然后從每一個幀中聚集預(yù)測結(jié)果。

2017年的NeurIPS,CMU機器人學(xué)院的研究人員Rohit Girdhar 和 Deva Ramanan 利用注意力機制(Attentional Pooling),在保持網(wǎng)絡(luò)復(fù)雜度和計算量基本不變的情況下,在三個靜態(tài)圖像和視頻標(biāo)準(zhǔn)動作識別數(shù)據(jù)集上提升了動作識別的基準(zhǔn)。其中,在MPII人體姿態(tài)數(shù)據(jù)集上取得了12.5%的相對改進。

不過,看絕對值,平均精度還停留在52.2個百分點上面。

人臉識別

根據(jù)美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)今年11月16日公布的結(jié)果,在被譽為工業(yè)界“黃金標(biāo)準(zhǔn)”的全球人臉識別算法測試(FRVT)中,依圖科技以千萬分之一誤報下的識別準(zhǔn)確率超過99%,繼續(xù)保持全球人臉識別競賽冠軍。

千萬分位誤報下的識別準(zhǔn)確率超過99%,意味著更多核心關(guān)鍵的安防場景被解鎖。相比于去年同期,全球人臉識別性能提升了80%。

值得一提,在這份官方公布的報告中,中國人工智能公司實力展現(xiàn),依圖科技(yitu)、商湯科技(sensetime)、曠視科技(megvii)囊括了前十中的五席,加上排名第五的中國科學(xué)院深圳先進技術(shù)研究院(siat),中國團隊已經(jīng)超過半數(shù),并穩(wěn)穩(wěn)“霸屏”前五,領(lǐng)跑全球人臉識別算法。

人體姿態(tài)估計

今年2月,上海交通大學(xué)盧策吾團隊MVIG實驗室AlphaPose 系統(tǒng)上線,是首個在 COCO 數(shù)據(jù)集上可達到 70+ mAP 的開源姿態(tài)估計系統(tǒng)。

今年9月,AlphaPose系統(tǒng)升級,采用 PyTorch 框架,在姿態(tài)估計標(biāo)準(zhǔn)測試集COCO validation set上,達到 71mAP的精度(比 OpenPose 相對提升17%,Mask-RCNN相對提升8%),同時,速度達到了20FPS(比 OpenPose 相對提高66%,Mask-RCNN相對提高300%)。

AlphaPose系統(tǒng),是基于上海交大MVIG組提出的 RMPE 二步法框架(ICCV 2017論文)構(gòu)建的,相比其他開源系統(tǒng)在準(zhǔn)確率有很大提高,比OpenPose相對提高17%,Mask-RCNN相對提高8.2%。

升級后,各個開源框架在COCO-Validation上性能,時間在單卡1080ti GPU測出指標(biāo)如下:

圖像分類

計算機在圖像分類任務(wù)上的精度早已超越了人類,因此當(dāng)前圖像分類精度的最好成績,往往是其他研究的副產(chǎn)物。ICLR 2017,谷歌大腦 Barret Zoph 和 Quoc V. Le 發(fā)表了“Neural Architecture Search with Reinforcement Learning”,他們用強化學(xué)習(xí)自動搜索神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最終AI自己設(shè)計出的模型,在 CIFAR-10數(shù)據(jù)集上做圖像分類取得了96.35%的精度。

或許令人意外,圖像分類目前最好結(jié)果是Facebook AI Research的Benjamin Graham在他2015年Arxiv論文“Fractional Max-Pooling”中得到的,經(jīng)過100次測試后在CIFAR-10上誤差僅為3.47%。這篇論文提出了一種新的fractional max-pooling方法,降低了各種數(shù)據(jù)集上的過擬合。

圖像生成

說到圖像生成,那自然就是生成對抗網(wǎng)絡(luò)(GAN)。

GAN在今年不斷發(fā)展,今年ICLR DeepMind 提出的 BigGAN,可謂當(dāng)前最強圖像生成模型,在128x128分辨率的ImageNet上訓(xùn)練,BigGAN的Inception 分?jǐn)?shù)(IS)可以達到 166.3 ,F(xiàn)rechet Inception 距離(FID)9.6。

關(guān)于BigGAN更詳細(xì)的介紹看這里。

未來GAN還能提升到什么程度,值得期待!

圖像分割

是的,圖像分割王者是何愷明等人2017年提出的Mask-RCNN,mAP值26.2。

2018年8月,密歇根大學(xué)和谷歌大腦的研究人員合作,提出了一種圖像語義分層處理框架,可以實現(xiàn)像素級別的圖像語義理解和操縱,在圖像中任意添加、改變、移動對象,并與原圖渾然一體,實現(xiàn)真正的“毫無PS痕跡”。

雖然相關(guān)論文還未經(jīng)過同行評議,但是根據(jù)上述研究人員在Arxiv論文匯報的結(jié)果,他們在圖像分割上更勝一籌。

自然語言處理

分類/語義相似度/語法/電影評論/語義等價/問答/實體識別

BERT這個名字近來在NLP領(lǐng)域可謂是紅紅火火。

10月13日,谷歌AI團隊新發(fā)布的BERT模型,在機器閱讀理解頂級水平測試SQuAD1.1中表現(xiàn)出驚人的成績:全部兩個衡量指標(biāo)上全面超越人類!并且還在11種不同NLP測試中創(chuàng)出最佳成績,包括將GLUE基準(zhǔn)推至80.4%(絕對改進7.6%),MultiNLI準(zhǔn)確度達到86.7% (絕對改進率5.6%)等。

谷歌團隊的Thang Luong直接定義:BERT模型開啟了NLP的新時代!

BERT的新語言表示模型,它代表Transformer的雙向編碼器表示。與最近的其他語言表示模型不同,BERT旨在通過聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)先訓(xùn)練深度雙向表示。因此,預(yù)訓(xùn)練的BERT表示可以通過一個額外的輸出層進行微調(diào),適用于廣泛任務(wù)的最先進模型的構(gòu)建。

如前文所述,BERT在11項NLP任務(wù)中刷新了性能表現(xiàn)記錄!在此舉出其中一項結(jié)果。

GLUE測試結(jié)果,由GLUE評估服務(wù)器給出。每個任務(wù)下方的數(shù)字表示訓(xùn)練樣例的數(shù)量?!捌骄币粰谥械臄?shù)據(jù)與GLUE官方評分稍有不同,因為我們排除了有問題的WNLI集。BERT 和OpenAI GPT的結(jié)果是單模型、單任務(wù)下的數(shù)據(jù)。所有結(jié)果來自https://gluebenchmark.com/leaderboard和https://blog.openai.com/language-unsupervised/

SQuAD 結(jié)果。BERT 集成是使用不同預(yù)訓(xùn)練檢查點和微調(diào)種子(fine-tuning seed)的 7x 系統(tǒng)。

CoNLL-2003 命名實體識別結(jié)果。超參數(shù)由開發(fā)集選擇,得出的開發(fā)和測試分?jǐn)?shù)是使用這些超參數(shù)進行五次隨機重啟的平均值。

總體而言,BERT模型在NLP領(lǐng)域中的多項任務(wù)取得目前最佳效果,包括

分類、語義相似度、語法、電影評論、語義等價、問答、實體識別等等。

常識推理

在常識推理方面(Commensense Inference),目前取得最先進水平的是Antonio Lieto等人于2017年發(fā)布的文章:Dual PECCS: a cognitive system for conceptual representation and categorization。

當(dāng)然,該篇文章的結(jié)果在概念分類準(zhǔn)確率(Concept Categorization Accuracy)上目前最佳,為89;但在Dev和Test準(zhǔn)確率方面,目前依舊BERT模型結(jié)果最佳,分別為86.6和86.3。

機器翻譯

在機器翻譯任務(wù)中(Machine Translation),目前取得最佳結(jié)果來自于Zhen Yang等人于今年4月在Arxiv上發(fā)布的文章:

該文章的算法主要結(jié)合了Transformer+BR-CSGAN,在BLEU上取得的評分結(jié)果為43.01,為目前最佳結(jié)果。

自然語言推斷

在自然語言推斷(Natural Language Inference)任務(wù)中,目前最佳結(jié)果來自于Yichen Gong等人于今年5月在Arxiv上發(fā)布的文章:

該論文采用的算法是DIIN,在準(zhǔn)確率方面目前為89.84,目前處于最佳水平。

以上是計算機視覺和自然語言處理兩個領(lǐng)域的最新發(fā)展情況。想要了解AI其它領(lǐng)域中各任務(wù)目前取得的最佳結(jié)果可以參考如下鏈接:

https://www.stateoftheart.ai/

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48984

    瀏覽量

    248888
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1708

    瀏覽量

    46744
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14136

原文標(biāo)題:2018,一文看盡AI發(fā)展真相(上)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    自然語言處理與機器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的一分支,它致力于研究如何讓
    的頭像 發(fā)表于 12-05 15:21 ?1961次閱讀

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使得機器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?1473次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領(lǐng)域兩個重要分支,它們在許多應(yīng)用中緊密結(jié)合,共同構(gòu)成了
    的頭像 發(fā)表于 11-18 15:19 ?1012次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的一重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度
    的頭像 發(fā)表于 11-15 14:58 ?785次閱讀

    使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語言處理任務(wù)

    自然語言處理(NLP)是人工智能領(lǐng)域的一重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。
    的頭像 發(fā)表于 11-13 09:56 ?1128次閱讀

    自然語言處理與機器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展中,自然語言處理(NLP)和機器學(xué)習(xí)(ML)成為了兩個核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問題,但側(cè)重點和應(yīng)用場景有所不同。 1.
    的頭像 發(fā)表于 11-11 10:35 ?1516次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    自然語言處理(NLP)是人工智能和語言學(xué)領(lǐng)域的一分支,它致力于使計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 11-08 09:27 ?2378次閱讀

    AI智能化問答:自然語言處理技術(shù)的重要應(yīng)用

    自然語言處理(NLP)是人工智能領(lǐng)域的一重要分支,它致力于使計算機能夠理解、解釋和生成人類語言
    的頭像 發(fā)表于 10-12 10:58 ?1077次閱讀
    <b class='flag-5'>AI</b>智能化問答:<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>技術(shù)的重要應(yīng)用

    圖像處理器與計算機視覺有什么關(guān)系和區(qū)別

    圖像處理器與計算機視覺兩個在圖像處理領(lǐng)域緊密相連但又有所區(qū)別的概念。它們之間的關(guān)系和區(qū)別可以從
    的頭像 發(fā)表于 08-14 09:36 ?1036次閱讀

    計算機視覺技術(shù)的AI算法模型

    計算機視覺技術(shù)作為人工智能領(lǐng)域的一重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標(biāo),
    的頭像 發(fā)表于 07-24 12:46 ?1780次閱讀

    圖像識別技術(shù)包括自然語言處理

    圖像識別技術(shù)與自然語言處理是人工智能領(lǐng)域兩個重要分支,它們在很多方面有著密切的聯(lián)系,但也存在一些區(qū)別。 一、圖像識別技術(shù)與自然語言
    的頭像 發(fā)表于 07-16 10:54 ?1539次閱讀

    機器視覺計算機視覺有什么區(qū)別

    機器視覺計算機視覺兩個密切相關(guān)但又有所區(qū)別的概念。 一、定義 機器視覺 機器視覺,又稱為
    的頭像 發(fā)表于 07-16 10:23 ?1144次閱讀

    自然語言處理前饋網(wǎng)絡(luò)綜述

    自然語言處理(NLP)前饋網(wǎng)絡(luò)是人工智能和語言學(xué)領(lǐng)域的一重要交叉學(xué)科,旨在通過計算機模型理解和
    的頭像 發(fā)表于 07-12 10:10 ?738次閱讀

    計算機視覺自然語言處理的區(qū)別

    計算機視覺(Computer Vision,簡稱CV)與自然語言處理(Natural Language Processing,簡稱NLP)作為人工智能(Artificial Intel
    的頭像 發(fā)表于 07-10 18:25 ?2251次閱讀

    計算機視覺與機器視覺的區(qū)別與聯(lián)系

    隨著人工智能技術(shù)的飛速發(fā)展,計算機視覺和機器視覺作為該領(lǐng)域兩個重要分支,逐漸引起了廣泛關(guān)注。盡管
    的頭像 發(fā)表于 07-10 18:24 ?2698次閱讀