chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌李飛飛:人工智能研究道路漫長而曲折 我們依舊在起點龜速前進

mK5P_AItists ? 來源:電子發(fā)燒友網(wǎng) ? 作者:工程師譚軍 ? 2018-07-12 10:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說起人工智能,孕育了卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法的 ImageNet 挑戰(zhàn)賽恐怕是世界上最著名的 AI 數(shù)據(jù)集。8 年來,在 ImageNet 數(shù)據(jù)集的訓(xùn)練下,人工智能對于圖像識別的準(zhǔn)確度整整提高了 10 倍,甚至超越了人類視覺本身。

然而,AI 領(lǐng)域的科學(xué)家們并沒有停下前進的腳步。上個周末,人工智能領(lǐng)域最卓越的科學(xué)家之一:斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛在未來論壇年會上,為我們做了一場名為“超越 ImageNet 的視覺智能”的精彩演講。她告訴我們,AI 不僅僅能夠精準(zhǔn)辨認(rèn)物體,還能夠理解圖片內(nèi)容、甚至能根據(jù)一張圖片寫一小段文章,還能“看懂”視頻......

今天小編給大家?guī)淼氖俏覀冏罱囊恍┭芯克悸?,今天小編的演講內(nèi)容是視覺智能。我們都知道,地球上有很多種動物,這其中的絕大多數(shù)都有眼睛,這告訴我們視覺是最為重要的一種感覺和認(rèn)知方式。它對動物的生存和發(fā)展至關(guān)重要。

所以無論我們在討論動物智能還是機器智能,視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當(dāng)中,我們目前了解最深入的是人類的視覺系統(tǒng)。從 5 億多年前寒武紀(jì)大爆發(fā)開始,我們的視覺系統(tǒng)就不斷地進化發(fā)展,這一重要的過程得以讓我們理解這個世界。而且視覺系統(tǒng)是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng),大腦中負(fù)責(zé)視覺加工的皮層占所有皮層的 50%,這告訴我們,人類的視覺系統(tǒng)非常了不起。

寒武紀(jì)物種大爆發(fā)

一位認(rèn)知心理學(xué)家做過一個非常著名的實驗,這個實驗?zāi)芨嬖V大家,人類的視覺體系有多么了不起。大家看一下這個視頻,你的任務(wù)是如果看到一個人的話就舉手。每張圖呈現(xiàn)的時間是非常短的,也就是 1/10 秒。不僅這樣,如果讓大家去尋找一個人,你并不知道對方是什么樣的人,或者 TA 站在哪里,用什么樣的姿勢,穿什么樣的衣服,然而你仍然能快速準(zhǔn)確地識別出這個人。

1996 年的時候,法國著名的心理學(xué)家、神經(jīng)科學(xué)家 Simon J. Thorpe 的論文證明出視覺認(rèn)知能力是人類大腦當(dāng)中最為了不起的能力,因為它的速度非???,大概是 150 毫秒。在 150 毫秒之內(nèi),我們的大腦能夠把非常復(fù)雜的含動物和不含動物的圖像區(qū)別出來。那個時候計算機與人類存在天壤之別,這激勵著計算機科學(xué)家,他們希望解決的最為基本的問題就是圖像識別問題。

在 ImageNet 之外,在單純的物體識別之外,我們還能做些什么?

過了 20 年到現(xiàn)在,計算機領(lǐng)域內(nèi)的專家們也針對物體識別發(fā)明了幾代技術(shù),這個就是眾所周知的 ImageNet。我們在圖像識別領(lǐng)域內(nèi)取得了非常大的進步:8 年的時間里,在 ImageNet 挑戰(zhàn)賽中,計算機對圖像分類的錯誤率降低了 10 倍。同時,這 8 年當(dāng)中一項巨大的革命也出現(xiàn)了: 2012 年,卷積神經(jīng)網(wǎng)絡(luò)(convolutionary neural network)和 GPU(圖形處理器,Graphic Processing Unit)技術(shù)的出現(xiàn),對于計算機視覺和人工智能研究來說是個非常令人激動的進步。作為科學(xué)家,我也在思考,在 ImageNet 之外,在單純的物體識別之外,我們還能做些什么?

谷歌李飛飛:人工智能研究道路漫長而曲折 我們依舊在起點龜速前進

8年的時間里,在ImageNet挑戰(zhàn)賽中,計算機對圖像分類的錯誤率降低了10倍。

通過一個例子告訴大家:兩張圖片,都包含一個動物和一個人,如果只是單純的觀察這兩張圖中出現(xiàn)的事物,這兩張圖是非常相似的,但是他們呈現(xiàn)出來的故事卻是完全不同的。當(dāng)然你肯定不想出現(xiàn)在右邊這張圖的場景當(dāng)中。

這里體現(xiàn)出了一個非常重要的問題,也就是人類能夠做到的、最為重要、最為基礎(chǔ)的圖像識別功能——理解圖像中物體之間的關(guān)系。為了模擬人類,在計算機的圖像識別任務(wù)中,輸入的是圖像,計算機所輸出的信息包括圖像中的物體、它們所處的位置以及物體之間的關(guān)系。目前我們有一些前期工作,但是絕大多數(shù)由計算機所判斷的物體之間的關(guān)系都是十分有限的。

最近我們開始了一項新的研究,我們使用深度學(xué)習(xí)算法和視覺語言模型,讓計算機去了解圖像中不同物體之間的關(guān)系。

計算機能夠告訴我們不同物體之間的空間關(guān)系,能在物體之間進行比較,觀察它們是否對稱,然后了解他們之間的動作,以及他們之間的介詞方位關(guān)系。所以這是一個更為豐富的方法,去了解我們的視覺世界,而不僅僅是簡單識別一堆物體的名稱。

Visual Relationship Detection with Language Priors

更有趣的是,我們甚至可以讓計算機實現(xiàn) Zero short(0 樣本學(xué)習(xí))對象關(guān)系識別。舉個例子,用一張某人坐在椅子上、消防栓在旁邊的圖片訓(xùn)練算法。然后再拿出另一張圖片,一個人坐在消防栓上。雖然算法沒見過這張圖片,但能夠表達(dá)出這是“一個人坐在消防栓上”。類似的,算法能識別出“一匹馬戴著帽子”,雖然訓(xùn)練集里只有“人騎馬”以及“人戴著帽子”的圖片。

讓 AI 讀懂圖像

在物體識別問題已經(jīng)很大程度上解決以后,我們的下一個目標(biāo)是走出物體本身,關(guān)注更為廣泛的對象之間的關(guān)系、語言等等。

ImageNet 為我們帶來了很多,但是它從圖像中識別出的信息是非常有限的。COCO 軟件則能夠識別一個場景中的多個物體,并且能夠生成一個描述場景的短句子。但是視覺信息數(shù)據(jù)遠(yuǎn)不止這些。

經(jīng)過三年的研究,我們發(fā)現(xiàn)了一個可以有更為豐富的方法來描述這些內(nèi)容,通過不同的標(biāo)簽,描述這些物體,包括他們的性質(zhì)、屬性以及關(guān)系,然后通過這樣的一個圖譜建立起他們之間的聯(lián)系,我們稱之為Visual Genome dataset(視覺基因組數(shù)據(jù)集)。這個數(shù)據(jù)集中包含 10多萬張圖片,100 多萬種屬性和關(guān)系標(biāo)簽,還有幾百萬個描述和問答信息。在我們這樣一個數(shù)據(jù)集中,能夠非常精確地讓我們超越物體識別,來進行更加精確的對于物體間關(guān)系識別的研究。

那么我們到底要怎么使用這個工具呢?場景識別就是一個例子:它單獨來看是一項簡單的任務(wù),比如在谷歌里搜索“穿西裝的男人”或者“可愛的小狗”,都能直接得到理想的結(jié)果。但是當(dāng)你搜索“穿西裝的男人抱著可愛的小狗”的時候,它的表現(xiàn)就變得糟糕了,這種物體間的關(guān)系是一件很難處理的事情。

絕大多數(shù)搜索引擎的這種算法,在搜索圖像的時候,可能很多還是僅僅使用物體本身的信息,算法只是簡單地了解這個圖有什么物體,但是這是不夠的。比如搜索一個坐在椅子上的男性的圖片,如果我們能把物體之外、場景之內(nèi)的關(guān)系全都包含進來,然后再想辦法提取精確的關(guān)系,這個結(jié)果就會更好一些。

2015 年的時候,我們開始去探索這種新的呈現(xiàn)方法,我們可以去輸入非常長的描述性的段落,放進 ImageNet 數(shù)據(jù)集中,然后反過來把它和我們的場景圖進行對比,我們通過這種算法能夠幫助我們進行很好的搜索,這就遠(yuǎn)遠(yuǎn)地超過了我們在之前的這個圖像搜索技術(shù)當(dāng)中所看到的結(jié)果。

Google圖片的準(zhǔn)確率已經(jīng)得到了顯著提升

這看起來非常棒,但是大家會有一個問題,在哪里能夠找到這些場景圖像呢?構(gòu)建起一個場景圖是一件非常復(fù)雜并且很困難的事情。目前 Visual Genome 數(shù)據(jù)集中的場景圖都是人工定義的,里面的實體、結(jié)構(gòu)、實體間的關(guān)系和到圖像的匹配都是我們?nèi)斯ね瓿傻?,過程挺痛苦的,我們也不希望以后還要對每一個場景都做這樣的工作。

所以我們下一步的工作,就是希望能夠出現(xiàn)自動地產(chǎn)生場景圖的一個技術(shù)。所以我們在今年夏天發(fā)表的一篇 CVPR 文章中做了這樣一個自動生成場景圖的方案:對于一張輸入圖像,我們首先得到物體識別的備選結(jié)果,然后用圖推理算法得到實體和實體之間的關(guān)系等等;這個過程都是自動完成的。

Scene Graph Generation by Iterative Message Passing

人工智能可以像人類一樣看懂視頻?

Visual Genome 數(shù)據(jù)集能讓計算機更好地了解場景信息,但是還是不夠的。而且實際上到現(xiàn)在為止,我們僅僅探索了認(rèn)知心理學(xué)家所討論的一個概念——現(xiàn)場感知(scene gist perception):只需要輕輕一瞥,就能把握主整個場景中的物體和它們之間的關(guān)系。那么在此之外呢?

小編想回過頭去看看十年前我在加州理工學(xué)院讀博士的時候做的一個心理學(xué)實驗,小編用 10 美元/小時的費用招募人類被試,通過顯示器給他們快速呈現(xiàn)出一系列照片,每張照片閃現(xiàn)之后用一個類似墻紙一樣的圖像蓋住它,目的是把他們視網(wǎng)膜暫留的信息清除掉。然后讓他們盡可能多地寫下自己看到的東西。有些照片只顯示了 1/40 秒(27毫秒),有些照片則顯示了 0.5 秒的時間,我們的被試能夠在這么短的時間里理解場景信息。如果小編給的實驗費用更高的話,大家甚至能做的更好。進化給了我們這樣的能力,只看到一張圖片就可以講出一個很長的故事。

2015 年開始,我們使用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)算法比如 LSTM 來建立圖像和語言之間的關(guān)系。從此之后我們就可以讓計算機給幾乎任何東西配上一個句子。比如這兩個例子,“一位穿著橙色馬甲的工人正在鋪路”和“穿著黑色T恤的男人正在彈吉他”。

不過圖像所包含的信息很豐富,一個簡短的句子不足以涵蓋所有,所以我們下一步的工作就是稠密捕獲(dense capture)。讓計算機將一張圖片分為幾個部分,然后分別對各個部分進行描述,而不是僅僅用一個句子描述整個場景。

除了此之外,我們今年所做的工作邁上了一個新的臺階,計算機面對圖像不只是簡單的說明句子,還要生成文字段落,把它們以具有空間意義的方式連接起來。這與認(rèn)知心理學(xué)家所做的實驗當(dāng)中人類的描述結(jié)果是非常接近的。

COCO 能夠根據(jù)圖片寫出幾個句子(粉色部分)

新算法能夠生成一個段落(藍(lán)色部分)

A Hierarchical Approach for Generating Descriptive Image Paragraphs

但是我們并沒有停止在這里,我們開始讓計算機識別視頻。這是一個嶄新且豐富的計算機視覺研究領(lǐng)域。互聯(lián)網(wǎng)上有很多視頻,有各種各樣的數(shù)據(jù)形式,了解這些視頻是非常重要的。我們可以用跟上面相似的稠密捕獲模型去描述更長的故事片段。把時間的元素加入進去,計算機就能夠識別一段視頻并對它進行描述。

視覺認(rèn)知和邏輯推理的結(jié)合

最后,小編想談?wù)勗诤唵握J(rèn)知以外,我們?nèi)绾巫屓斯ぶ悄苓_(dá)到任務(wù)驅(qū)動的水平。從一開始人類就希望用語言給機器人下達(dá)指定,然后機器人用視覺方法觀察世界、理解并完成任務(wù)。

在 20 世紀(jì)七八十年代的時候,人工智能的先驅(qū)們就已經(jīng)在研究如何讓計算機根據(jù)他們的指令完成任務(wù)了。比如下面這個例子,人類說:“藍(lán)色的角錐體很好。我喜歡不是紅色的立方體,但是我也不喜歡任何一個墊著角錐體的東西。那我喜歡那個灰色的盒子嗎?” 那么機器或者人工智能就會回答:“不,因為它墊著一個角錐體”。它能夠?qū)@個復(fù)雜的世界做理解和推理。

最近,我們和 Facebook 合作重新研究這類問題,創(chuàng)造了帶有各種幾何體的場景,我們命名為 Clever dataset。這個數(shù)據(jù)集包含成對的問題和答案,這其中會涉及到屬性的辨別、計數(shù)、對比、空間關(guān)系等等。我們會給人工智能提問,看它會如何理解、推理、解決這些問題。

我們將人工智能和人類對這類推理問題的回答做了個比較:人類能達(dá)到超過 90% 的正確率,機器雖然能做到接近 70% 了,但是仍然有巨大的差距。有這個差距就是因為人類能夠組合推理,機器則做不到。

因此我們開始尋找一種能夠讓人工智能表現(xiàn)得更好的方法:我們把一個問題分解成帶有功能的程序段,然后在程序段基礎(chǔ)上訓(xùn)練一個能回答問題的執(zhí)行引擎。這個方案在嘗試推理真實世界問題的時候就具有高得多的組合能力。這項工作我們剛剛發(fā)表于 ICCV。

比如我們提問“紫色的東西是什么形狀的?”,它就會回答“是一個立方體”,并且能夠準(zhǔn)確定位這個紫色立方體的位置。這表明了它的推理是正確的。它還可以數(shù)出東西的數(shù)目。這都體現(xiàn)出了算法可以對場景做推理。

總的來看,我給大家分享的是一系列超越 ImageNet 的工作:

首先,計算機視覺能夠做到除物體識別之外的關(guān)系識別、復(fù)雜語義表征和場景圖景的構(gòu)建;

這之后,我們使用視覺+語言處理單句標(biāo)注、段落生成、視頻理解、聯(lián)合推理;

最后是任務(wù)驅(qū)動的視覺問題,這里還是一個剛剛起步的領(lǐng)域,我相信視覺和邏輯的組合會在這個領(lǐng)域真正攜起手來。

人類視覺已經(jīng)發(fā)展了很久,計算機的視覺識別雖然在出現(xiàn)后的 60 年里有了長足的進步,但也仍然只是一門新興學(xué)科。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6247

    瀏覽量

    110717
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39064

    瀏覽量

    299627
  • 人工智能
    +關(guān)注

    關(guān)注

    1814

    文章

    49955

    瀏覽量

    263619

原文標(biāo)題:谷歌李飛飛:我們依舊站在人工智能研究的起點

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中,我們將介紹這對開發(fā)人員意味著什么,以及使用 Neuton 模型如何改進您的開發(fā)和終端
    發(fā)表于 08-31 20:54

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    ,技術(shù)自主可控 如今這個科技競爭激烈的時代,國產(chǎn)化硬件的重要性不言喻。比鄰星人工智能綜合實驗箱就做到了這一點,采用國產(chǎn)化硬件,積極推進全行業(yè)產(chǎn)業(yè)鏈上下游環(huán)節(jié)的國產(chǎn)化進程,把國產(chǎn)自主可控的軟硬件平臺
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    ,技術(shù)自主可控 如今這個科技競爭激烈的時代,國產(chǎn)化硬件的重要性不言喻。比鄰星人工智能綜合實驗箱就做到了這一點,采用國產(chǎn)化硬件,積極推進全行業(yè)產(chǎn)業(yè)鏈上下游環(huán)節(jié)的國產(chǎn)化進程,把國產(chǎn)自主可控的軟硬件平臺
    發(fā)表于 08-07 14:23

    關(guān)于人工智能處理器的11個誤解

    應(yīng)用,以及哪些是真實情況哪些只是炒作,仍存在諸多誤解。GPU是最佳的人工智能處理器盡管GPU人工智能的實現(xiàn)過程中發(fā)揮了關(guān)鍵作用,而且如今它們的應(yīng)用也極為廣泛,但將其推
    的頭像 發(fā)表于 08-07 13:21 ?1000次閱讀
    關(guān)于<b class='flag-5'>人工智能</b>處理器的11個誤解

    2025人工智能十大趨勢

    2025世界人工智能大會·騰訊論壇上,騰訊研究院聯(lián)合騰訊優(yōu)圖實驗室、騰訊云智能、騰訊科技聯(lián)合發(fā)布了《共生伙伴:2025人工智能十大趨勢》報
    的頭像 發(fā)表于 08-05 11:42 ?5504次閱讀
    2025<b class='flag-5'>人工智能</b>十大趨勢

    超小型Neuton機器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    勇藝達(dá)人工智能研究院迎大咖加盟

    近日,深圳勇藝達(dá)總部隆重舉行 “數(shù)智融合 聚賢賦能 —— 勇藝達(dá)人工智能研究院高端人才聘任儀式”,正式聘請黃道權(quán)先生與吳天準(zhǔn)先生加盟,為研究院注入頂尖智慧力量,此舉標(biāo)志著勇藝達(dá)
    的頭像 發(fā)表于 07-10 18:04 ?865次閱讀

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發(fā)展的當(dāng)下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究
    發(fā)表于 07-04 11:10

    安達(dá)發(fā) 主機廠必看!APS高級排產(chǎn)軟件讓訂單交付周期從變閃電!

    影響企業(yè)聲譽。如何讓訂單交付從“”提升至“閃電”速度? 安達(dá)發(fā)APS(高級計劃與排程系統(tǒng)) 正是解決這一痛點的關(guān)鍵利器。 一、主機廠交付周期為何“”?
    的頭像 發(fā)表于 05-09 15:52 ?577次閱讀
    安達(dá)發(fā) 主機廠必看!APS高級排產(chǎn)軟件讓訂單交付周期從<b class='flag-5'>龜</b><b class='flag-5'>速</b>變閃電!

    軟通動力人工智能工程研究院落戶北京城市副中心

    近日,通州運河商務(wù)區(qū)管委會、郵儲銀行北京分行的支持下,軟通動力人工智能工程研究院(以下簡稱“研究院”)揭牌入駐儀式北京郵儲大廈(副中心)
    的頭像 發(fā)表于 04-24 13:52 ?735次閱讀

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴展/重力感應(yīng)/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發(fā)表于 04-23 10:55

    斯坦福大學(xué)發(fā)布《2025 年人工智能指數(shù)報告》

    2025年4月,斯坦福2025HAI報告重磅發(fā)布。由飛飛聯(lián)合領(lǐng)導(dǎo)的斯坦福大學(xué)以人為本人工智能研究所(StanfordHAI)發(fā)布了《2025年人工
    的頭像 發(fā)表于 04-11 11:08 ?1520次閱讀
    斯坦福大學(xué)發(fā)布《2025 年<b class='flag-5'>人工智能</b>指數(shù)報告》

    一文覽:人工智能(AI)算法與GPU運行原理詳解

    改變了人類生活的方方面面,并且未來仍然會繼續(xù)發(fā)揮越來越重要的影響力? “人工智能”這一概念在1956年于美國達(dá)特茅斯學(xué)院舉辦的一次學(xué)術(shù)集會上被首次提出,自此開啟了人工智能研究的新紀(jì)元
    的頭像 發(fā)表于 02-14 10:28 ?1628次閱讀
    一文<b class='flag-5'>速</b>覽:<b class='flag-5'>人工智能</b>(AI)算法與GPU運行原理詳解

    谷歌再投10億美元于人工智能公司Anthropic

    知情人士透露,此次投資是谷歌對Anthropic持續(xù)看好的體現(xiàn)。在此之前,谷歌已經(jīng)向Anthropic投入了超過20億美元的資金。此次追加投資,無疑將進一步鞏固谷歌
    的頭像 發(fā)表于 01-23 10:57 ?918次閱讀