chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于對(duì)圖片的語(yǔ)音描述,可以學(xué)習(xí)在圖片中辨認(rèn)目標(biāo)物體

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-04 10:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家們提出了一種系統(tǒng),基于對(duì)圖片的語(yǔ)音描述,可以學(xué)習(xí)在圖片中辨認(rèn)目標(biāo)物體,給定一張圖片和音頻解釋,模型可以實(shí)時(shí)辨認(rèn)出音頻描述的相關(guān)區(qū)域。

與現(xiàn)有的語(yǔ)音識(shí)別技術(shù)不同,該模型不需要對(duì)其訓(xùn)練的樣本進(jìn)行手動(dòng)標(biāo)注,而是模型直接從錄音中學(xué)習(xí)單詞,并從原始圖片中學(xué)習(xí)目標(biāo)物體,將它們相互連接。

目前,模型僅僅可以辨認(rèn)幾百個(gè)不同的單詞和目標(biāo)物體類別,但是研究者希望,未來(lái)他們的這種語(yǔ)音和目標(biāo)辨認(rèn)相結(jié)合的技術(shù)可以節(jié)約大量手工勞動(dòng),為語(yǔ)音辨認(rèn)和圖像識(shí)別打開(kāi)新的世界。

像Siri之類的語(yǔ)音識(shí)別系統(tǒng)需要對(duì)上千小時(shí)的錄音進(jìn)行轉(zhuǎn)譯。用這些數(shù)據(jù),系統(tǒng)學(xué)會(huì)將語(yǔ)音信號(hào)映射到具體的單詞上。但一旦詞匯中出現(xiàn)了新術(shù)語(yǔ),這種方法就不管用了,系統(tǒng)就要重新訓(xùn)練。

計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究者,David Harwath表示:“我們想用一種更自然的方法進(jìn)行語(yǔ)音識(shí)別,使用人類常用的信號(hào)和信息來(lái)訓(xùn)練。但是那樣的機(jī)器學(xué)習(xí)算法并不容易獲取。我們想到了一種類似教小孩走路并敘述自己所看到的景象的方法。”Harwath曾參與發(fā)表了一篇論文,論文中的模型在最近的計(jì)算機(jī)視覺(jué)歐洲會(huì)議上進(jìn)行了展示。

在上述論文中,研究人員用一張圖片展示了他們的模型,圖片上有一位年輕的金發(fā)小女孩,她有一雙藍(lán)色的眼睛,穿著藍(lán)色的連衣裙,背景中有一座白色燈塔,燈塔的頂部是紅色的。模型會(huì)學(xué)習(xí)圖片中的哪些像素與小女孩有關(guān),例如哪些是“女孩”、“金發(fā)”、“藍(lán)眼睛”、“藍(lán)裙子”等等。隨著音頻的播放敘述,模型會(huì)在圖片上對(duì)這些區(qū)域進(jìn)行高亮。

其中一種有前景的應(yīng)用就是在兩種不同的語(yǔ)言之間進(jìn)行裝換,無(wú)需雙語(yǔ)標(biāo)注器。全世界大約有7000種語(yǔ)言,只有100種左右有足夠的數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別。但是,是否有這樣一種情景,當(dāng)兩種說(shuō)著不同語(yǔ)言的人描述同一幅圖畫呢?如果模型學(xué)會(huì)語(yǔ)言A所描述的語(yǔ)言信號(hào)所對(duì)應(yīng)的圖中物體,同時(shí)也學(xué)會(huì)了B所描述的同樣物體,那么它就能將這兩種信號(hào)看作是彼此的翻譯版本。

Harwath說(shuō)表示,這有助于解決神話故事中的“巴別塔”問(wèn)題。

音頻-視覺(jué)聯(lián)系

這項(xiàng)工作是Harwath等人早期一項(xiàng)研究的擴(kuò)展,他們當(dāng)時(shí)研究將語(yǔ)音與相關(guān)主題的圖片相連接。在早期研究中,他們從Mechanical Turk平臺(tái)的分類數(shù)據(jù)集中選擇不同場(chǎng)景的圖片,之后讓人對(duì)圖片進(jìn)行描述,就像給小孩子講故事,錄制大約10秒鐘的視頻。他們收集了20多萬(wàn)份圖片和與之對(duì)應(yīng)的音頻注解,分成了上百種不同類別,例如沙灘、購(gòu)物廣場(chǎng)、城市街道、臥室等等。

之后,他們?cè)O(shè)計(jì)了一款模型,由兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。其中一個(gè)處理圖像,另一個(gè)處理光譜(音頻信號(hào)的視覺(jué)表示)。模型的最高層會(huì)計(jì)算兩個(gè)網(wǎng)絡(luò)的輸出,并將語(yǔ)音模式映射到圖片數(shù)據(jù)上。

例如,研究者會(huì)A注釋輸入到圖片A中,這是相對(duì)應(yīng)的。之后又會(huì)隨機(jī)選擇一個(gè)注釋B輸入到圖片A中,這就是錯(cuò)誤的配對(duì)。經(jīng)過(guò)對(duì)比上千種錯(cuò)誤的陪讀,模型學(xué)會(huì)了與圖片A相對(duì)應(yīng)的語(yǔ)音信號(hào),然后將這些信號(hào)和注釋中的單詞聯(lián)系起來(lái)。正如2016年一份研究中所描述的,模型學(xué)會(huì)了表示“water”這個(gè)詞的語(yǔ)音信號(hào),然后檢索出了所有帶水的圖片。

但是Harwath表示,這并不能證明當(dāng)某人說(shuō)出特定單詞時(shí)就指的是某個(gè)像素。

matchmap

在新的論文中,研究人員對(duì)之前的模型進(jìn)行了修改,將特定詞語(yǔ)和特定的像素補(bǔ)丁聯(lián)系在一起。研究人員在同樣的數(shù)據(jù)集上訓(xùn)練模型,但是最終共有40萬(wàn)個(gè)圖片注釋對(duì)子,他們從中隨機(jī)選取了1000對(duì)用作測(cè)試。

在訓(xùn)練時(shí),模型像上述那樣給予不同的注釋,但這次,分析圖片的卷積神經(jīng)網(wǎng)絡(luò)將圖片用網(wǎng)格分成不同的部分,每個(gè)單元都有對(duì)應(yīng)的像素補(bǔ)丁。分析音頻的卷積神經(jīng)網(wǎng)絡(luò)將聲譜也分成不同片段,也就是說(shuō)一秒鐘可能會(huì)有一到兩個(gè)單詞。

在正確的圖片和注釋對(duì)子下,模型會(huì)將第一個(gè)圖片網(wǎng)格與第一段音頻對(duì)應(yīng)起來(lái),然后將同樣的圖片網(wǎng)格與第二段音頻對(duì)應(yīng),如此下去。對(duì)每個(gè)網(wǎng)格和音頻片段,模型都會(huì)給出一個(gè)相似度分?jǐn)?shù),表示音頻信號(hào)與目標(biāo)物體的相似程度有多少。

但其中的難題是,在訓(xùn)練過(guò)程中,模型并不知道音頻和圖片對(duì)應(yīng)的標(biāo)準(zhǔn)是什么。所以這篇論文最大的貢獻(xiàn)就是,它通過(guò)教網(wǎng)絡(luò)哪些圖片和注釋是同屬一類,而哪些不是,就能自動(dòng)推斷這些跨形態(tài)連接。

論文作者將語(yǔ)音和圖片像素之間的聯(lián)系稱作“matchmap”。訓(xùn)練了數(shù)千對(duì)圖片和注釋對(duì)子之后,網(wǎng)絡(luò)會(huì)在matchmap中主線縮小與詞語(yǔ)相對(duì)的目標(biāo)物體。

論文的寫作者Florian Metze說(shuō):“很高興看到這種神經(jīng)方法連接起圖片元素和音頻片段,并且不用文本作為中間工具。這并非是模仿熱淚學(xué)習(xí),而是完全基于彼此之間的連接。這也許能幫助我們理解,通過(guò)音頻和視頻線索如何形成視覺(jué)表示。機(jī)器翻譯是一種應(yīng)用,但它也能用于對(duì)瀕危語(yǔ)言的記錄上。我們也可以想象如何將這種技術(shù)應(yīng)用到廢除劉的語(yǔ)音中,或者殘障人士身上?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:MIT設(shè)計(jì)跨模態(tài)系統(tǒng),讓模型“聽(tīng)音識(shí)圖”

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    這張圖片中的DBL是什么意思?

    這張圖片中的DBL是什么意思,在前面板中對(duì)應(yīng)的是波形圖表,求哪位大神指導(dǎo)?
    發(fā)表于 05-06 09:00

    圖片中的[I/O]是什么類型的IO?

    圖片中的[I/O]是什么類型的IO?
    發(fā)表于 07-18 14:27

    怎樣labview的圖片里插入與plc的通信接口,類似圖片中的組態(tài)軟件這種,在線等,急!

    怎樣labview的圖片里插入與plc的通信接口,類似圖片中的組態(tài)軟件這種,在線等,急!有36張不同模型角度的圖片,怎樣插入通信之后,切
    發(fā)表于 08-25 21:43

    圖片中的電子器件是什么?

    本帖最后由 heroen08808 于 2016-10-29 10:02 編輯 圖片中的電子器件是什么?
    發(fā)表于 10-28 07:29

    請(qǐng)問(wèn)圖片中顯示的應(yīng)該如何解決???

    `我上載了一張圖片,不知道如何解決圖片中的問(wèn)題。`
    發(fā)表于 03-23 17:33

    基于圖片特征的并行化海量圖片快速去重技術(shù)

    針對(duì)海量圖片中的去除重復(fù)圖片效率低的問(wèn)題,提出一種基于圖片特征的并行化海量圖片快速去重技術(shù)。首先,對(duì)圖片提取
    發(fā)表于 12-14 11:48 ?2次下載

    基于深度學(xué)習(xí)圖片中商品參數(shù)識(shí)別方法

    trade-off.目前電商領(lǐng)域的飛速發(fā)展產(chǎn)生了大量包含商品參數(shù)的圖片。使用傳統(tǒng)方法難以有效地提取出圖片中的商品參數(shù)信息.針對(duì)這一問(wèn)題。本文提出了一種將深度學(xué)習(xí)檢測(cè)算法和傳統(tǒng)OCR技術(shù)相結(jié)合的方法,
    發(fā)表于 12-15 10:15 ?0次下載

    深度學(xué)習(xí)圖片壓縮算法,可以節(jié)省55%帶寬

    通過(guò)深度學(xué)習(xí)技術(shù)設(shè)計(jì)壓縮算法不僅能在不借助HEVC的情況下設(shè)計(jì)出更適合商用的更高壓縮比的圖片壓縮算法,還可以保持圖片畫質(zhì)同時(shí),盡可能降低
    的頭像 發(fā)表于 03-14 13:31 ?7165次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>為<b class='flag-5'>圖片</b>壓縮算法,<b class='flag-5'>可以</b>節(jié)省55%帶寬

    哪個(gè)軟件可以打開(kāi)HEIC圖片

    !? ? ? ? 1.打開(kāi)電腦中的瀏覽器,百度中搜索蘋果HEIC圖片轉(zhuǎn)換器,進(jìn)入官網(wǎng)下載并安裝。? ? ? ? 2.安裝完成后,雙擊桌面上的圖標(biāo)進(jìn)入軟件操作界面,我們可以看到添加圖片
    發(fā)表于 08-09 18:16 ?896次閱讀

    谷歌新聞:谷歌解雇48名員工 新推機(jī)器學(xué)習(xí)標(biāo)注圖片功能

    Google2018 ACM多媒體會(huì)議上,推出一種使用機(jī)器學(xué)習(xí)來(lái)標(biāo)注圖片界面,讓使用者快速為圖片中物體標(biāo)記出輪廓以及標(biāo)簽,提高整體標(biāo)記速度
    的頭像 發(fā)表于 10-26 14:42 ?3017次閱讀

    可解析圖片顏色及設(shè)置多彩陰影控件PaletteImageView

    控制控件四個(gè)角的圓角大?。ㄈ绻丶O(shè)置成正方向,隨著圓角半徑增大,可以將控件變成圓形) 可以控制控件的陰影半徑大小 可以分別控制陰影x方向和y方向上的偏移量
    發(fā)表于 03-23 09:09 ?1次下載

    目標(biāo)檢測(cè)算法有哪些 目標(biāo)檢測(cè)算法原理圖

    目標(biāo)檢測(cè)定義,識(shí)別圖片中有哪些物體以及物體的位置(坐標(biāo)位置)。其中,需要識(shí)別哪些物體是人為設(shè)定限制的,僅識(shí)別需要檢測(cè)的
    的頭像 發(fā)表于 12-06 15:49 ?5722次閱讀
    <b class='flag-5'>目標(biāo)</b>檢測(cè)算法有哪些 <b class='flag-5'>目標(biāo)</b>檢測(cè)算法原理圖

    如何在超大分辨率的圖片中檢測(cè)目標(biāo)

    本文通過(guò)一篇YOLT的文章引出超大分辨率的圖片遇到目標(biāo)檢測(cè)任務(wù)該如何處理?此類問(wèn)題一般出現(xiàn)在遙感領(lǐng)域和醫(yī)療影像中居多,我們先來(lái)分析超大圖像的目標(biāo)檢測(cè)存在哪些問(wèn)題,然后學(xué)習(xí)一下YOLT是
    的頭像 發(fā)表于 04-16 09:27 ?2271次閱讀

    圖片文字識(shí)別:揭開(kāi)數(shù)字世界的神秘面紗

    便應(yīng)運(yùn)而生。 圖片文字識(shí)別,簡(jiǎn)單來(lái)說(shuō)就是將圖片中的文字信息提取出來(lái)。這項(xiàng)技術(shù)的應(yīng)用范圍非常廣泛,例如在商業(yè)領(lǐng)域中,我們可以通過(guò)圖片文字識(shí)別技術(shù)來(lái)識(shí)別產(chǎn)品的宣傳語(yǔ)、標(biāo)簽等信息,快速了解產(chǎn)
    的頭像 發(fā)表于 05-11 18:20 ?911次閱讀

    使用Python+OpenCV處理圖片

    如果給你一張圖片作為背景,另外一張圖片中物體作為前景圖,要把前景圖中的物體疊加布置到背景圖的中間位置,并且前景圖中的物體需要在背景圖中有旋
    的頭像 發(fā)表于 12-23 15:54 ?845次閱讀