chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聽音辯貌?MIT最新研究!準(zhǔn)確率驚人

MqC7_CAAI_1981 ? 來(lái)源:YXQ ? 2019-05-26 10:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

只聽聲音,就能知道一個(gè)人長(zhǎng)什么樣?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能實(shí)驗(yàn)室),最近就發(fā)布了這樣一個(gè)令人驚訝的研究。只需要聽6秒的聲音片段,AI就能推斷出說(shuō)話者的容貌。

詳細(xì)解釋之前,咱們一起試試先。

聽聽下面這段錄音,一共有六段。你能想象出來(lái),說(shuō)話的人長(zhǎng)什么樣么?

怎么樣?你行么?

MIT研究人員,設(shè)計(jì)和訓(xùn)練的神經(jīng)網(wǎng)絡(luò)Speech2Face,就能通過(guò)短短的語(yǔ)音片段,推測(cè)出說(shuō)話者的年齡、性別、種族等等多重屬性,然后重建說(shuō)話人的面部。

下面就是AI聽聲識(shí)臉,給出的結(jié)果:

左邊一列是真實(shí)的照片,右邊一列是神經(jīng)網(wǎng)絡(luò)根據(jù)聲音推斷出來(lái)的長(zhǎng)相。

講真,這個(gè)效果讓我們佩服。

這篇論文也入圍了今年的學(xué)術(shù)頂級(jí)會(huì)議CVPR 2019。

當(dāng)然這個(gè)研究也會(huì)引發(fā)一些隱私方面的擔(dān)憂。不過(guò)研究團(tuán)隊(duì)在論文中特別聲明,這個(gè)神經(jīng)網(wǎng)絡(luò)不追求完全精確還原單一個(gè)體的臉部圖像。

不同的語(yǔ)言也有影響。論文中舉了一個(gè)案例,同一男子分別說(shuō)中文和英文,AI卻分別還原出了不同的面孔樣貌。當(dāng)然,這也跟口音、發(fā)聲習(xí)慣等相關(guān)。

另外,研究團(tuán)隊(duì)也表示,目前這套系統(tǒng)對(duì)還原白人和東亞人的面孔效果更好??赡苡捎谟《群秃谌说臄?shù)據(jù)較少,還原效果還有待進(jìn)一步提高。

原理

從聲音推斷一個(gè)人的長(zhǎng)相不是一種玄學(xué),平時(shí)我們?cè)诖螂娫挄r(shí)會(huì)根據(jù)對(duì)方的聲音腦補(bǔ)出相貌特征。

這是因?yàn)?,年齡、性別、嘴巴形狀、面部骨骼結(jié)構(gòu),所有這些都會(huì)影響人發(fā)出的聲音。此外,語(yǔ)言、口音、速度通常會(huì)體現(xiàn)出一個(gè)的民族、地域、文化特征。

AI正是根據(jù)語(yǔ)音和相貌的關(guān)聯(lián)性做出推測(cè)。

為此,研究人員提取了幾百萬(wàn)個(gè)YouTube視頻,通過(guò)訓(xùn)練,讓深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音和面部的相關(guān)性,找到說(shuō)話的人一些基本特征,比如年齡、性別、種族等,并還原出相貌。

而且在這個(gè)過(guò)程中,不需要人類標(biāo)記視頻,由模型自我監(jiān)督學(xué)習(xí)。這就是文章中所說(shuō)的Speech2Face模型。

將電話另一端通過(guò)卡通人物的方式顯示在你的手機(jī)上,可能是Speech2Face未來(lái)的一種實(shí)際應(yīng)用。

模型結(jié)構(gòu)

Speech2Face模型是如何還原人臉的,請(qǐng)看下圖:

給這個(gè)網(wǎng)絡(luò)輸入一個(gè)復(fù)雜的聲譜圖,它將會(huì)輸出4096-D面部特征,然后使用預(yù)訓(xùn)練的面部解碼器將其還原成面部的標(biāo)準(zhǔn)圖像。

訓(xùn)練模塊在圖中用橙色部分標(biāo)記。在訓(xùn)練過(guò)程中,Speech2Face模型不會(huì)直接用人臉圖像與原始圖像進(jìn)行對(duì)比,而是與原始圖像的4096-D面部特征對(duì)比,省略了恢復(fù)面部圖像的步驟。

在訓(xùn)練完成后,模型在推理過(guò)程中才會(huì)使用面部解碼器恢復(fù)人臉圖像。

訓(xùn)練過(guò)程使用的是AVSpeech數(shù)據(jù)集,它包含幾百萬(wàn)個(gè)YouTube視頻,超過(guò)10萬(wàn)個(gè)人物的語(yǔ)音-面部數(shù)據(jù)。

在具體細(xì)節(jié)上,研究使用的中每個(gè)視頻片段開頭最多6秒鐘的音頻,并從中裁剪出人臉面部趨于,調(diào)整到224×224像素。

從原始圖像提取特征重建的人臉,以及從聲音推測(cè)的人臉

之前,也有人研究過(guò)聲音推測(cè)面部特征,但都是從人的聲音預(yù)測(cè)一些屬性,然后從數(shù)據(jù)庫(kù)中獲取最適合預(yù)測(cè)屬性的圖像,或者使用這些屬性來(lái)生成圖像。

然而,這種方法存在局限性,需要有標(biāo)簽來(lái)監(jiān)督學(xué)習(xí),系統(tǒng)的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態(tài)、遮擋和光照條件的巨大變化,想要獲得穩(wěn)定的輸出結(jié)果,Speech2Face人臉模型的設(shè)計(jì)和訓(xùn)練變得非常重要。

一般從輸入語(yǔ)音回歸到圖像的簡(jiǎn)單方法不起作用,模型必須學(xué)會(huì)剔除數(shù)據(jù)中許多不相關(guān)的變化因素,并隱含地提取人臉有意義的內(nèi)部表示。

為了解決這些困難,模型不是直接得到人臉圖像,而是回歸到人臉的低維中間表示。更具體地說(shuō),是利用人臉識(shí)別模型VGG-Face,并從倒數(shù)第二層的網(wǎng)絡(luò)提取一個(gè)4096-D面部特征。

模型的pipeline由兩個(gè)主要部分組成:

1、語(yǔ)音編碼器

語(yǔ)音編碼器模塊是一個(gè)CNN,將輸入的語(yǔ)音聲譜圖轉(zhuǎn)換成偽人臉特征,并預(yù)測(cè)面部的低維特征,隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征,并以標(biāo)準(zhǔn)形式(正面和中性表情)產(chǎn)生面部圖像。

在訓(xùn)練過(guò)程中,人臉解碼器是固定的,只訓(xùn)練預(yù)測(cè)人臉特征的語(yǔ)音編碼器。語(yǔ)音編碼器是作者自己設(shè)計(jì)和訓(xùn)練的模型,而面部解碼器使用的是前人提出的模型。

將實(shí)驗(yàn)結(jié)果更進(jìn)一步,Speech2Face還能用于人臉檢索。把基于語(yǔ)音的人臉預(yù)測(cè)結(jié)果與數(shù)據(jù)庫(kù)中的人臉進(jìn)行比較,系統(tǒng)將給出5個(gè)最符合的人臉照片。

不足之處

若根據(jù)語(yǔ)言來(lái)預(yù)測(cè)種族,那么一個(gè)人說(shuō)不同的語(yǔ)言會(huì)導(dǎo)致不同的預(yù)測(cè)結(jié)果嗎?

研究人員讓一個(gè)亞洲男性分別說(shuō)英語(yǔ)和漢語(yǔ),結(jié)果分別得到了2張不同的面孔。

模型有時(shí)候也能正確預(yù)測(cè)結(jié)果,比如讓一個(gè)亞洲小女孩說(shuō)英文,雖然恢復(fù)出的圖像和本人有很大差距,但仍可以看出黃種人的面部特征。

研究人員表示,這個(gè)小女孩并沒(méi)有明顯的口音特征,所以他們的模型還要進(jìn)一步檢查來(lái)確定對(duì)語(yǔ)言的依賴程度。

在其他一些情況下,模型也會(huì)“翻車”。比如:變聲期之前的兒童,會(huì)導(dǎo)致模型誤判性別發(fā)生錯(cuò)誤;口音與種族特征不匹配;將老人識(shí)別為年輕人,或者是年輕人識(shí)別為老人。

作者團(tuán)隊(duì)

這個(gè)研究的作者,大部分來(lái)自MIT CSAIL。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    254

    瀏覽量

    24855
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5587

    瀏覽量

    123764

原文標(biāo)題:MIT腦洞研究!只聽6秒語(yǔ)音,就知道你長(zhǎng)什么樣,效果好得不敢信

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    除了準(zhǔn)確率,電能質(zhì)量在線監(jiān)測(cè)裝置在諧波源識(shí)別方面還有哪些重要指標(biāo)?

    除了識(shí)別準(zhǔn)確率,電能質(zhì)量在線監(jiān)測(cè)裝置在諧波源識(shí)別方面的核心價(jià)值還依賴于 識(shí)別效率、定位精度、抗干擾能力、場(chǎng)景適配性 等關(guān)鍵指標(biāo),這些指標(biāo)直接決定裝置能否在復(fù)雜現(xiàn)場(chǎng)環(huán)境中 “快速找對(duì)、精準(zhǔn)定位、穩(wěn)定
    的頭像 發(fā)表于 10-22 16:22 ?676次閱讀

    電能質(zhì)量在線監(jiān)測(cè)裝置識(shí)別諧波源的準(zhǔn)確率有多高?

    電能質(zhì)量在線監(jiān)測(cè)裝置識(shí)別諧波源的準(zhǔn)確率受電網(wǎng)結(jié)構(gòu)、監(jiān)測(cè)方案、設(shè)備性能等多重因素影響,呈現(xiàn)顯著的 場(chǎng)景化差異 。根據(jù)行業(yè)研究與工程實(shí)踐,其準(zhǔn)確率通常在 **65%~95%** 之間波動(dòng),具體可分為以下
    的頭像 發(fā)表于 10-22 16:18 ?552次閱讀

    精準(zhǔn)匹配哈爾濱零碳標(biāo)準(zhǔn)!安科瑞EMS3.0實(shí)現(xiàn)碳排放數(shù)據(jù)準(zhǔn)確率≥98%

    數(shù)據(jù)100%在線采集(參照《黑龍江省零碳園區(qū)建設(shè)指南》2025版)。 2. 地域化挑戰(zhàn) 嚴(yán)寒氣候限制:冬季光伏日均有效發(fā)電時(shí)長(zhǎng)≤3小時(shí),棄光高達(dá)40%。 重工業(yè)負(fù)荷特性:裝備制造/食品加工園區(qū)沖擊性負(fù)荷(如冷庫(kù)壓縮機(jī))導(dǎo)致峰谷差達(dá)1:4,需量電費(fèi)占比超35%。 供熱碳
    的頭像 發(fā)表于 08-18 16:39 ?363次閱讀
    精準(zhǔn)匹配哈爾濱零碳標(biāo)準(zhǔn)!安科瑞EMS3.0實(shí)現(xiàn)碳排放數(shù)據(jù)<b class='flag-5'>準(zhǔn)確率</b>≥98%

    Text2SQL準(zhǔn)確率暴漲22.6%!3大維度全拆

    摘要 技術(shù)背景:Text2SQL 是將自然語(yǔ)言查詢轉(zhuǎn)為 SQL 的任務(wù),經(jīng)歷了基于規(guī)則、神經(jīng)網(wǎng)絡(luò)、預(yù)訓(xùn)練語(yǔ)言模型、大語(yǔ)言模型四個(gè)階段。當(dāng)前面臨提示優(yōu)化、模型訓(xùn)練、推理時(shí)增強(qiáng)三大難題,研究
    的頭像 發(fā)表于 08-14 11:17 ?435次閱讀
    Text2SQL<b class='flag-5'>準(zhǔn)確率</b>暴漲22.6%!3大維度全拆

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級(jí)AI攝像機(jī),進(jìn)行AI識(shí)別應(yīng)用。 AI訓(xùn)練模型是不斷迭代優(yōu)化過(guò)程,譬如,100個(gè)數(shù)據(jù)樣本模型的識(shí)別準(zhǔn)確率和10萬(wàn)個(gè)數(shù)據(jù)樣本的識(shí)別準(zhǔn)確率,不一樣,AI模型理論上是客戶采集訓(xùn)練樣本越多,準(zhǔn)確率
    發(fā)表于 04-28 11:11

    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業(yè)應(yīng)用準(zhǔn)確率

    結(jié)合,深度開發(fā)模型潛力,快速實(shí)現(xiàn)本地化部署DeepSeek,構(gòu)建準(zhǔn)確率高、安全穩(wěn)定的專屬智能應(yīng)用。實(shí)測(cè)數(shù)據(jù)顯示,DeepSeek在元腦企智EPAI上開發(fā)的企業(yè)應(yīng)用回答準(zhǔn)確率達(dá)到95%。 ? 企業(yè)落地
    的頭像 發(fā)表于 02-23 07:32 ?797次閱讀
    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業(yè)應(yīng)用<b class='flag-5'>準(zhǔn)確率</b>

    Meta非入侵式腦機(jī)技術(shù):AI讀取大腦信號(hào)打字準(zhǔn)確率80%

    腦機(jī)技術(shù)主要通過(guò)AI模型與特定硬件的結(jié)合,將用戶的大腦信號(hào)映射成具體的鍵盤字符。該技術(shù)的準(zhǔn)確率高達(dá)約80%,能夠準(zhǔn)確判斷用戶在“敲擊”的按鍵,從而實(shí)現(xiàn)文字輸入。 值得注意的是,這項(xiàng)設(shè)備完全依靠外部腦機(jī)讀取用戶的大腦信號(hào),無(wú)需進(jìn)行植
    的頭像 發(fā)表于 02-11 15:45 ?937次閱讀

    如何提升音頻音質(zhì)?比特和采樣是關(guān)鍵!

    在挑選音響、聲卡、耳機(jī)等音頻設(shè)備時(shí),我們都會(huì)特別關(guān)注其音質(zhì)表現(xiàn)——這關(guān)乎到我們聆聽音樂(lè)、觀看電影等娛樂(lè)體驗(yàn)的質(zhì)量。實(shí)際上,我們可以在音頻設(shè)備中看到一些名詞標(biāo)注:比特、采樣……這兩個(gè)可是影響音
    的頭像 發(fā)表于 02-05 17:26 ?4531次閱讀
    如何提升音頻音質(zhì)?比特<b class='flag-5'>率</b>和采樣<b class='flag-5'>率</b>是關(guān)鍵!

    請(qǐng)問(wèn)AFE4400 SPO2精度和準(zhǔn)確率如何?

    請(qǐng)問(wèn)用TI 的AFE4400 EVM 測(cè)量SPO2 的值,有沒(méi)有詳細(xì)的說(shuō)明其測(cè)量的準(zhǔn)確率和精度,抗弱灌注等。謝謝! 比如如下類似: SpO2 測(cè)量范圍 0~100% 分辨 1% 精度 70~100%, 2%
    發(fā)表于 01-15 07:02

    如何提高OTDR測(cè)試的準(zhǔn)確

    折射設(shè)置 : OTDR測(cè)試時(shí),必須準(zhǔn)確設(shè)置光纖的折射。由于OTDR是依據(jù)測(cè)量時(shí)間,利用公式L=ct/2n來(lái)計(jì)算光纖長(zhǎng)度的,因此設(shè)置的折射和光纖實(shí)際的折射
    的頭像 發(fā)表于 12-31 09:25 ?1553次閱讀

    如何提升人臉門禁一體機(jī)的識(shí)別準(zhǔn)確率?

    人臉門禁一體機(jī)作為現(xiàn)代安全管理的重要設(shè)備,廣泛應(yīng)用于企業(yè)、學(xué)校、社區(qū)等多個(gè)場(chǎng)所。其高效便捷的特性讓人們可以快速通過(guò)門禁,然而,識(shí)別準(zhǔn)確率的高低直接影響到使用體驗(yàn)與安全性。為了提高人臉門禁一體機(jī)的識(shí)別
    的頭像 發(fā)表于 12-10 15:05 ?1329次閱讀
    如何提升人臉門禁一體機(jī)的識(shí)別<b class='flag-5'>準(zhǔn)確率</b>?

    電導(dǎo)測(cè)定儀:功能全面,準(zhǔn)確測(cè)量

    在當(dāng)今的水質(zhì)監(jiān)測(cè)領(lǐng)域,電導(dǎo)測(cè)定儀作為一款高效、準(zhǔn)確的測(cè)量設(shè)備,正發(fā)揮著越來(lái)越重要的作用。它不僅能夠準(zhǔn)確測(cè)量溶液的電導(dǎo)值,還具備自動(dòng)溫度補(bǔ)償、一體式設(shè)計(jì)以及防水性能等特點(diǎn),成為水質(zhì)監(jiān)
    的頭像 發(fā)表于 11-28 13:41 ?1259次閱讀

    KiCon演講回顧(四):AI助力電子元件庫(kù)自動(dòng)化提取

    操作多、耗時(shí)、易出錯(cuò)。 技術(shù)要求:符號(hào)庫(kù)生成準(zhǔn)確率>99%,封裝庫(kù)幾何精度0.01mm,識(shí)別準(zhǔn)確率>99%。 企業(yè)需求:廣東-香港-澳門地區(qū)對(duì)符號(hào)與封裝建模工具的需求,包括行業(yè)標(biāo)準(zhǔn)、平臺(tái)要求、庫(kù)可持續(xù)性等。 Footprintku AI:行業(yè)發(fā)展趨勢(shì) 基于AI的元件
    的頭像 發(fā)表于 11-25 11:56 ?1862次閱讀
    KiCon演講回顧(四):AI助力電子元件庫(kù)自動(dòng)化提取

    微機(jī)保護(hù)裝置預(yù)警功能的準(zhǔn)確率

    異常狀態(tài)。 微機(jī)保護(hù)裝置的預(yù)警功能準(zhǔn)確率是衡量其性能的重要指標(biāo),它直接關(guān)系到裝置能否及時(shí)準(zhǔn)確地檢測(cè)潛在的故障或異常情況,從而預(yù)防事故的發(fā)生。 準(zhǔn)確率影響因素: 1.硬件性能:高精度的傳感器和強(qiáng)大的數(shù)據(jù)處理單元直
    的頭像 發(fā)表于 11-03 16:10 ?718次閱讀