chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種AI算法,可以根據(jù)說(shuō)話(huà)聲音來(lái)預(yù)測(cè)說(shuō)話(huà)人將作出怎樣的肢體動(dòng)作

DPVg_AI_era ? 來(lái)源:lq ? 2019-06-23 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自UC Berkeley和MIT的研究人員開(kāi)發(fā)了一種AI算法,可以根據(jù)說(shuō)話(huà)聲音來(lái)預(yù)測(cè)說(shuō)話(huà)人將作出怎樣的肢體動(dòng)作。所預(yù)測(cè)的動(dòng)作十分自然、流暢,本文帶來(lái)技術(shù)解讀。

人在說(shuō)話(huà)的時(shí)候,常常伴隨著身體動(dòng)作,不管是像睜大眼睛這樣細(xì)微的動(dòng)作,還是像手舞足蹈這樣夸張的動(dòng)作。

最近,來(lái)自UC Berkeley和MIT的研究人員開(kāi)發(fā)了一種AI算法,可以根據(jù)說(shuō)話(huà)聲音來(lái)預(yù)測(cè)說(shuō)話(huà)人將作出怎樣的肢體動(dòng)作。

研究人員稱(chēng),只需要音頻語(yǔ)音輸入,AI就能生成與聲音一致的手勢(shì)。具體來(lái)說(shuō),他們進(jìn)行的是人的獨(dú)白到手勢(shì)和手臂動(dòng)作的“跨模態(tài)轉(zhuǎn)換”(cross-modal translation)。相關(guān)論文發(fā)表在CVPR 2019上。

研究人員收集了10個(gè)人144小時(shí)的演講視頻,其中包括一名修女、一名化學(xué)教師和5名電視節(jié)目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演講視頻數(shù)據(jù)集

他們使用現(xiàn)有的算法生成代表說(shuō)話(huà)者手臂和手位置的骨架圖形。然后他們用這些數(shù)據(jù)訓(xùn)練了自己的算法,這樣AI就可以根據(jù)說(shuō)話(huà)者的新音頻來(lái)預(yù)測(cè)手勢(shì)。

圖1:從語(yǔ)音到手勢(shì)的轉(zhuǎn)換的示例結(jié)果。由下往上:輸入音頻、由我們的模型預(yù)測(cè)的手臂和手的姿態(tài),以及由Caroline Chan等人在“Everybody Dance Now”論文中提出的方法合成的視頻片段。

研究人員表示,在定量比較中,生成的手勢(shì)比從同一說(shuō)話(huà)者者隨機(jī)選擇的手勢(shì)更接近現(xiàn)實(shí),也比從一種不同類(lèi)型的算法預(yù)測(cè)的手勢(shì)更接近現(xiàn)實(shí)。

圖2:特定于說(shuō)話(huà)者的手勢(shì)數(shù)據(jù)集

說(shuō)話(huà)者的手勢(shì)也是獨(dú)特的,對(duì)一個(gè)人進(jìn)行訓(xùn)練并預(yù)測(cè)另一個(gè)人的手勢(shì)并不奏效。將預(yù)測(cè)到的手勢(shì)輸入到現(xiàn)有的圖像生成算法中,可以生成半真實(shí)的視頻。

研究團(tuán)隊(duì)表示,他們的下一步是不僅根據(jù)聲音,還根據(jù)文字稿來(lái)預(yù)測(cè)手勢(shì)。該研究潛在的應(yīng)用包括創(chuàng)建動(dòng)畫(huà)角色、動(dòng)作自如的機(jī)器人,或者識(shí)別假視頻中人的動(dòng)作。

為了支持對(duì)手勢(shì)和語(yǔ)音之間關(guān)系的計(jì)算理解的研究,他們還發(fā)布了一個(gè)大型的個(gè)人特定手勢(shì)視頻數(shù)據(jù)集。

方法詳解:兩階段從語(yǔ)音預(yù)測(cè)視頻

給定原始語(yǔ)音,我們的目標(biāo)是生成說(shuō)話(huà)者相應(yīng)的手臂和手勢(shì)動(dòng)作。

我們分兩個(gè)階段來(lái)完成這項(xiàng)任務(wù)——首先,由于我們用于訓(xùn)練的唯一信號(hào)是相應(yīng)的音頻和姿勢(shì)檢測(cè)序列,因此我們使用L1回歸到2D關(guān)鍵點(diǎn)的序列堆棧來(lái)學(xué)習(xí)從語(yǔ)音到手勢(shì)的映射。

其次,為了避免回歸到所有可能的手勢(shì)模式的平均值,我們使用了一個(gè)對(duì)抗性鑒別器,以確保產(chǎn)生的動(dòng)作相對(duì)于說(shuō)話(huà)者的典型動(dòng)作是可信的。

任何逼真的手勢(shì)動(dòng)作都必須在時(shí)間上連貫流暢。我們通過(guò)學(xué)習(xí)表示整個(gè)話(huà)語(yǔ)的音頻編碼來(lái)實(shí)現(xiàn)流暢性,該編碼考慮了輸入語(yǔ)音的完整時(shí)間范圍s,并一次性(而不是遞歸地)預(yù)測(cè)相應(yīng)姿勢(shì)的整個(gè)時(shí)間序列p。

我們的完全卷積網(wǎng)絡(luò)由一個(gè)音頻編碼器和一個(gè)1D UNet轉(zhuǎn)換架構(gòu)組成的,如圖3所示。

圖3:語(yǔ)音到手勢(shì)的翻譯模型。

一個(gè) convolutional audio encoder對(duì)2D譜圖進(jìn)行采樣并將其轉(zhuǎn)換為1D信號(hào)。然后,平移模型G預(yù)測(cè)相應(yīng)的2D姿勢(shì)序列堆棧。對(duì)真實(shí)數(shù)據(jù)姿勢(shì)的L1回歸提供了一個(gè)訓(xùn)練信號(hào),而一個(gè)對(duì)抗性辨別器D則確保預(yù)測(cè)的動(dòng)作既具有時(shí)間一致性,又符合說(shuō)話(huà)者的風(fēng)格。

我們使用UNet架構(gòu)進(jìn)行轉(zhuǎn)換,因?yàn)樗腷ottleneck為網(wǎng)絡(luò)提供了過(guò)去和未來(lái)的時(shí)間上下文,而skip connections允許高頻時(shí)間信息通過(guò),從而能夠預(yù)測(cè)快速移動(dòng)。

定量和定性結(jié)果

圖4:我們訓(xùn)練過(guò)的模型是特定于人的。對(duì)于每個(gè)說(shuō)話(huà)者的音頻輸入(行),我們應(yīng)用所有其他單獨(dú)訓(xùn)練的說(shuō)話(huà)者模型(列)。顏色飽和度對(duì)應(yīng)于待測(cè)集上的L1損耗值(越低越好)。對(duì)于每一行,對(duì)角線(xiàn)上的項(xiàng)都是顏色最淺的,因?yàn)槟P褪褂糜?xùn)練對(duì)象的輸入語(yǔ)音效果最好。

表1:在測(cè)試集上使用L1損失的語(yǔ)音到手勢(shì)轉(zhuǎn)換任務(wù)的定量結(jié)果(越低越好)

圖5:語(yǔ)音到手勢(shì)轉(zhuǎn)換的定性結(jié)果。我們展示了Dr. Kubinec(講師)和Conan O’Brien(節(jié)目主持人)的輸入音頻頻譜圖和預(yù)測(cè)手勢(shì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    407

    瀏覽量

    40099
  • 鑒別器
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    8869
  • AI算法
    +關(guān)注

    關(guān)注

    0

    文章

    276

    瀏覽量

    13197

原文標(biāo)題:你說(shuō)話(huà)時(shí)的肢體動(dòng)作,AI僅憑聲音就能預(yù)測(cè) | CVPR 2019

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    語(yǔ)音芯片怎么樣寫(xiě)入聲音?文講透語(yǔ)音播放芯片的聲音寫(xiě)入之道

    為真實(shí)聲音的“芯”。語(yǔ)音芯片,又稱(chēng)語(yǔ)音IC、VoiceIC,是一種能夠存儲(chǔ)、播放乃至識(shí)別語(yǔ)音信號(hào)的集成電路,其核心工作過(guò)程是將語(yǔ)音信號(hào)通過(guò)采樣轉(zhuǎn)化為數(shù)字信號(hào),存儲(chǔ)于
    的頭像 發(fā)表于 04-24 10:04 ?125次閱讀
    語(yǔ)音芯片怎么樣寫(xiě)入<b class='flag-5'>聲音</b>?<b class='flag-5'>一</b>文講透語(yǔ)音播放芯片的<b class='flag-5'>聲音</b>寫(xiě)入之道

    語(yǔ)音芯片是如何讓機(jī)器“開(kāi)口說(shuō)話(huà)”的?文讀懂語(yǔ)音芯片工作原理及選型指南

    工作原理、主流類(lèi)型到應(yīng)用選型,為你全面解析這讓機(jī)器擁有“聲音”的核心元器件。、什么是語(yǔ)音芯片?語(yǔ)音芯片,顧名思義,是一種集成了語(yǔ)音處理功能的專(zhuān)用集成電路(IC),能
    的頭像 發(fā)表于 04-14 08:59 ?154次閱讀
    語(yǔ)音芯片是如何讓機(jī)器“開(kāi)口<b class='flag-5'>說(shuō)話(huà)</b>”的?<b class='flag-5'>一</b>文讀懂語(yǔ)音芯片工作原理及選型指南

    AI輔助編程設(shè)計(jì)之道:從Spec到Code工程實(shí)踐

    生成-發(fā)現(xiàn)問(wèn)題-修改需求”的循環(huán),原本期望的效率提升,變成了另一種形式的消耗。 問(wèn)題出在哪里? 、從模糊想法到可執(zhí)行代碼的距離 當(dāng)開(kāi)發(fā)者對(duì)AI說(shuō)“幫我寫(xiě)個(gè)串口調(diào)試工具”時(shí),輸入的是
    發(fā)表于 03-16 13:33

    如何查看小智是否成功進(jìn)入聲音設(shè)置?

    可以通過(guò)后臺(tái)頁(yè)面狀態(tài)、設(shè)備反饋、語(yǔ)音測(cè)試三方式,快速確認(rèn)小智是否成功進(jìn)入聲音設(shè)置并生效。 、后臺(tái)頁(yè)面直接查看(最準(zhǔn)) 登錄小智AI后臺(tái)
    發(fā)表于 02-16 06:39

    歡迎使用中國(guó)香河英茂科工豆包智能體

    中國(guó)香河英茂科工 - 豆包智能體 創(chuàng)建分身,分兩AI智能分身(替你干活) 和數(shù)字分身(替你出鏡),零基礎(chǔ)也能快速上手。 ? 、AI
    發(fā)表于 02-14 07:22

    語(yǔ)音識(shí)別IC分類(lèi),語(yǔ)音識(shí)別芯片的工作原理

    語(yǔ)音識(shí)別芯片,也叫語(yǔ)音識(shí)別集成電路,是一種聲音存儲(chǔ)、播放、錄音及語(yǔ)音識(shí)別功能于體的專(zhuān)用芯片。語(yǔ)音識(shí)別IC的核心功能在于實(shí)現(xiàn)語(yǔ)音識(shí)別,即讓機(jī)器能夠“聽(tīng)懂”人類(lèi)的語(yǔ)音指令,并據(jù)此執(zhí)行相應(yīng)操作,廣泛應(yīng)用于
    的頭像 發(fā)表于 01-14 15:22 ?427次閱讀
    語(yǔ)音識(shí)別IC分類(lèi),語(yǔ)音識(shí)別芯片的工作原理

    芯知識(shí)|語(yǔ)音芯片是如何讓機(jī)器“開(kāi)口說(shuō)話(huà)”的?

    在智能音箱回應(yīng)你的詢(xún)問(wèn)、車(chē)載導(dǎo)航提示你轉(zhuǎn)彎、甚至醫(yī)療設(shè)備發(fā)出清晰提醒的瞬間,你是否曾好奇,這些機(jī)器是如何“開(kāi)口說(shuō)話(huà)”的?其背后的核心功臣,正是枚枚精巧的語(yǔ)音芯片。它如同個(gè)高度集成的“聲音
    的頭像 發(fā)表于 12-29 09:05 ?465次閱讀
    芯知識(shí)|語(yǔ)音芯片是如何讓機(jī)器“開(kāi)口<b class='flag-5'>說(shuō)話(huà)</b>”的?

    理論到操作實(shí)現(xiàn) 讓AI玩具機(jī)器等智能硬件在嘈雜環(huán)境中只聽(tīng)我說(shuō)話(huà)

    如何讓ai在嘈雜的環(huán)境中僅識(shí)別你的聲音呢?我們的方案即是使用聲紋來(lái)進(jìn)行分別
    的頭像 發(fā)表于 10-17 17:34 ?947次閱讀

    語(yǔ)音播報(bào)芯片:讓產(chǎn)品“開(kāi)口說(shuō)話(huà)”的秘密

    個(gè)語(yǔ)音播報(bào),收款24元等等。不知道大家發(fā)現(xiàn)沒(méi)有會(huì)“說(shuō)話(huà)”的產(chǎn)品越來(lái)越多了,不僅僅是聲音播放,還可以進(jìn)行語(yǔ)音交互也就是大家說(shuō)的AI對(duì)話(huà)芯片,下面小編將會(huì)帶大家
    的頭像 發(fā)表于 09-28 09:28 ?742次閱讀
    語(yǔ)音播報(bào)芯片:讓產(chǎn)品“開(kāi)口<b class='flag-5'>說(shuō)話(huà)</b>”的秘密

    如何進(jìn)行聲音定位?

    文章主要介紹了如何利用一種簡(jiǎn)單的TDOA算法進(jìn)行聲音點(diǎn)位,并使用數(shù)據(jù)采集卡進(jìn)行聲音定位的實(shí)驗(yàn)。
    的頭像 發(fā)表于 09-23 15:47 ?2183次閱讀
    如何進(jìn)行<b class='flag-5'>聲音</b>定位?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+具身智能芯片

    可以被稱(chēng)為第一人稱(chēng)視角。 第一人稱(chēng)視角:指個(gè)實(shí)體本身在觀察或經(jīng)歷事物時(shí),所能夠看到或感知到的角度。 二、AI感知技術(shù)與芯片 具身智能3個(gè)層
    發(fā)表于 09-18 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    一種快速反應(yīng)能力,是直接的感知;靈感是一種通過(guò)思考和探索獲得的創(chuàng)造性想法,是一種創(chuàng)意。 AI怎么模擬直覺(jué)與靈感呢?四、AI代替人類(lèi)的假說(shuō)
    發(fā)表于 09-17 11:45

    瑞芯微RK3576語(yǔ)音識(shí)別算法

    字符序列。與說(shuō)話(huà)識(shí)別及說(shuō)話(huà)確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話(huà)而非其中所包含的詞匯內(nèi)
    的頭像 發(fā)表于 08-15 15:13 ?2461次閱讀
    瑞芯微RK3576語(yǔ)音識(shí)別<b class='flag-5'>算法</b>

    智能家居 “聲” 臨其境:NRK3301 芯片如何讓家電 “會(huì)說(shuō)話(huà)” 更 “懂人心”?

    打造的芯片,不僅讓家電“會(huì)說(shuō)話(huà)”,更能讓聲音交互精準(zhǔn)觸達(dá)生活需求。顆芯片藏著的交互智慧NRK3301雖采用8腳緊湊設(shè)計(jì),卻搭載了超出同類(lèi)產(chǎn)品的硬核配置:支持MP
    的頭像 發(fā)表于 08-08 09:05 ?1003次閱讀
    智能家居 “聲” 臨其境:NRK3301 芯片如何讓家電 “會(huì)<b class='flag-5'>說(shuō)話(huà)</b>” 更 “懂人心”?

    艾為芯×AI大模型重塑會(huì)思考的電子玩伴

    圖1會(huì)說(shuō)話(huà)的湯姆貓AI浪潮的掀起帶動(dòng)了場(chǎng)關(guān)于童年陪伴的智能進(jìn)化。AI童伴——會(huì)說(shuō)話(huà)的湯姆貓,正引領(lǐng)著童年陪伴的全新變革。湯姆貓能夠與孩子進(jìn)
    的頭像 發(fā)表于 05-19 18:38 ?740次閱讀
    艾為芯×<b class='flag-5'>AI</b>大模型重塑會(huì)思考的電子玩伴