chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種AI算法,可以根據(jù)說話聲音來預(yù)測(cè)說話人將作出怎樣的肢體動(dòng)作

DPVg_AI_era ? 來源:lq ? 2019-06-23 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自UC Berkeley和MIT的研究人員開發(fā)了一種AI算法,可以根據(jù)說話聲音來預(yù)測(cè)說話人將作出怎樣的肢體動(dòng)作。所預(yù)測(cè)的動(dòng)作十分自然、流暢,本文帶來技術(shù)解讀。

人在說話的時(shí)候,常常伴隨著身體動(dòng)作,不管是像睜大眼睛這樣細(xì)微的動(dòng)作,還是像手舞足蹈這樣夸張的動(dòng)作。

最近,來自UC Berkeley和MIT的研究人員開發(fā)了一種AI算法,可以根據(jù)說話聲音來預(yù)測(cè)說話人將作出怎樣的肢體動(dòng)作。

研究人員稱,只需要音頻語音輸入,AI就能生成與聲音一致的手勢(shì)。具體來說,他們進(jìn)行的是人的獨(dú)白到手勢(shì)和手臂動(dòng)作的“跨模態(tài)轉(zhuǎn)換”(cross-modal translation)。相關(guān)論文發(fā)表在CVPR 2019上。

研究人員收集了10個(gè)人144小時(shí)的演講視頻,其中包括一名修女、一名化學(xué)教師和5名電視節(jié)目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演講視頻數(shù)據(jù)集

他們使用現(xiàn)有的算法生成代表說話者手臂和手位置的骨架圖形。然后他們用這些數(shù)據(jù)訓(xùn)練了自己的算法,這樣AI就可以根據(jù)說話者的新音頻來預(yù)測(cè)手勢(shì)。

圖1:從語音到手勢(shì)的轉(zhuǎn)換的示例結(jié)果。由下往上:輸入音頻、由我們的模型預(yù)測(cè)的手臂和手的姿態(tài),以及由Caroline Chan等人在“Everybody Dance Now”論文中提出的方法合成的視頻片段。

研究人員表示,在定量比較中,生成的手勢(shì)比從同一說話者者隨機(jī)選擇的手勢(shì)更接近現(xiàn)實(shí),也比從一種不同類型的算法預(yù)測(cè)的手勢(shì)更接近現(xiàn)實(shí)。

圖2:特定于說話者的手勢(shì)數(shù)據(jù)集

說話者的手勢(shì)也是獨(dú)特的,對(duì)一個(gè)人進(jìn)行訓(xùn)練并預(yù)測(cè)另一個(gè)人的手勢(shì)并不奏效。將預(yù)測(cè)到的手勢(shì)輸入到現(xiàn)有的圖像生成算法中,可以生成半真實(shí)的視頻。

研究團(tuán)隊(duì)表示,他們的下一步是不僅根據(jù)聲音,還根據(jù)文字稿來預(yù)測(cè)手勢(shì)。該研究潛在的應(yīng)用包括創(chuàng)建動(dòng)畫角色、動(dòng)作自如的機(jī)器人,或者識(shí)別假視頻中人的動(dòng)作。

為了支持對(duì)手勢(shì)和語音之間關(guān)系的計(jì)算理解的研究,他們還發(fā)布了一個(gè)大型的個(gè)人特定手勢(shì)視頻數(shù)據(jù)集。

方法詳解:兩階段從語音預(yù)測(cè)視頻

給定原始語音,我們的目標(biāo)是生成說話者相應(yīng)的手臂和手勢(shì)動(dòng)作。

我們分兩個(gè)階段來完成這項(xiàng)任務(wù)——首先,由于我們用于訓(xùn)練的唯一信號(hào)是相應(yīng)的音頻和姿勢(shì)檢測(cè)序列,因此我們使用L1回歸到2D關(guān)鍵點(diǎn)的序列堆棧來學(xué)習(xí)從語音到手勢(shì)的映射。

其次,為了避免回歸到所有可能的手勢(shì)模式的平均值,我們使用了一個(gè)對(duì)抗性鑒別器,以確保產(chǎn)生的動(dòng)作相對(duì)于說話者的典型動(dòng)作是可信的。

任何逼真的手勢(shì)動(dòng)作都必須在時(shí)間上連貫流暢。我們通過學(xué)習(xí)表示整個(gè)話語的音頻編碼來實(shí)現(xiàn)流暢性,該編碼考慮了輸入語音的完整時(shí)間范圍s,并一次性(而不是遞歸地)預(yù)測(cè)相應(yīng)姿勢(shì)的整個(gè)時(shí)間序列p。

我們的完全卷積網(wǎng)絡(luò)由一個(gè)音頻編碼器和一個(gè)1D UNet轉(zhuǎn)換架構(gòu)組成的,如圖3所示。

圖3:語音到手勢(shì)的翻譯模型。

一個(gè) convolutional audio encoder對(duì)2D譜圖進(jìn)行采樣并將其轉(zhuǎn)換為1D信號(hào)。然后,平移模型G預(yù)測(cè)相應(yīng)的2D姿勢(shì)序列堆棧。對(duì)真實(shí)數(shù)據(jù)姿勢(shì)的L1回歸提供了一個(gè)訓(xùn)練信號(hào),而一個(gè)對(duì)抗性辨別器D則確保預(yù)測(cè)的動(dòng)作既具有時(shí)間一致性,又符合說話者的風(fēng)格。

我們使用UNet架構(gòu)進(jìn)行轉(zhuǎn)換,因?yàn)樗腷ottleneck為網(wǎng)絡(luò)提供了過去和未來的時(shí)間上下文,而skip connections允許高頻時(shí)間信息通過,從而能夠預(yù)測(cè)快速移動(dòng)。

定量和定性結(jié)果

圖4:我們訓(xùn)練過的模型是特定于人的。對(duì)于每個(gè)說話者的音頻輸入(行),我們應(yīng)用所有其他單獨(dú)訓(xùn)練的說話者模型(列)。顏色飽和度對(duì)應(yīng)于待測(cè)集上的L1損耗值(越低越好)。對(duì)于每一行,對(duì)角線上的項(xiàng)都是顏色最淺的,因?yàn)槟P褪褂糜?xùn)練對(duì)象的輸入語音效果最好。

表1:在測(cè)試集上使用L1損失的語音到手勢(shì)轉(zhuǎn)換任務(wù)的定量結(jié)果(越低越好)

圖5:語音到手勢(shì)轉(zhuǎn)換的定性結(jié)果。我們展示了Dr. Kubinec(講師)和Conan O’Brien(節(jié)目主持人)的輸入音頻頻譜圖和預(yù)測(cè)手勢(shì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語音
    +關(guān)注

    關(guān)注

    3

    文章

    399

    瀏覽量

    38678
  • 鑒別器
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    8828
  • AI算法
    +關(guān)注

    關(guān)注

    0

    文章

    263

    瀏覽量

    12679

原文標(biāo)題:你說話時(shí)的肢體動(dòng)作,AI僅憑聲音就能預(yù)測(cè) | CVPR 2019

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    艾為芯×AI大模型重塑會(huì)思考的電子玩伴

    圖1會(huì)說話的湯姆貓AI浪潮的掀起帶動(dòng)了場(chǎng)關(guān)于童年陪伴的智能進(jìn)化。AI童伴——會(huì)說話的湯姆貓,正引領(lǐng)著童年陪伴的全新變革。湯姆貓能夠與孩子進(jìn)
    的頭像 發(fā)表于 05-19 18:38 ?255次閱讀
    艾為芯×<b class='flag-5'>AI</b>大模型重塑會(huì)思考的電子玩伴

    光伏智慧運(yùn)維系統(tǒng)讓電站自己說話和思考

    ?????? 光伏智慧運(yùn)維系統(tǒng)讓電站自己說話和思考 ?????? 太陽能電站就像個(gè)大家族,由成千上萬塊太陽能板、逆變器、線路等組成。過去,要管理這么大的家族,只能靠人工每天去現(xiàn)場(chǎng)檢查,效率低還容易
    的頭像 發(fā)表于 03-27 17:01 ?325次閱讀
    光伏智慧運(yùn)維系統(tǒng)讓電站自己<b class='flag-5'>說話</b>和思考

    AI算法托管平臺(tái)是什么

    AI算法托管平臺(tái)是一種提供AI模型運(yùn)行、管理和優(yōu)化等服務(wù)的云端或邊緣計(jì)算平臺(tái)。下面,AI部落小編帶您詳細(xì)了解
    的頭像 發(fā)表于 03-06 10:22 ?377次閱讀

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測(cè)......

    ,由大量的邏輯門和觸發(fā)器組成,可以通過編程定制其功能和連接。FPGA的靈活性和高性能使其在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。 1.FPGA的定義 FPGA是一種集成電路,可以在制造后由用戶通
    發(fā)表于 03-03 11:21

    AI賦能邊緣網(wǎng)關(guān):開啟智能時(shí)代的新藍(lán)海

    ,準(zhǔn)確率達(dá)到99.9%。 這技術(shù)革新正在創(chuàng)造巨大的商業(yè)價(jià)值。在智慧城市領(lǐng)域,AI邊緣網(wǎng)關(guān)可以實(shí)現(xiàn)交通流量實(shí)時(shí)分析、違章行為智能識(shí)別;在工業(yè)互聯(lián)網(wǎng)中,能夠?qū)崿F(xiàn)設(shè)備預(yù)測(cè)性維護(hù)、生產(chǎn)工藝優(yōu)
    發(fā)表于 02-15 11:41

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

    出來,當(dāng)前的AI Agent并不僅僅是簡(jiǎn)單的對(duì)話機(jī)器根據(jù)固定流程的自動(dòng)化程序,而是成為了一種能夠自主完成任務(wù)的智能體,它正在迅速改變?nèi)祟惖墓ぷ骱蜕罘绞?。其核心特性包括自主性、學(xué)習(xí)
    發(fā)表于 01-13 11:04

    中國移動(dòng)與南京大學(xué)合作研發(fā)高保真2D數(shù)字說話系統(tǒng)

    近日,中國移動(dòng)宣布了項(xiàng)重要合作成果——聯(lián)合南京大學(xué)團(tuán)隊(duì)成功研發(fā)出高保真2D數(shù)字說話驅(qū)動(dòng)系統(tǒng)。 作為全球用戶規(guī)模最大的通信運(yùn)營商,中國移動(dòng)每年的客戶服務(wù)運(yùn)營成本居高不下。盡管智能語音客服已得到
    的頭像 發(fā)表于 12-13 11:32 ?1069次閱讀

    將AIC33的DIN和DOUT腳用短路的方式實(shí)現(xiàn)自環(huán)時(shí),說話聲音稍微大點(diǎn)的時(shí)候,會(huì)在聲音上疊加個(gè)“噼啪”聲,為什么?

    我將AIC33的DIN和DOUT腳用短路的方式實(shí)現(xiàn)自環(huán)時(shí),說話聲音稍微大點(diǎn)的時(shí)候,會(huì)在聲音上疊加個(gè)“噼啪”聲,或則用嘴向MIC連續(xù)吹氣,自環(huán)后聽到的
    發(fā)表于 11-07 07:42

    將TPA31102D2板的音頻輸入與SPEAKER芯片連接時(shí),說話聲很小失真很厲害,為什么?

    直接將TPA31102D2板的音頻輸入與PC機(jī)耳機(jī)口連接,音質(zhì)很好,聽不出什么失真,但是我將TPA31102D2板的音頻輸入與SPEAKER芯片連接時(shí)發(fā)現(xiàn)背景音樂聲音很清晰如振鈴還有就是歌曲的樂器聲,但是說話聲很小失真很厲害,想問下這個(gè)是不是他的speaker輸出濾波了導(dǎo)
    發(fā)表于 11-07 06:01

    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    本文提出了一種動(dòng)態(tài)軌跡預(yù)測(cè)方法,通過結(jié)合歷史幀和歷史預(yù)測(cè)結(jié)果提高預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測(cè)
    的頭像 發(fā)表于 10-28 14:34 ?1070次閱讀
    <b class='flag-5'>一種</b>創(chuàng)新的動(dòng)態(tài)軌跡<b class='flag-5'>預(yù)測(cè)</b>方法

    可以個(gè)TLV320AIC3101的輸入與輸出端口的左右聲道分開使用嗎?

    ,然后同時(shí)說話,想分別獲取這兩組聲音數(shù)據(jù)。 2.音頻回放也分開左右聲道,兩個(gè)應(yīng)用程序分別播放不同的內(nèi)容。 請(qǐng)問能否實(shí)現(xiàn)?在哪作出改動(dòng)更好?如何解決ALSA設(shè)備獨(dú)占的問題? 感謝!
    發(fā)表于 10-24 07:47

    TLV3254能不能收聽到半徑8到10米的人說話聲音?

    能不能收聽到半徑8到10米的人說話聲音,信噪比實(shí)在太低了,遠(yuǎn)處的聽不清,增益縮小了又聽不到的遠(yuǎn)處的聲音?
    發(fā)表于 10-24 06:34

    BitEnergy AI公司開發(fā)出一種AI處理方法

    BitEnergy AI公司,家專注于人工智能(AI)推理技術(shù)的企業(yè),其工程師團(tuán)隊(duì)創(chuàng)新性地開發(fā)了一種名為線性復(fù)雜度乘法(L-Mul)的AI
    的頭像 發(fā)表于 10-22 15:15 ?817次閱讀

    2024年芯片行業(yè)有多難?用數(shù)據(jù)說話

    2024年芯片行業(yè)有多難?用數(shù)據(jù)說話
    的頭像 發(fā)表于 08-10 18:20 ?5804次閱讀

    ai大模型和算法有什么區(qū)別

    復(fù)雜的問題。這些模型通常需要大量的數(shù)據(jù)和計(jì)算資源訓(xùn)練和優(yōu)化。例如,深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)就是一種典型的AI大模型。 算法則是系列解決問題的
    的頭像 發(fā)表于 07-16 10:09 ?3994次閱讀