国内女高中生一级毛片,五月丁香免费毛片视频99视频,513一冢本人妻饥渴难耐人妻

來自UC Berkeley和MIT的研究人員開發(fā)了一種AI 算法，可以根據(jù)說話聲音來預(yù)測說話人將作出怎樣的肢體動作。所預(yù)測的動作十分自然、流暢，本文帶來技術(shù)解讀。

人在說話的時候，常常伴隨著身體動作，不管是像睜大眼睛這樣細(xì)微的動作，還是像手舞足蹈這樣夸張的動作。

最近，來自UC Berkeley和MIT的研究人員開發(fā)了一種AI算法，可以根據(jù)說話聲音來預(yù)測說話人將作出怎樣的肢體動作。

研究人員稱，只需要音頻語音輸入，AI就能生成與聲音一致的手勢。具體來說，他們進行的是人的獨白到手勢和手臂動作的“跨模態(tài)轉(zhuǎn)換”(cross-modal translation)。相關(guān)論文發(fā)表在CVPR 2019上。

研究人員收集了10個人144小時的演講視頻，其中包括一名修女、一名化學(xué)教師和5名電視節(jié)目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演講視頻數(shù)據(jù)集

他們使用現(xiàn)有的算法生成代表說話者手臂和手位置的骨架圖形。然后他們用這些數(shù)據(jù)訓(xùn)練了自己的算法，這樣AI就可以根據(jù)說話者的新音頻來預(yù)測手勢。

圖1：從語音到手勢的轉(zhuǎn)換的示例結(jié)果。由下往上：輸入音頻、由我們的模型預(yù)測的手臂和手的姿態(tài)，以及由Caroline Chan等人在“Everybody Dance Now”論文中提出的方法合成的視頻片段。

研究人員表示，在定量比較中，生成的手勢比從同一說話者者隨機選擇的手勢更接近現(xiàn)實，也比從一種不同類型的算法預(yù)測的手勢更接近現(xiàn)實。

圖2：特定于說話者的手勢數(shù)據(jù)集

說話者的手勢也是獨特的，對一個人進行訓(xùn)練并預(yù)測另一個人的手勢并不奏效。將預(yù)測到的手勢輸入到現(xiàn)有的圖像生成算法中，可以生成半真實的視頻。

研究團隊表示，他們的下一步是不僅根據(jù)聲音，還根據(jù)文字稿來預(yù)測手勢。該研究潛在的應(yīng)用包括創(chuàng)建動畫角色、動作自如的機器人，或者識別假視頻中人的動作。

為了支持對手勢和語音之間關(guān)系的計算理解的研究，他們還發(fā)布了一個大型的個人特定手勢視頻數(shù)據(jù)集。

方法詳解：兩階段從語音預(yù)測視頻

給定原始語音，我們的目標(biāo)是生成說話者相應(yīng)的手臂和手勢動作。

我們分兩個階段來完成這項任務(wù)——首先，由于我們用于訓(xùn)練的唯一信號是相應(yīng)的音頻和姿勢檢測序列，因此我們使用L1回歸到2D關(guān)鍵點的序列堆棧來學(xué)習(xí)從語音到手勢的映射。

其次，為了避免回歸到所有可能的手勢模式的平均值，我們使用了一個對抗性鑒別器，以確保產(chǎn)生的動作相對于說話者的典型動作是可信的。

任何逼真的手勢動作都必須在時間上連貫流暢。我們通過學(xué)習(xí)表示整個話語的音頻編碼來實現(xiàn)流暢性，該編碼考慮了輸入語音的完整時間范圍s，并一次性(而不是遞歸地)預(yù)測相應(yīng)姿勢的整個時間序列p。

我們的完全卷積網(wǎng)絡(luò)由一個音頻編碼器和一個1D UNet轉(zhuǎn)換架構(gòu)組成的，如圖3所示。

圖3：語音到手勢的翻譯模型。

一個 convolutional audio encoder對2D譜圖進行采樣并將其轉(zhuǎn)換為1D信號。然后，平移模型G預(yù)測相應(yīng)的2D姿勢序列堆棧。對真實數(shù)據(jù)姿勢的L1回歸提供了一個訓(xùn)練信號，而一個對抗性辨別器D則確保預(yù)測的動作既具有時間一致性，又符合說話者的風(fēng)格。

我們使用UNet架構(gòu)進行轉(zhuǎn)換，因為它的bottleneck為網(wǎng)絡(luò)提供了過去和未來的時間上下文，而skip connections允許高頻時間信息通過，從而能夠預(yù)測快速移動。

定量和定性結(jié)果

圖4：我們訓(xùn)練過的模型是特定于人的。對于每個說話者的音頻輸入(行)，我們應(yīng)用所有其他單獨訓(xùn)練的說話者模型(列)。顏色飽和度對應(yīng)于待測集上的L1損耗值(越低越好)。對于每一行，對角線上的項都是顏色最淺的，因為模型使用訓(xùn)練對象的輸入語音效果最好。

表1：在測試集上使用L1損失的語音到手勢轉(zhuǎn)換任務(wù)的定量結(jié)果(越低越好)

圖5：語音到手勢轉(zhuǎn)換的定性結(jié)果。我們展示了Dr. Kubinec(講師)和Conan O’Brien(節(jié)目主持人)的輸入音頻頻譜圖和預(yù)測手勢。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴