說(shuō)到以VR演奏樂(lè)器,目前應(yīng)用市場(chǎng)中已有的VR樂(lè)器應(yīng)用并不罕見(jiàn)。VR樂(lè)器的誕生幫助很多對(duì)音樂(lè)向往卻囿于樂(lè)器價(jià)格和擺放空間的愛(ài)好者過(guò)上了把手癮、耳癮。
就在上一周,小編提到的關(guān)于facebook對(duì)手部的精準(zhǔn)追蹤,更是助了VR演奏一臂之力,十八般樂(lè)器,樣樣不在話下。
這些應(yīng)用都是以人為演奏者,根據(jù)人的動(dòng)作發(fā)出對(duì)應(yīng)的音調(diào)聲響。可若是把這個(gè)過(guò)程反過(guò)來(lái)又會(huì)是怎么樣的一種情形呢?
最近,facebook又又公布了一篇論文,名叫“音頻到身體動(dòng)力學(xué)”,講的就是如何以3D動(dòng)畫(huà)的形式將一段音頻轉(zhuǎn)化為演奏時(shí)的肢體動(dòng)作。依據(jù)人的動(dòng)作,發(fā)出聲音,我們已經(jīng)見(jiàn)過(guò)許多,但根據(jù)聲音,模擬出相應(yīng)動(dòng)作,這還是首次。
(可惜動(dòng)圖發(fā)不出聲音ε=(′ο`*))))
想要進(jìn)行這種轉(zhuǎn)化,就需要知道每個(gè)音符所對(duì)應(yīng)的演奏者可能會(huì)做出的動(dòng)作。按照傳統(tǒng)方法,自然是請(qǐng)幾位演奏家到實(shí)驗(yàn)室內(nèi),在他們的手指和身體關(guān)節(jié)處貼上傳感器,再讓他們演奏上幾個(gè)小時(shí)。但這種方法實(shí)施起來(lái)還是有些麻煩,怕麻煩的研究人員想出了一個(gè)更好的點(diǎn)子。
不知道大家還記不記得去年這個(gè)時(shí)候曾流傳過(guò)一個(gè)用黑科技合成奧巴馬說(shuō)話的視頻。華盛頓大學(xué)的研究人員分析了14個(gè)小時(shí)的奧巴馬講話的視頻,判斷奧巴馬在講話時(shí)其臉部是如何運(yùn)動(dòng)的,如嘴唇、牙齒、面部皺紋以及下巴的活動(dòng),再通過(guò)神經(jīng)網(wǎng)絡(luò)與人工智能技術(shù)根據(jù)海量數(shù)據(jù)掌握了與不同聲音相關(guān)聯(lián)的嘴型,因此只要隨意放出一段音頻就可以制作奧巴馬講話的視頻。
正是受到了“奧巴馬”的啟發(fā),facebook的研究人員也采用了相似的視頻學(xué)習(xí)方法。研究人員通過(guò)檢測(cè)視頻中每一幀中的上半身和手指來(lái)處理視頻。每幀上取50個(gè)點(diǎn),其中每只手占21個(gè)點(diǎn),上半身占8個(gè)點(diǎn)。接著,分別通過(guò)OpenPose、MaskRCNN 和DeepFace三個(gè)庫(kù)運(yùn)行視頻,其中OpenPose提供面部,身體和手部關(guān)鍵點(diǎn),MaskRCNN 和DeepFace則為人臉識(shí)別算法。
當(dāng)然在采集過(guò)程中,也是成功與失敗并存。為了采集的數(shù)據(jù)更精準(zhǔn),研究人員在每段視頻中都選擇一幀作為參考幀。倘若在參考幀附近的連續(xù)幀中有與參考幀參數(shù)相差較大的幀,例如面部、手部關(guān)鍵點(diǎn)不匹配,則自動(dòng)消除掉那一幀。下圖手部糊在一起的便是失敗幀。
研究人員的目標(biāo)是學(xué)習(xí)音頻特征和身體動(dòng)作之間的相關(guān)性,因此,完成了關(guān)鍵點(diǎn)采集,便要構(gòu)建一個(gè)Long-Short-TermMemory(LSTM長(zhǎng)短期記憶)網(wǎng)絡(luò)開(kāi)始學(xué)習(xí)音頻特征和身體骨架標(biāo)志之間的相關(guān)性了。
這也與“奧巴馬”那個(gè)使用的是同款學(xué)習(xí)網(wǎng)絡(luò)。研究人員選擇使用具有時(shí)間延遲的單向單層LSTM。 xi是特定時(shí)間實(shí)例i的音頻MFCC特征,yi是身體關(guān)鍵點(diǎn)的PCA系數(shù),m是存儲(chǔ)器(隱藏狀態(tài))。研究人員還添加了一個(gè)標(biāo)記為'fc'的完全連接層,經(jīng)過(guò)試驗(yàn)發(fā)現(xiàn)它可以提高系統(tǒng)學(xué)習(xí)效率。
最后動(dòng)畫(huà)的生成是基于ARkit實(shí)現(xiàn)的。研究人員使用ARkit構(gòu)建了一個(gè)增強(qiáng)現(xiàn)實(shí)應(yīng)用程序,該應(yīng)用程序可以在手機(jī)上實(shí)時(shí)運(yùn)行。使用帶有骨骼的3D身體模型,通過(guò)將預(yù)測(cè)點(diǎn)與3D世界坐標(biāo)對(duì)齊來(lái)初始化動(dòng)畫(huà)形象。研究人員通過(guò)所有幀平均下拉的左右肩點(diǎn)距離計(jì)算得出模型的剛性變換數(shù)據(jù)。然后再分別考慮身體,手臂和手指。對(duì)于身體,研發(fā)人員創(chuàng)建了一條IK鏈,其中根節(jié)點(diǎn)定義為左右臀部之間的平均值,并連接到左肩和右肩的平均值。然后,估計(jì)所有幀的平均脊柱長(zhǎng)度,并據(jù)此相應(yīng)地縮放動(dòng)畫(huà)模型的脊柱。對(duì)于手臂,以手腕為參考點(diǎn),由前臂長(zhǎng)度決定偏移量。對(duì)于手指,通過(guò)小指的根關(guān)節(jié)和指針的根關(guān)節(jié)確定手的旋轉(zhuǎn)。最后,應(yīng)用根旋轉(zhuǎn)偏移來(lái)匹配琴與人的姿勢(shì)角。
除了鋼琴,還有小提琴的演奏
雖然目前這個(gè)應(yīng)用還僅限于鋼琴與小提琴演奏的轉(zhuǎn)化,但是相信隨著進(jìn)一步的開(kāi)發(fā),將支持更多種樂(lè)器演奏的轉(zhuǎn)化。甚至于將來(lái)還有可能發(fā)展出除樂(lè)器之外其他形式的轉(zhuǎn)化,比如,放一段音樂(lè),可以Freestyle出一段舞蹈;再比如,根據(jù)一段霹靂扒拉的拳打腳踢聲,生成一段3D動(dòng)畫(huà)的打斗場(chǎng)面。總之,能夠依聲定形還是很有趣的。
-
傳感器
+關(guān)注
關(guān)注
2573文章
53907瀏覽量
781012 -
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
58059 -
vr
+關(guān)注
關(guān)注
34文章
9690瀏覽量
155810
原文標(biāo)題:facebook:用音樂(lè)生成3D動(dòng)畫(huà)
文章出處:【微信號(hào):ARchan_TT,微信公眾號(hào):AR醬】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
3D模型轉(zhuǎn)化為實(shí)物過(guò)程中容易出現(xiàn)的五個(gè)問(wèn)題
3D 旗幟動(dòng)畫(huà)制作小軟件
[推薦]將圖片制成3D旗幟動(dòng)畫(huà)軟件
玩3D游戲一段時(shí)間就花屏死機(jī)(帶解決辦法)
3D光立方取字模動(dòng)畫(huà)軟件下載

使用51單片機(jī)實(shí)現(xiàn)演奏一段音階的仿真電路圖免費(fèi)下載

Facebook 3D照片使用范圍擴(kuò)大,不再局限于模式照片
使用單片機(jī)實(shí)現(xiàn)演奏一段音階的C語(yǔ)言程序和工程文件免費(fèi)下載

使用單片機(jī)演奏一段音階的程序和工程文件免費(fèi)下載
3D動(dòng)畫(huà)制作的應(yīng)用優(yōu)勢(shì)有哪些

評(píng)論