永久免费AV无码网址,国产片+人+综合+亚洲区

論文提出的3D人體位姿預測框架：先使用一個輕量級CNN提取2D人體位姿特征和粗略估計3D人體位姿，然后用RNN學習時序相關性以得到流暢的三維人體位姿初步預測結果，最后使用自監(jiān)督學習引導機制，根據(jù)三維幾何一致性，優(yōu)化從2D到3D的預測結果。項目主頁：http://www.sysu-hcp.net/3d_pose_ssl/

中山大學使用自監(jiān)督學習精準預測三維人體位姿。新方法減少了對3D標記數(shù)據(jù)的依賴，還能通過使用現(xiàn)有的大量2D標記數(shù)據(jù)提高最終預測結果，實現(xiàn)低成本、可擴展的3D人體位姿估計實際應用。

3D人體位姿估計是當前的一個熱點研究課題，也具有廣泛的應用潛力。

深度神經(jīng)網(wǎng)絡已經(jīng)在2D人體位姿估計上取得了優(yōu)異的結果，如果想使用深度學習，在3D人體位姿估計中也取得同樣的效果，那么首先就需要大量的3D人體位姿標記數(shù)據(jù)。

但問題是，現(xiàn)在沒有大量帶精準標記的3D人體位姿數(shù)據(jù)。

在一篇最新發(fā)表于《IEEE模式分析與機器智能會刊》(PAMI) 的論文[1]中，中山大學的研究人員提出了一種新的方法，讓計算機通過自監(jiān)督學習的方式，精準預測視頻片段中的三維人體位姿，大幅減少對3D標記數(shù)據(jù)的依賴。

“我們通過有效結合二維時空關系和三維幾何知識，提出了一個由自監(jiān)督學習引導的快速精準三維人體位姿估計方法?！闭撐囊蛔鳌⒛壳霸诩又荽髮W洛杉磯分校 (UCLA) 朱松純教授實驗室擔任博士后研究員的王可澤博士告訴新智元。在完成這篇論文時，王可澤還是中山大學和香港理工大學的博士生，導師是中山大學HCP人機物智能融合實驗室的林倞教授 (林教授也參與了這項工作) 和香港理工大學的張磊博士。

新方法在Human3.6M基準測試中的一些可視化結果。(a)為2D-to-2D位姿變換模塊估計的中間3D人體位姿，(b)為3D-to-2D位姿映射模塊細化的最終3D人體位姿，(c)為ground-truth。估計的3D位姿被重新映射到圖像中，并在側面 (圖像旁邊) 顯示出來。如圖所示，與(a)相比，(b)中預測的3D位姿得到了顯著的修正。紅色和綠色分別表示人體左側和右側。來源：論文《自監(jiān)督學習引導的人體三維位姿估計》[1]

“該方法采用輕量級的神經(jīng)網(wǎng)絡，有效減少了計算量，并克服了三維人體位姿標注數(shù)據(jù)不夠豐富的難點，能在實際應用場景中流暢穩(wěn)定地進行三維人體位姿預測?！?/p>

在單個的Nvidia GTX1080 GPU上運行時，新方法處理一幅圖像只需要51毫秒，而其他方法需要880毫秒。

使用自監(jiān)督學習，減少對3D標記數(shù)據(jù)的依賴

這篇論文題為《自監(jiān)督學習引導的人體三維位姿估計》(3D Human Pose Machines with Self-supervised Learning)，作者是王可澤，林倞，江宸瀚，錢晨和魏朋旭。

研究人員向新智元介紹，他們這項工作的背景，是現(xiàn)有的基于彩色圖像視頻數(shù)據(jù)的三維人體位姿估計研究，在實際場景應用中有兩大明顯的不足：

一是所需要的計算量大：當前，絕大多數(shù)的現(xiàn)有三維人體位姿估計方法，都依賴最先進的二維人體位姿估計來獲得精準的二維人體位姿，然后再構建神經(jīng)網(wǎng)絡，實現(xiàn)從2D到3D人體位姿的映射。由于采用的二維人體位姿估計方法往往需要龐大的計算量，再加上所構建的神經(jīng)網(wǎng)絡自身的運算開銷，難以滿足三維人體位姿估計在實際應用中的時間需求；

二是應用效果不理想：當前的三維人體位姿數(shù)據(jù)集都是在受控的實驗環(huán)境下創(chuàng)建的 (攝像機視角固定、背景單一)，所包含的三維標注信息不夠豐富，不能全面反映真實生活場景，使得現(xiàn)有方法所預測出的三維人體位姿質量參差不齊，魯棒性差。

為了解決上述的問題，研究人員進行了深入的研究和分析，嘗試利用海量的二維人體位姿數(shù)據(jù)來彌補三維標注信息不豐富的問題。

同時，他們受二維和三維空間彼此存在的聯(lián)系啟發(fā)，根據(jù)三維人體位姿的映射是二維人體位姿這一幾何特性，結合之前的自監(jiān)督學習工作（參考王可澤博士等人此前的論文[2]），制定了2D到3D變換和3D到2D映射的自監(jiān)督學習任務。

這一關鍵的2D和3D相互轉換自監(jiān)督學習模塊架構示意如下：

3D到2D人體位姿映射模塊訓練階段示意圖

3D到2D人體位姿映射模塊測試階段示意圖

在這項研究中，作者使用MPII數(shù)據(jù)集，從圖像中提取2D人體位姿。然后，使用另一個名為“Human3.6M”的數(shù)據(jù)集，提取3D的ground truth數(shù)據(jù)。Human3.6M數(shù)據(jù)集包含有360萬張在實驗室拍攝的照片，任務包括跑步、散步、吸煙、吃飯，等等。

初始化后，他們將預測的2D人體位姿和3D人體位姿替換為2D和3D的 ground-truth，從而以自監(jiān)督學習的方式優(yōu)化模型。

3D-to-2D人體位姿映射模塊的學習目標，就是將3D人體位姿的2D映射與預測的2D人體位姿兩者間的差異最小化，以實現(xiàn)對中間3D人體位姿預測的雙向校正 (或細化)。

“模型采用了序列訓練的方法來捕獲人體多個部位之間的長期時間一致性，并通過一種新的自監(jiān)督校正機制進一步增強這種一致性，這包含兩個對偶學習任務，即2D-to-3D位姿變換和3D-to-2D位姿映射，從而生成幾何一致的3D位姿預測?！?/p>

經(jīng)過自監(jiān)督校正以后的結果 (Ours) 比沒有經(jīng)過校正的 (Ours w/o self-correction) 更接近 Ground-truth。來源：論文

未來方向：非受限條件下三維人體位姿預測

研究人員在論文中指出，這項工作的主要貢獻有三方面：

提出了一種新的模型，可以學習整合豐富的時空長程依賴性和3D幾何約束，而不是依賴于特定的手動定義的身體平滑度或運動學約束；

開發(fā)了一種簡單有效的自監(jiān)督校正機制，以結合3D位姿幾何結構信息；這一創(chuàng)新機制也可能啟發(fā)其他3D視覺任務；

提出了自監(jiān)督校正機制，使模型能夠使用足夠的2D人體位姿數(shù)據(jù)，顯著提高3D人體位姿估計的性能。

新方法 (Ours，紅框標識) 顯著優(yōu)于其他同類方法，綠色代表右側手腳，紅色代表左側 (下同)：最右邊一列為Ground-truth；使用Human3.6M數(shù)據(jù)集。

新方法 (Ours) 與ICCV-17微軟危夷晨組在MPII數(shù)據(jù)集上的結果比較，后者使用弱監(jiān)督遷移學習將2D和3D標記混合在一個統(tǒng)一的深度學習框架里，在2D和3D基準上都取得了較好的結果。新方法在3D預測上更進一步。

自監(jiān)督學習的價值顯然是人工智能研究的一個重點。

其他方法也采用了類似的“弱監(jiān)督”方法來預測位姿，甚至捕捉人體運動。例如，加州大學伯克利分校Sergey Levine教授的機器人實驗室去年10月發(fā)表論文稱，他們能夠訓練模擬機器人模仿人類活動，只使用YouTube視頻的無標注數(shù)據(jù)。中山大學的這一工作未來或許能與伯克利的方法實現(xiàn)某種結合。

研究人員告訴新智元，接下來，“我們會針對于實際非受限場景中更加復雜多變的三維人體位姿預測問題，開展進一步研究；另外，進一步優(yōu)化我們的方法，希望能在移動端實現(xiàn)實時精準的預測效果”。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴