最近最新中文字幕MV免费视频 ,va中文字幕无码免费,欧美色综合网免费A∨

近日，由微軟亞洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型，首次實現(xiàn)了利用生成擴散模型在 3D 訓(xùn)練數(shù)據(jù)上自動生成 3D 數(shù)字化身（Avatar）的功能。僅需一張圖片甚至一句文字描述，RODIN 擴散模型就能秒級生成 3D 化身，讓低成本定制 3D 頭像成為可能，為 3D 內(nèi)容創(chuàng)作領(lǐng)域打開了更多想象空間。相關(guān)論文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

創(chuàng)建個性化的用戶形象在如今的數(shù)字世界中非常普遍，很多 3D 游戲都設(shè)有這一功能。然而在創(chuàng)建個人形象的過程中，繁瑣的細(xì)節(jié)調(diào)整常常讓人又愛又恨，有時候大費周章地選了與自己相似的眼睛、鼻子、發(fā)型、眼鏡等細(xì)節(jié)之后，卻發(fā)現(xiàn)拼接起來與自己仍大相徑庭。既然現(xiàn)在的 AI 技術(shù)已經(jīng)可以生成惟妙惟肖的 2D 圖像，那么在 3D 世界中，我們是否可以擁有一個“AI 雕塑家”，僅通過一張照片就可以幫我們量身定制自己的 3D 數(shù)字化身呢？

微軟亞洲研究院新提出的 3D 生成擴散模型 Roll-out Diffusion Network (RODIN）可以輕松做到。讓我們先來看看 RODIN 的實力吧！

(a) 給定的照片

(b)生成的虛擬形象

圖1：給定一張照片，RODIN 模型即可生成虛擬形象

(a）輸入文字“留卷發(fā)和大胡子穿著黑色皮夾克的男性”

(b) 輸入文字“紅色衣著非洲發(fā)型的女性”

圖2：給定文本描述，RODIN 模型可直接生成虛擬形象

與傳統(tǒng) 3D 建模需要投入大量人力成本、制作過程繁瑣不同的是，RODIN 以底層思路的創(chuàng)新突破與精巧的模型設(shè)計，突破了二次元到三次元的結(jié)界，實現(xiàn)了只輸入一張圖片或一句文字就能在幾秒之內(nèi)生成定制的 3D 數(shù)字化身的能力。在此之前，AI 生成技術(shù)還僅僅圍繞 2D 圖像進(jìn)行創(chuàng)作，RODIN 模型的出現(xiàn)也將極大地推動 AI 在 3D 生成領(lǐng)域的進(jìn)步。相關(guān)論文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

論文鏈接：

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

https://arxiv.org/abs/2212.06135

項目頁面：

https://3d-avatar-diffusion.microsoft.com

RODIN模型首次將

擴散模型應(yīng)用于3D訓(xùn)練數(shù)據(jù)

在 3D 生成領(lǐng)域，盡管此前有不少研究利用 GAN（生成對抗網(wǎng)絡(luò)）或 VAE（變分自動編碼器）技術(shù)，從大量 2D 圖像訓(xùn)練數(shù)據(jù)中生成 3D 圖像，但結(jié)果卻不盡如人意，“兩面派”、“三頭哪吒”等抽象派 3D 圖像時有出現(xiàn)?？蒲腥藛T們認(rèn)為，造成這種現(xiàn)象的原因在于這些方法存在一個基礎(chǔ)的欠定（ill posed）問題，也就是說由于單視角圖片存在幾何二義性，從僅僅通過大量的 2D 數(shù)據(jù)很難學(xué)到高質(zhì)量 3D 化身的合理分布，所以才造成了各種不完美的生成結(jié)果。

對此，微軟亞洲研究院的研究員們轉(zhuǎn)變思路，首次提出 3D Diffusion Model，利用擴散模型的表達(dá)能力來建模 3D 內(nèi)容。這種方法通過多張視角圖來訓(xùn)練 3D 模型，消除了歧義性、二義性所帶來的“四不象”結(jié)果，從而得到一個正確解，創(chuàng)建出更逼真的 3D 形象。

然而，要實現(xiàn)這種方法，還需要克服三個難題：

首先，盡管擴散模型此前在 2D 內(nèi)容生成上取得巨大成功，將其應(yīng)用在 3D 數(shù)據(jù)上并沒有可參考的實踐方法和可遵循的前例。如何將擴散模型用于生成 3D 模型的多視角圖，是研究員們找到的關(guān)鍵切入點；
其次，機器學(xué)習(xí)模型的訓(xùn)練需要海量的數(shù)據(jù)，但一個多視圖、一致且多樣、高質(zhì)量和大規(guī)模的 3D 圖像數(shù)據(jù)很難獲取，還存在隱私和版權(quán)等方面的風(fēng)險。網(wǎng)絡(luò)公開的 3D 圖像又無法保證多視圖的一致性，且數(shù)據(jù)量也不足以支撐 3D 模型的訓(xùn)練；
第三，在機器上直接拓展 2D 擴散模型至 3D 生成，所需的內(nèi)存存儲與計算開銷幾乎無法承受。

多項技術(shù)創(chuàng)新讓RODIN模型

以低成本生成高質(zhì)量的3D圖像

為了解決上述難題，微軟亞洲研究院的研究員們創(chuàng)新地提出了 RODIN 擴散模型，并在實驗中取得了優(yōu)異的效果，超越了現(xiàn)有模型的 SOTA 水平。

RODIN 模型采用神經(jīng)輻射場（NeRF）方法，并借鑒英偉達(dá)的 EG3D 工作，將 3D 空間緊湊地表達(dá)為空間三個互相垂直的特征平面（Triplane），并將這些圖展開至單個 2D 特征平面中，再執(zhí)行 3D 感知擴散。具體而言，就是將 3D 空間在橫、縱、垂三個正交平面視圖上以二維特征展開，這樣不僅可以讓 RODIN 模型使用高效的 2D 架構(gòu)進(jìn)行 3D 感知擴散，將三維圖像降維成二維圖像也大幅降低了計算復(fù)雜度和計算成本。

圖3：3D 感知卷積高效處理 3D 特征。（左圖) 用三平面（triplane）表達(dá) 3D 空間，此時底部特征平面的特征點對應(yīng)于另外兩個特征平面的兩條線。（右圖）引入 3D 感知卷積處理展開的 2D 特征平面，同時考慮到三個平面的三維固有對應(yīng)關(guān)系。

要實現(xiàn) 3D 圖像的生成需要三個關(guān)鍵要素：

3D 感知卷積，確保降維后的三個平面的內(nèi)在關(guān)聯(lián)。傳統(tǒng) 2D 擴散中使用的 2D 卷積神經(jīng)網(wǎng)絡(luò)（CNN）并不能很好地處理 Triplane 特征圖。而 3D 感知卷積并不是簡單生成三個 2D 特征平面，而是在處理這樣的 3D 表達(dá)時，考慮了其固有的三維特性，即三個視圖平面中其中一個視圖的 2D 特征本質(zhì)上是 3D 空間中一條直線的投影，因此與其他兩個平面中對應(yīng)的直線投影特征存在關(guān)聯(lián)性。為了實現(xiàn)跨平面通信，研究員們在卷積中考慮了這樣的 3D 相關(guān)性，因此高效地用 2D 的方式合成 3D 細(xì)節(jié)。
隱空間協(xié)奏三平面 3D 表達(dá)生成。研究員們通過隱向量來協(xié)調(diào)特征生成，使其在整個三維空間中具有全局一致性，從而獲得更高質(zhì)量的化身并實現(xiàn)語義編輯，同時，還通過使用訓(xùn)練數(shù)據(jù)集中的圖像訓(xùn)練額外的圖像編碼器，該編碼器可提取語義隱向量作為擴散模型的條件輸入。這樣，整體的生成網(wǎng)絡(luò)可視為自動編碼器，用擴散模型作為解碼隱空間向量。對于語義可編輯性，研究員們采用了一個凍結(jié)的 CLIP 圖像編碼器，與文本提示共享隱空間。
層級式合成，生成高保真立體細(xì)節(jié)。研究員們利用擴散模型先生成了一個低分辨率的三視圖平面（64×64），然后再通過擴散上采樣生成高分辨率的三平面（256×256）。這樣，基礎(chǔ)擴散模型集中于整體 3D 結(jié)構(gòu)生成，而后續(xù)上采樣模型專注于細(xì)節(jié)生成。

圖4：RODIN 模型概述

此外，在訓(xùn)練數(shù)據(jù)集方面，研究員們借助開源的三維渲染軟件 Blender，通過隨機組合畫師手動創(chuàng)建的虛擬 3D 人物圖像，再加上從大量頭發(fā)、衣服、表情和配飾中隨機采樣，進(jìn)而創(chuàng)建了10萬個合成個體，同時為每個個體渲染出了300個分辨率為256*256的多視圖圖像。在文本到 3D 頭像的生成上，研究員們采用了 LAION-400M數(shù)據(jù)集的人像子集訓(xùn)練從輸入模態(tài)到 3D 擴散模型隱空間的映射，最終讓 RODIN 模型可以只使用一張 2D 圖像或一句文字描述就能創(chuàng)建出逼真的 3D 頭像。

圖5：利用文字做 3D 肖像編輯

圖6：更多隨機生成的虛擬形象（更多結(jié)果請點擊閱讀原文，移步項目網(wǎng)頁）

微軟亞洲研究院主管研究員張博表示，“此前，3D 領(lǐng)域的研究受限于技術(shù)或高成本，生成的 3D 結(jié)果主要是點云、體素、網(wǎng)格等形式的粗糙幾何體，而 RODIN 模型可創(chuàng)建出前所未有的 3D 細(xì)節(jié)，為 3D 內(nèi)容生成研究打開了新的思路。我們希望 RODIN 模型在未來可以成為 3D 內(nèi)容生成領(lǐng)域的基礎(chǔ)模型，為后續(xù)的學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用創(chuàng)造更多可能?！?/p>

讓3D內(nèi)容生成

更個性、更普適

現(xiàn)如今，虛擬人、數(shù)字化身在電影、游戲、元宇宙、線上會議、電商等行業(yè)和場景中的需求日益增多，但其制作流程卻相當(dāng)復(fù)雜專業(yè)，每個高質(zhì)量的化身都必須由專業(yè)的 3D 畫師精心創(chuàng)作，尤其是在建模頭發(fā)和面部毛發(fā)時，甚至需要逐根繪制，其中的艱辛歷程外人難以想象。微軟亞洲研究院 RODIN 模型的快速生成能力，可以協(xié)助 3D 畫師減輕數(shù)字化身創(chuàng)作的工作量，提升效率，促進(jìn) 3D 內(nèi)容產(chǎn)業(yè)的發(fā)展。

目前，3D 真人化身的創(chuàng)建耗時耗力，很多項目背后可能都有一個上百人的團(tuán)隊在做支持，實現(xiàn)方法更多的是借助虛幻引擎、游戲引擎，再加上畫師的專業(yè)繪畫能力，才能設(shè)計出高度逼真的真人定制 3D 化身，普通大眾很難使用這些服務(wù)，通常只能得到一些現(xiàn)成的、與本人毫無關(guān)連的化身。而 RODIN 模型低成本和可定制化的 3D 建模技術(shù)，兼具普適性和個性化，讓 3D 內(nèi)容生成走向大眾成為可能。

劉潏

微軟亞洲研究院資深產(chǎn)品經(jīng)理

盡管當(dāng)前 RODIN 模型生成結(jié)果主要為半身的 3D 頭像，但是其技術(shù)能力并不僅限于 3D 頭像的生成。隨著包括花草樹木、建筑、汽車家居等更多類別和更大規(guī)模訓(xùn)練數(shù)據(jù)的學(xué)習(xí)，RODIN 模型將能生成更多樣的 3D 圖像。下一步，微軟亞洲研究院的研究員們將用 RODIN 模型探索更多 3D 場景創(chuàng)建的可能，向一個模型生成 3D 萬物的終極目標(biāo)不斷努力。

關(guān)注微軟科技視頻號

了解更多科技前沿資訊

? ?

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴