文/黃亞坤
編者按:計算機圖形與仿真技術的發(fā)展為人類帶來了眾多的沉浸式技術。虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)、混合現(xiàn)實(MR)等技術通過不同程度數(shù)字信息與現(xiàn)實環(huán)境的融合,為用戶帶來了全新體驗,而統(tǒng)括三者的擴展現(xiàn)實(XR)更強調虛擬世界與現(xiàn)實世界的彌合,縮小人們、信息和體驗之間的距離壁壘。LiveVideoStackCon 2023 上海站邀請了來自北京郵電大學的黃亞坤,為大家分享學術界關于云化XR和沉浸式全息交互技術的探索與思考?。
大家好,我是來自北京郵電大學的黃亞坤,目前主要在學術界從事研究工作。本次我將從更好地結合學術和工業(yè)界這一角度出發(fā)來與大家分享我們的探索與思考。
本次分享分為四方面:首先以囊括多種沉浸式技術為主旨談談沉浸式XR通信與交互現(xiàn)狀,然后介紹我們從2017年至今關于輕量化跨平臺WebXR技術的探索與研究進展,接下來介紹全息XR通信與實時交互服務,最后對云化XR的新需求與挑戰(zhàn)進行總結。
-01-
沉浸式XR通信與交互現(xiàn)狀
XR包含了AR、VR和MR等沉浸式技術,旨在打造真實、虛擬組合的數(shù)字化環(huán)境,實現(xiàn)沉浸感更深入的人機交互體驗。
其中VR可能更為大眾所熟知(如當下熱門的VR看房、看車),它通過計算機來模擬虛擬環(huán)境。目前多數(shù)用戶使用手機來體驗,而使用沉浸感更強的專業(yè)VR終端由于昂貴的成本問題在用戶間還沒有廣泛普及;
進一步地,AR可將VR打造的虛擬世界和真實世界無縫融合,目前在工業(yè)界中的落地應用廣泛使用率較高;
MR則是在融合AR、VR的基礎上,實現(xiàn)用戶與現(xiàn)實、虛擬世界間的深層次交互反饋。
最后,在常規(guī)XR概念的基礎上拓展引入了HR,與VR不同,它可以利用光干涉和衍射記錄進行真實物體的再現(xiàn),還原真實的人物與環(huán)境。
以上圖表展示了XR的技術架構、產(chǎn)業(yè)發(fā)展趨勢,以及XR業(yè)務的網(wǎng)絡需求。目前來看,XR還處于部分沉浸式體驗階段,正朝著深度沉浸階段發(fā)展,主要表現(xiàn)為單眼觀看可達到2K分辨率,F(xiàn)OV處于100-120度范圍內(nèi)。
對于即將正式發(fā)售的Apple Vision Pro,我們也持續(xù)關注它對業(yè)界帶來的潛在前景與應用價值。
我們對市場現(xiàn)有的一些XR設備進行了體驗分析并總結了幾方面問題。
首先是技術成熟度不夠:在畫面真實率,視場角,眩暈和遲滯感等方面有待提升。例如在工業(yè)場景下的三維大模型渲染服務,終端上會出現(xiàn)明顯的卡頓、眩暈和遲滯感;
第二是用戶成本高:主流的XR頭顯對于大眾用戶來說價格過高;
第三是佩戴體驗差:當前的XR終端設備存在佩戴沉重,攜帶性差等體驗問題;
第四是優(yōu)質內(nèi)容源缺乏:高品質的XR應用稀缺,對用戶吸引力不夠;
第五是缺乏統(tǒng)一平臺:各大廠商當前主要圍繞自身產(chǎn)品的生態(tài)圈進行內(nèi)容開發(fā),難以建立有效共享和快速分發(fā)體驗的統(tǒng)一平臺。
隨著5G的普及應用,云化XR的部署與應用已經(jīng)成為可能。
首先5G的網(wǎng)絡切片技術保證了應用程序的部分帶寬、移動邊緣計算(MEC)減少了內(nèi)容匯聚,在節(jié)省帶寬的同時降低了時延,為XR云化部署奠定了技術基礎。
同時,通過將XR的密集計算上云,有助于減輕終端設備的重量,提升佩戴體驗和續(xù)航能力,云化XR更有助于提升多用戶共享體驗,降低單一用戶的體驗限制;
最后,通過與5G技術相集合,智能手機有望成為承載云XR體驗的終端設備,這有助于吸引更多的新用戶。
XR云化主要的優(yōu)勢體現(xiàn)在承載密集三維空間計算方面。大量的視覺、空間計算和密集的3D渲染給資源受限的XR終端設備帶來了極大的計算壓力,通過將這些密集的計算任務卸載上云后,能夠大幅降低終端的設備計算成本,進而助力終端輕量化。
同時云端可借助Wi-Fi、5G等網(wǎng)絡技術將內(nèi)容以視頻流形式推向用戶,相對于傳統(tǒng)設備無需再連接終端的HDMI線,實現(xiàn)了終端無繩化、移動化。
最后,內(nèi)容云化也便于統(tǒng)一分發(fā)和版權管理。
但將云XR推向產(chǎn)業(yè)成熟,目前仍面臨技術成熟度、云網(wǎng)架構升級、建設健康的生態(tài)環(huán)境、共贏的商業(yè)模式以及XR平臺與系統(tǒng)互通等問題,還需要進一步探索。
-02-
輕量化WebXR探索與研究進展
上圖展示了XR技術的發(fā)展簡史。從1998年AR首次應用于電視直播到AR專用頭顯、移動終端、基于APP的AR游戲和基于Web的AR解決方案陸續(xù)出現(xiàn),再到OpenXR 1.0的發(fā)布,各大國內(nèi)廠商加入OpenXR聯(lián)盟,這些發(fā)展充分體現(xiàn)了XR追求移動化、輕量化和跨平臺標準化的發(fā)展趨勢。
Web具有天然的跨平臺性,并且有兼容高、普及廣的優(yōu)勢,因而基于輕量化移動Web的XR技術開始萌芽。
但實現(xiàn)WebXR并非易事。首先是瀏覽器極其有限的算力難以滿足AR密集的位姿計算需求,這也導致位姿估計與計算的時延差距大,畫面延遲較高,無法達到AR的高頻實時跟蹤要求。且三維模型的復雜度對Web的渲染能力提出很大考驗。最后,國內(nèi)各大硬件廠商瀏覽器的內(nèi)核和開放權限參差不齊,導致傳統(tǒng)的方案難以跨平臺通用。
基于以上考慮,我們提出了基于云實現(xiàn)的WebXR解決方案。
接下來,我講介紹幾種云化WebXR方案的典型落地場景。如實現(xiàn)基于Web瀏覽器的AR導航、真實世界的三維目標實時識別、跟蹤、渲染以及異構跨終端的XR通信交互等。
在統(tǒng)籌考慮端云算力和時延要求的基礎上,我們針對AR室內(nèi)導航服務場景提出了端云協(xié)同方案。該方案的核心問題是如何精準、高頻次獲取移動終端的實施6-DoF相機位姿?
目前基于Web的定位方案一般是提供局部定位,無法提供面向大規(guī)模地圖場景的全局定位,難以滿足導航場景路徑規(guī)劃等功能的需要;其次是終端側的行人航位推算(PDR)等方案的累計誤差較大,只能保持短距離精確定位;第三是傳輸實時視頻幀到云端求解無法滿足定位頻率要求。
因此,我們通過將終端側定位位姿和云端VPS定位對齊實現(xiàn)了“端側輕量化自主定位+云端精確輔助重定位”的方式。具體流程如上圖左下角所示,端側以云端的精確定位為基準點,通過PDR方案進行自主實時定位,導航行進過程中通過借助云端重定位來及時修正誤差。
我們從定位精度和開銷兩方面對該方案進行了性能評估,可以看到最終呈現(xiàn)的效果較好。
但端云協(xié)同方案在網(wǎng)絡條件差、環(huán)境復雜等條件下難以發(fā)揮作用。我們考慮到用戶在導航時一般僅調用地圖的局部,因此通過將大地圖語義化,以物體為特征建立點云地圖,將其分塊并實時按需下發(fā)至端側,使端側具備了獨立精確定位計算能力。
經(jīng)過測試,1M的點云數(shù)據(jù)即可覆蓋40-50平米的范圍,且通過預加載等方式可以讓用戶基本感受不到地圖下載的延遲。
針對局部語義地圖的技術架構我們拓展了很多新的應用場景,如上圖展示的BIM數(shù)字沙盤,可將BIM模型和效果投放到實景沙盤上。
在多人場景,通過移動Web動態(tài)加載語義點云地圖,使用局部點云定位,在點云世界坐標下記錄模型信息即可通過P2P通信實現(xiàn)Web端的多人AR交互。
無論是端云協(xié)同還是局部語義地圖方案都很大程度上依賴云端預建地圖的準確性,但它的時效性非常強。為了解決實時地圖更新的問題我們采用了眾包方案。
在眾包模式下,用戶的手機可以作為地圖重建采集設備,將拍攝的畫面反饋至云端進行更新。
我們也采用了兩種在定位優(yōu)化手段。首先,傳統(tǒng)定位算法往往依賴低級幾何特征(特征點)來建立視覺地圖,但在弱光或暗光場景下可能難以提取到足夠的特征點,針對這類復雜場景我們通過引入語義化特征,利用高層級語義信息協(xié)助建立點云地圖,從而增強定位能力。
第二是針對樓梯間等特征點較少的場景改為使用線特征注冊圖像,使重建流程和定位能力更加穩(wěn)定。
以上是我們從通信角度對基于MEC+D2D融合的多用戶交互XR協(xié)同架構提出的一些考慮。
上圖展示了我們從降低分發(fā)時延、同步時延角度提出的Web側多用戶XR協(xié)作框架。
-03-
全息XR通信與實時交互服務
全息容積視頻是一種捕捉3D空間的全息顯示技術。而實現(xiàn)3D全息視頻實時采集、傳輸與交互是沉浸式XR的關鍵挑戰(zhàn)。相對于視頻的捕捉采集,我們更多地關注它從傳輸、通信到最終在終端呈現(xiàn)的過程。
全息視頻實時采集、傳輸過程中的難點體現(xiàn)在以下幾方面:一是全息視頻的采集時間過長,歷經(jīng)多機位畫面融合、編碼、傳輸和解碼后嚴重降低了視頻幀率;第二是全息視頻的數(shù)據(jù)量過大,所需帶寬過高,現(xiàn)有網(wǎng)絡難以承載;第三是編解碼效果差,現(xiàn)有標準無法實現(xiàn)實時解碼。
在此基礎上,我們提出了基于AI的語義通信傳輸機制,通過提取、傳輸全息視頻的關鍵點云語義特征極大降低了傳輸數(shù)據(jù)量。終端側負責進行容積視頻幀重建。
由于基于AI的點云編解碼方案對計算和存儲的要求較高,資源有限的終端設備難以實現(xiàn)實時解碼交互。因而我們提出了面向任務的輕量化傳輸機制,采用興趣感知選擇技術提取局部用戶感興趣的內(nèi)容,同時采用剪枝、量化等網(wǎng)絡輕量化技術,極大地降低了AI傳輸模型的參數(shù)和推理速度,提高了解碼效率。
除了單純的3D全息點云實時交互外,我們也在思考面對混合模態(tài)視頻XR業(yè)務場景的解決方案,但現(xiàn)有視頻流自適應傳輸方案都是針對單模態(tài)業(yè)務的優(yōu)化。
我們提出了一種面向多模態(tài)業(yè)務的云渲染自適應視頻流框架,對于包含傳統(tǒng)2D、360度視頻,全息點云視頻的多模態(tài)業(yè)務,通過云渲染的轉碼方式有效降低了移動終端的帶寬和解碼壓力。
我們采用多智能體強化學習的方式實現(xiàn)多維度內(nèi)容ABR控制,從而最大程度保證不同用戶的QoE。
基于未來網(wǎng)絡試驗設施(CENI)提供的大帶寬、低時延等特性需求,從創(chuàng)造承載高清全息XR的網(wǎng)絡條件考慮,我們擬搭建出一套基于CENI的設施,可支持超遠距離多人交互的實時全息通信試驗系統(tǒng)。
-04-
云化XR的新需求和新挑戰(zhàn)
總體來看,未來云化XR的發(fā)展將面臨網(wǎng)絡能力方面的需求和挑戰(zhàn)。目前多個3GPP工作組也在針對5G低時延云游戲、AR/VR、多媒體編解碼和XR業(yè)務QoE等方向展開研究。
同時云化XR仍面臨幾點技術挑戰(zhàn)。
一是在云網(wǎng)架構上,復雜場景下的圖形渲染、編碼和計算部署在云端也為云側帶來了很大壓力。那么未來面對海量用戶,云側要滿足確定性渲染計算能力及處理時延,網(wǎng)絡需要滿足確定性帶寬及傳輸時延;
二是在網(wǎng)絡側,滿足XR多模態(tài)業(yè)務不同場景的差異化和安全隔離需求需要定制化網(wǎng)絡切片和安全隔離;
三是在邊側,云XR業(yè)務需要消耗GPU資源來實現(xiàn)實時圖形渲染、并行計算等能力。邊側IaaS層成本主要是GPU成本,通過GPU虛擬化提升GPU使用效率是拓展云化XR業(yè)務的重大挑戰(zhàn);
四是在云側,XR的超高分辨率畫質要求,巨大的數(shù)據(jù)量給編解碼帶來的挑戰(zhàn),尤其是強交互云XR直播與交互業(yè)務需要支持實時轉碼,基于通用視頻的編解碼技術效率相對較低;
五是在終端側,3D體驗的終端價格仍然昂貴,內(nèi)容質量低,跨平臺性差。
最后,由于傳統(tǒng)的QoE指標評價通常只針對單一的業(yè)務類型,且業(yè)務之間的耦合度低,已經(jīng)無法適應云化XR的業(yè)務場景,我們目前正在推進建立兼容云XR的質量評估體系。
編輯:黃飛
?
評論