案例簡介
蘇州湯元科技有限公司(以下簡稱“湯元科技”)是一家專注于三維重建與世界模型的科技公司,為自動駕駛與具身智能提供高質(zhì)量、多樣化的訓練數(shù)據(jù)。通過將自研的世界模型技術(shù)與NVIDIA Cosmos結(jié)合,實現(xiàn)真實物理世界的三維重建、場景泛化,并提升數(shù)據(jù)生成的效率與擬真度。
本案例主要應用NVIDIA GPU和 NVIDIA Cosmos 平臺。
湯元科技成立于 2024 年 3 月,是一家專注于“世界模型 + AI”的創(chuàng)新型科技公司,致力于實現(xiàn)真實物理世界的三維重建與數(shù)據(jù)生成,推動物理 AI 的發(fā)展。公司核心業(yè)務是利用路側(cè)傳感器信息,將物理世界的全要素數(shù)字化重建,并以此構(gòu)建高質(zhì)量、可泛化的訓練數(shù)據(jù),服務于自動駕駛和具身智能等前沿領(lǐng)域。
在智能駕駛方向,湯元科技推出了自研的“Yootta 數(shù)據(jù)平臺”,基于“Real2Sim2Real”的三維重建與視頻擴散生成框架,將城市級多源感知數(shù)據(jù)自動化轉(zhuǎn)化為多樣化、高保真、結(jié)構(gòu)一致的車側(cè)視角訓練數(shù)據(jù)。該框架能夠涵蓋不同天氣、光照、道路結(jié)構(gòu)等復雜場景。
傳統(tǒng)三維重建受限于視角和環(huán)境,往往存在天空信息缺失及復雜場景泛化不足等問題。湯元科技通過引入 Cosmos,實現(xiàn)了缺失信息補全、多樣化視角生成與復雜環(huán)境的泛化,為“感知在環(huán)”訓練奠定了技術(shù)基礎(chǔ)。
湯元科技基于 Cosmos 對交通場景的光照、天氣、環(huán)境等進行重構(gòu)。
智能駕駛數(shù)據(jù)獲取與生成面臨的挑戰(zhàn)
數(shù)據(jù)是智能駕駛訓練的燃料。在端到端和 VLA 等新一代技術(shù)體系推動下,智能駕駛對高質(zhì)量、多樣化、物理一致的訓練數(shù)據(jù)提出了更高要求。當前,數(shù)據(jù)獲取與生成面臨多重挑戰(zhàn),成為制約技術(shù)突破的關(guān)鍵瓶頸。
1. 數(shù)據(jù)采集方式
傳統(tǒng)依賴車隊實采的方式存在高成本、低效率問題,且難以覆蓋長尾場景;而純生成式數(shù)據(jù)雖然成本低,但其物理一致性與行為真實度難以保障,難以滿足模型對真實性和泛化能力的雙重要求。通過路側(cè)傳感器采集數(shù)據(jù)并重建真實世界模型的方案,可以在滿足智能駕駛對數(shù)據(jù)需求的同時,大幅降低采集成本。
2. 數(shù)據(jù)格式
智能駕駛的主流算法(如:端到端模型和 VLA 模型)需要“感知在環(huán)”的方式進行模型訓練和測試。傳統(tǒng)的智能駕駛數(shù)據(jù)集(如:nuScenes)是由自動駕駛車輛事先采集的日志數(shù)據(jù),而非實時模擬環(huán)境。傳感器信息一旦固定,當自動駕駛模型生成新的行駛軌跡后,傳感器數(shù)據(jù)無法改變。因此,需要引入 4D場景數(shù)據(jù),以便在車輛位姿變化時,能夠重新渲染傳感器視角下的數(shù)據(jù)。
3. 數(shù)據(jù)源本身
無論是路側(cè)還是車載采集都存在物理限制。路側(cè)設(shè)備受部署密度和視角范圍影響,生成數(shù)據(jù)常缺乏天空等關(guān)鍵環(huán)境要素;而車載視角則受遮擋影響較大,存在重建障礙物幾何信息缺失、姿態(tài)估計不準等問題。
左圖為通過路側(cè)相機重建后渲染的車端視角視頻,天空因視角受限而缺失;右圖為經(jīng)Cosmos補全天空等缺失信息后,呈現(xiàn)完整場景。
面對上述挑戰(zhàn),湯元科技自研“Real2Sim2Real”三維重建與視頻擴散生成框架,構(gòu)建了以 3D Gaussian Splatting 為核心、動靜分離建模為支撐的四維動態(tài)重建能力。通過對靜態(tài)背景與動態(tài)物體的時序建模與融合,確保重建結(jié)果具備空間一致性與時間連續(xù)性。同時,結(jié)合 Cosmos,實現(xiàn)了缺失信息補全、多樣化視角生成和復雜環(huán)境泛化,突破了傳統(tǒng)數(shù)據(jù)生成的瓶頸。相較于傳統(tǒng)采集方式,湯元科技的解決方案在三個維度實現(xiàn)了顯著提升:
技術(shù)上,通過路側(cè)傳感器信息實現(xiàn)真實物理世界的還原,具備更優(yōu)的紋理、幾何與光照一致性以及新視角的時空一致性;
業(yè)務上,提升了對場景密度、行為模態(tài)、長尾交互的還原能力;
效率與成本上,依托路側(cè)數(shù)據(jù)采集與自動生成,數(shù)據(jù)采集效率提升 5 倍,綜合成本下降超 80%。
NVIDIA Cosmos 助力突破 4D 重建瓶頸
為了突破三維生成與四維重建在效率、質(zhì)量及泛化能力上的瓶頸,湯元科技引入了 NVIDIA 最新的軟硬件產(chǎn)品,包括多卡 GPU 集群、Cosmos 引擎與擴散模型,構(gòu)建出一套高效、真實、穩(wěn)定的 4D 數(shù)據(jù)生成與增強系統(tǒng)。其在自動駕駛及具身智能的數(shù)據(jù)供給中表現(xiàn)出顯著優(yōu)勢,具體包括:
基于 Cosmos 的物理級光影建模,提升視覺真實感
利用 Cosmos 引擎,湯元科技在構(gòu)建 4D 動態(tài)場景時實現(xiàn)了跨時間幀一致的光照與材質(zhì)表現(xiàn),顯著解決了傳統(tǒng) 4D 合成中光影不自然與材質(zhì)漂移的問題,極大增強了視覺擬真度。
4D資產(chǎn)重建常因相機參數(shù)誤差、稀疏視圖和曝光不一致而導致質(zhì)量下降。為此,湯元科技在初始車輛模型的360 度環(huán)視范圍內(nèi)采樣虛擬視角,并借鑒NVIDIA擴散模型思路進行修復;修復后的視角圖像進一步用于訓練3D Gaussian Splatting(3DGS),從而提升車輛重建的幾何精度與外觀一致性。
2. 修復時空漂移,顯著提升重建質(zhì)量
針對 4D 重建中的跨幀結(jié)構(gòu)漂移與紋理不一致問題,湯元科技結(jié)合 Cosmos-Transfer1-7B-Sample-AV 模型與擴散模型,進行了校正優(yōu)化。在實際評估中,圖像質(zhì)量指標實現(xiàn)了大幅提升:
PSNR(峰值信噪比,Peak Signal-to-Noise Ratio)從 25.6 提升至 35.9
SSIM(結(jié)構(gòu)相似性指標,Structural Similarity Index Measure)從 0.68 提升至 0.91
NTA-IoU(用于評估新視角的時空一致性,Novel Trajectory Agent IoU)從 0.613 提升至 0.804
LPIPS(感知相似性指標,Learned Perceptual Image Patch Similarity)從 0.137 降低至 0.021
FID(衡量生成圖像與真實圖像整體分布差異的指標,F(xiàn)rechet Inception Distance)從 130.4 降低至 23.1
這一提升在視覺質(zhì)量、結(jié)構(gòu)保真度與感知一致性方面均體現(xiàn)出突破性效果。
3. 高質(zhì)量大規(guī)模風格遷移,實現(xiàn)數(shù)據(jù)泛化
通過 Cosmos 的風格遷移能力,湯元科技在保持空間結(jié)構(gòu)穩(wěn)定的前提下,生成了多樣性極高的圖像樣本,實現(xiàn)超過 10 倍的數(shù)據(jù)增強效率。該能力有效覆蓋了雨天、雪天、黃昏等邊緣駕駛場景,極大拓展了模型的風格學習空間,顯著提升了感知模型的泛化性能。
4. 打破“感知訓練不在環(huán)”傳統(tǒng)限制,實現(xiàn)“數(shù)據(jù)與模型”協(xié)同進化
傳統(tǒng)感知模型的訓練通常依賴于預先采集的靜態(tài)離線數(shù)據(jù)集,這種離線訓練方案難以適配VLA(Vision-Language-Action)、RL(Reinforcement Learning)等需“感知在環(huán)”的模型。對此,湯元科技基于Cosmos構(gòu)建的可交互式訓練數(shù)據(jù)平臺,提出了針對性解決方案:通過對真實物理世界進行4D重建,可實時渲染生成任意新視角的傳感器數(shù)據(jù),從而精準滿足“感知在環(huán)”對動態(tài)、多維度感知輸入的核心需求。該方案突破了傳統(tǒng)離線數(shù)據(jù)的局限,推動了需要與動態(tài)環(huán)境持續(xù)交互的智能駕駛相關(guān)模型(如VLA、RL)的研發(fā)進程。
借助 Cosmos 平臺,湯元科技極大地提升了物理世界重建與泛化過程中的效率與精度。湯元科技還是 NVIDIA 初創(chuàng)加速計劃的成員企業(yè),得到了該項目的全方位支持。在技術(shù)方面,通過對 NVIDIA OpenUSD 課程的學習,提升了生成式模型構(gòu)建與模塊化 3D 資產(chǎn)利用能力。在市場與生態(tài)層面,通過參與 NVIDIA 初創(chuàng)加速計劃的活動與演講,不僅展示了技術(shù)實力,還拓展了合作伙伴網(wǎng)絡(luò),進一步提升了在世界模型與自動駕駛訓練數(shù)據(jù)領(lǐng)域的影響力。
湯元科技聯(lián)合創(chuàng)始人兼首席執(zhí)行官任冬淳表示:“物理 AI 是未來最大的方向,所有的智能體都需具備感知、理解和執(zhí)行的能力。在智能駕駛上,通過 Cosmos 的能力,我們可以更好、更快地交付客戶所需的數(shù)據(jù)。同時,感謝 NVIDIA 初創(chuàng)加速計劃,為我們開放了一個優(yōu)秀的技術(shù)與市場平臺,幫助我們連接產(chǎn)業(yè)資源、快速成長?!?/p>
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5430瀏覽量
108209 -
AI
+關(guān)注
關(guān)注
88文章
36980瀏覽量
289814 -
模型
+關(guān)注
關(guān)注
1文章
3609瀏覽量
51411 -
智能駕駛
+關(guān)注
關(guān)注
5文章
2892瀏覽量
50621
原文標題:初創(chuàng)加速計劃 | NVIDIA 助力湯元科技,借助 Cosmos 推動物理 AI 與智能駕駛數(shù)據(jù)生成
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA助力樞途科技突破視頻提取具身數(shù)據(jù)技術(shù)鴻溝
NVIDIA GR00T-Dreams助力光輪智能革新合成數(shù)據(jù)
NVIDIA AI助力科學研究領(lǐng)域持續(xù)突破
破解數(shù)據(jù)瓶頸:智能汽車合成數(shù)據(jù)架構(gòu)與應用實踐

評論