在OpenAI研發(fā)出Sora后不久,谷歌Deep Mind團隊公開了在世界模型領域的新進展——基礎世界模型Genie。該模型主要借鑒非對抗方式進行訓練,可根據(jù)各類圖像乃至草圖生成具有豐富動作表現(xiàn)的2D世界,從而實現(xiàn)人們與虛構世界的深度互動。只需輸入一張圖像,Genie便可構建一個全新的交互環(huán)境。
DeepMind指出,Genie有能力根據(jù)最新的文生圖大模型生成初始幀,再借助Genie的能力賦予這些圖像更深層次的含義。Genie作為一個包含110億參數(shù)的基礎世界模型,成功研發(fā)得益于谷歌聲名在外的潛在動作模型,用于推斷視頻幀間的運動,視頻分詞器則可以將原始視頻幀轉化為離散標記,而動態(tài)模型則負責預測下一幀的活動情況。
值得注意的是,相較于號稱“高清晰度、高真實感”的Sora, Genie似乎更注重潛在行為的預測,而不是極力展現(xiàn)畫面的真實性?,F(xiàn)階段,從圖像或文本中生成高質(zhì)量視頻尚未成為Genie關注的核心業(yè)務點。DeepMind進一步透露,Genie主要圍繞“2D平臺類游戲及大約率算法”展開應用,這種處理方法具有廣泛適應性,可應用于各領域,也可以擴展至更大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)集。
然而,這個還在試驗階段的Genie尚不能視為商業(yè)產(chǎn)品問世。據(jù)DeepMind人士解釋,Genie的訓練視頻為160x90像素且每秒僅10幀的超低分辨率視頻,生成的模擬游戲以每秒1幀的速率運行。因此,實際場景更為復雜且要求更高實時性的商業(yè)應用仍需耐心等待解決方案。
-
DeepMind
+關注
關注
0文章
131瀏覽量
12292 -
genie
+關注
關注
0文章
10瀏覽量
4418 -
OpenAI
+關注
關注
9文章
1245瀏覽量
10075 -
大模型
+關注
關注
2文章
3650瀏覽量
5186
發(fā)布評論請先 登錄
再談低溫燒結銀的應用:從春晚四家機器人出鏡的幕后推手說起
富唯智能復合機器人:推動智慧醫(yī)院與產(chǎn)業(yè)自動化的核心技術創(chuàng)新
探索RISC-V在機器人領域的潛力
高精度機器人控制的核心——基于 MYD-LT536 開發(fā)板的精密運動控制方案
RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知
小蘿卜機器人的故事
15分鐘快速部署,復合機器人如何重塑“上下料機器人哪家好”的行業(yè)答案
谷歌公布基礎模型Genie,主攻2D平臺類游戲及機器人應用
評論