?文生視頻大模型Sora橫空出世,能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。其中,視頻生成包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng),同時(shí)也接受現(xiàn)有視頻擴(kuò)展或填補(bǔ)缺失的幀。
總體而言,不管是在視頻的保真度、長(zhǎng)度、穩(wěn)定性、一致性、分辨率、文字理解等方面,Sora都做到了業(yè)內(nèi)領(lǐng)先水平,引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。此外,當(dāng)Sora訓(xùn)練的數(shù)據(jù)量足夠大時(shí),它也展現(xiàn)出了一種類似于涌現(xiàn)的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。 Sora借鑒LLM中將文本信息轉(zhuǎn)化為token的思路,針對(duì)視頻訓(xùn)練視覺patch,實(shí)現(xiàn)視覺數(shù)據(jù)模型的統(tǒng)一表達(dá),實(shí)現(xiàn)對(duì)多樣化視頻和圖像內(nèi)容的有效處理和生成,之后通過視頻壓縮網(wǎng)絡(luò)分解為時(shí)空patches,允許模型在時(shí)間和空間范圍內(nèi)進(jìn)行信息交換和操作。
從Sora技術(shù)報(bào)告來看,時(shí)空patches或借鑒谷歌ViViT操作。ViViT借鑒ViT在圖片分割上的思路,把輸入的視頻劃分成若干個(gè)tuplet,每個(gè)tuplet會(huì)變成一個(gè)token,經(jīng)過spatial temperal attention進(jìn)行空間和時(shí)間建模獲得有效的視頻表征token。 傳統(tǒng)方法可能將視頻簡(jiǎn)單分解為一系列連續(xù)的幀,因而忽略了視頻中的空間信息,也就是在每一幀中物體的位置和運(yùn)動(dòng)。我們認(rèn)為,由于連續(xù)幀存在時(shí)空連續(xù)性,Sora的時(shí)空patches可同時(shí)考慮視頻中時(shí)間和空間關(guān)系,能夠更加精準(zhǔn)生成視頻,捕捉到視頻中細(xì)微的動(dòng)作和變化,在保證視頻內(nèi)容連貫性和長(zhǎng)度的同時(shí),創(chuàng)造出豐富多樣的視覺效果,靈活滿足用戶的各種需求。












審核編輯:黃飛
-
LLM
+關(guān)注
關(guān)注
1文章
339瀏覽量
1197 -
Sora
+關(guān)注
關(guān)注
0文章
86瀏覽量
715
原文標(biāo)題:分享:Sora技術(shù)深度解析
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄

深度剖析Sora技術(shù)的核心原理與應(yīng)用
評(píng)論