chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度剖析Sora技術(shù)的核心原理與應(yīng)用

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:架構(gòu)師技術(shù)聯(lián)盟 ? 2024-04-08 09:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

?文生視頻大模型Sora橫空出世,能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。其中,視頻生成包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng),同時(shí)也接受現(xiàn)有視頻擴(kuò)展或填補(bǔ)缺失的幀。

總體而言,不管是在視頻的保真度、長(zhǎng)度、穩(wěn)定性、一致性、分辨率、文字理解等方面,Sora都做到了業(yè)內(nèi)領(lǐng)先水平,引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。此外,當(dāng)Sora訓(xùn)練的數(shù)據(jù)量足夠大時(shí),它也展現(xiàn)出了一種類似于涌現(xiàn)的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。 Sora借鑒LLM中將文本信息轉(zhuǎn)化為token的思路,針對(duì)視頻訓(xùn)練視覺patch,實(shí)現(xiàn)視覺數(shù)據(jù)模型的統(tǒng)一表達(dá),實(shí)現(xiàn)對(duì)多樣化視頻和圖像內(nèi)容的有效處理和生成,之后通過視頻壓縮網(wǎng)絡(luò)分解為時(shí)空patches,允許模型在時(shí)間和空間范圍內(nèi)進(jìn)行信息交換和操作。

從Sora技術(shù)報(bào)告來看,時(shí)空patches或借鑒谷歌ViViT操作。ViViT借鑒ViT在圖片分割上的思路,把輸入的視頻劃分成若干個(gè)tuplet,每個(gè)tuplet會(huì)變成一個(gè)token,經(jīng)過spatial temperal attention進(jìn)行空間和時(shí)間建模獲得有效的視頻表征token。 傳統(tǒng)方法可能將視頻簡(jiǎn)單分解為一系列連續(xù)的幀,因而忽略了視頻中的空間信息,也就是在每一幀中物體的位置和運(yùn)動(dòng)。我們認(rèn)為,由于連續(xù)幀存在時(shí)空連續(xù)性,Sora的時(shí)空patches可同時(shí)考慮視頻中時(shí)間和空間關(guān)系,能夠更加精準(zhǔn)生成視頻,捕捉到視頻中細(xì)微的動(dòng)作和變化,在保證視頻內(nèi)容連貫性和長(zhǎng)度的同時(shí),創(chuàng)造出豐富多樣的視覺效果,靈活滿足用戶的各種需求。

7829b7dc-f543-11ee-a297-92fbcf53809c.png

78360a3c-f543-11ee-a297-92fbcf53809c.jpg

7853effc-f543-11ee-a297-92fbcf53809c.jpg

78689452-f543-11ee-a297-92fbcf53809c.jpg

787c4d8a-f543-11ee-a297-92fbcf53809c.jpg

788d876c-f543-11ee-a297-92fbcf53809c.jpg

7916d1d4-f543-11ee-a297-92fbcf53809c.jpg

wKgZomYTTvyAQaj8AAMMNH4iytA812.png

793222ea-f543-11ee-a297-92fbcf53809c.jpg

wKgaomYTTymAc_0EAAf3LKBuO-A083.png

wKgZomYTTziAPQEMAAPVJ3v4vP4589.png

wKgaomYTT1uAc6-KAAXj8AOcytA673.png

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    339

    瀏覽量

    1197
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    86

    瀏覽量

    715

原文標(biāo)題:分享:Sora技術(shù)深度解析

文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    《C語言深度剖析》【超經(jīng)典書籍】

    本帖最后由 zgzzlt 于 2012-8-16 14:23 編輯 《C語言深度剖析》【超經(jīng)典書籍】
    發(fā)表于 08-02 08:59

    C語言深度剖析

    C語言深度剖析——一本關(guān)于C語言學(xué)習(xí)的教程,里面包含C語言編寫規(guī)范,各種變量指針用法等。以含金量勇敢挑戰(zhàn)國(guó)內(nèi)外同類書籍
    發(fā)表于 08-14 11:36

    c語言深度剖析

    c語言深度剖析
    發(fā)表于 04-02 09:12

    陳正沖《C語言深度剖析

    陳正沖編寫的《C語言深度剖析》,挺經(jīng)典,剛來論壇,多多指教~~
    發(fā)表于 08-17 12:06

    linux內(nèi)核深度剖析,另附有光盤資料

    linux內(nèi)核深度剖析,對(duì)于想學(xué)linux內(nèi)核的人來說,絕對(duì)值得一看,另附有光盤資料。
    發(fā)表于 01-15 21:25

    【資料分享】C語言深度剖析

    C語言深度剖析
    發(fā)表于 10-16 15:16

    C語言深度剖析

    C語言深度剖析
    發(fā)表于 08-25 09:08

    C語言深度剖析

    C語言深度剖析[完整版].pdfC語言深度剖析[完整版].pdf (919.58 KB )
    發(fā)表于 03-19 05:11

    C語言深度剖析

    C語言深度剖析
    發(fā)表于 05-05 17:40 ?7次下載

    C語言深度剖析

    C語言深度剖析
    發(fā)表于 12-20 22:50 ?0次下載

    C語言深度剖析.zip

    C語言深度剖析
    發(fā)表于 12-30 09:20 ?5次下載

    探索OpenAI Sora視頻AI生成技術(shù)及其應(yīng)用如何使用指南

    OpenAI的Sora現(xiàn)已擴(kuò)展其能力范圍,進(jìn)入視頻生成領(lǐng)域,標(biāo)志著人工智能技術(shù)在多媒體內(nèi)容創(chuàng)作上的一個(gè)重大突破。Sora的視頻AI功能使得用戶能夠根據(jù)文本描述自動(dòng)生成高質(zhì)量的視頻內(nèi)容,這項(xiàng)技術(shù)
    的頭像 發(fā)表于 02-20 12:01 ?2818次閱讀

    sora最新消息 sora是什么意思

    Sora可以根據(jù)用戶的文本提示創(chuàng)建最長(zhǎng)60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。繼承了DALL-E 3的畫質(zhì)和遵循指令能力,能理解用戶在提示中提出的要求。
    的頭像 發(fā)表于 02-21 16:38 ?4169次閱讀

    sora系列是哪個(gè)公司的 sora視頻怎么用

    )正式對(duì)外發(fā)布。 sora視頻怎么用 Sora可以根據(jù)用戶的文本提示創(chuàng)建最長(zhǎng)60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。繼承了DALL-E 3
    的頭像 發(fā)表于 02-21 16:35 ?5737次閱讀

    sora模型怎么使用 sora模型對(duì)現(xiàn)實(shí)的影響

    美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示詞生成60s的連貫視頻,“碾壓”了
    的頭像 發(fā)表于 02-22 16:42 ?1607次閱讀