chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

OpenCV學(xué)堂 ? 來(lái)源:新智元 ? 2024-02-20 10:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2023年,也是AI視頻元年。過(guò)去一年究竟有哪些爆款應(yīng)用誕生,未來(lái)視頻生成領(lǐng)域面臨的難題還有哪些?

過(guò)去一年,AI視頻領(lǐng)域我們見(jiàn)證了,Gen-2、Pika等爆款產(chǎn)品的誕生。

來(lái)自a16z的Justine Moore,詳細(xì)盤點(diǎn)了人工智能視頻生成領(lǐng)域的現(xiàn)狀、不同模型比較,以及還未解決的技術(shù)挑戰(zhàn)。

4889e5b4-cf38-11ee-a297-92fbcf53809c.png

接下來(lái),一起看看這篇文章都講了什么?

4899c13c-cf38-11ee-a297-92fbcf53809c.png

AI視頻生成大爆發(fā)

2023年是AI視頻取得突破的一年。不過(guò),今年過(guò)去了一個(gè)月,暫未有公開的文本到視頻的模型。

短短12個(gè)月,數(shù)十種視頻生成產(chǎn)品受到了全球數(shù)以萬(wàn)計(jì)的用戶的青睞。

不過(guò),這些AI視頻生成工具仍相對(duì)有限,多數(shù)只能生成3-4秒的視頻,同時(shí)質(zhì)量往往參差不齊,角色一致性等問(wèn)題尚未解決。

也就是說(shuō),我們還遠(yuǎn)不能制作出一個(gè)只有文字提示,甚至多個(gè)提示的皮克斯級(jí)別的短片。

然而,我們?cè)谶^(guò)去一年中在視頻生成方面取得的進(jìn)步表明,世界正處于一場(chǎng)大規(guī)模變革的早期階段——與我們?cè)趫D像生成方面看到的情況類似。

我們看到,文本到視頻的模型在不斷改進(jìn),圖像到視頻,以及視頻到視頻等分支也在蓬勃發(fā)展。

為了幫助了解這一創(chuàng)新的爆炸式增長(zhǎng),a16z追蹤了到目前為止最需要關(guān)注的公司,以及該領(lǐng)域仍然存在的潛在問(wèn)題。

wKgaomXUEVyANWD1AAMVy8_kLxk520.jpg

今天,你可以在哪里生成AI視頻?

21個(gè)視頻生成產(chǎn)品

今年到目前為止,a16z已經(jīng)跟蹤了21種公開產(chǎn)品。

雖然你可能聽(tīng)說(shuō)過(guò)Runway、Pika、Genmo和Stable Video Diffusion,但還有許多其他的東西需要探索。

wKgZomXUEVyARFiOAARAYxTYoKQ858.jpg

這些產(chǎn)品大多來(lái)自初創(chuàng)公司,其中許多都是從Discord bots,有以下幾個(gè)優(yōu)勢(shì):

不需要構(gòu)建自己面向消費(fèi)者的界面,只需專注于模型質(zhì)量

可以利用Discord每月1.5億活躍用戶的基礎(chǔ)進(jìn)行分發(fā)

公共渠道為新用戶提供了一種簡(jiǎn)便的方式,讓他們獲得創(chuàng)作靈感(通過(guò)查看他人的創(chuàng)作)

然而,隨著技術(shù)成熟,我們開始看到越來(lái)越多的AI視頻產(chǎn)品建立自己的網(wǎng)站,甚至是App。

隨著Discord提供了一個(gè)很好的平臺(tái),但在純生成之上添加的工作流而言,卻是有限的,并且團(tuán)隊(duì)對(duì)消費(fèi)者體驗(yàn)的控制很少。

值得注意的是,還有很大一部分人不使用Discord,因其覺(jué)得界面混亂讓人困惑。

研究和技術(shù)

谷歌、Meta和其他公司在哪里?

在公開的產(chǎn)品列表中,他們顯然沒(méi)有出現(xiàn)--盡管你可能已經(jīng)看到了他們發(fā)布的關(guān)于Emu Video、VideoPoet 和 Lumiere等模型的帖子。

到目前為止,大型科技公司基本上都不選擇公開自家的AI視頻產(chǎn)品。

取而代之的是,他們發(fā)表了各種相關(guān)的視頻生成的論文,而沒(méi)有選擇視頻演示。

比如,谷歌文本生成視頻的模型Lumiere

48c7ff52-cf38-11ee-a297-92fbcf53809c.png

這些公司有著巨大的分銷優(yōu)勢(shì),其產(chǎn)品擁有數(shù)十億用戶。

那么,他們?yōu)槭裁床环艞壈l(fā)布視頻模型,而在這一新興類別市場(chǎng)中奪取巨大份額。

最主要的原因還是,法律、安全和版權(quán)方面的擔(dān)憂,往往使這些大公司很難將研究轉(zhuǎn)化為產(chǎn)品,并推遲推出。如此一來(lái),讓新來(lái)者有機(jī)會(huì)獲得先發(fā)優(yōu)勢(shì)。

AI視頻的下一步是什么?

如果你曾使用過(guò)這些產(chǎn)品,便知道在AI視頻進(jìn)入主流產(chǎn)品之前,仍然有很大的改進(jìn)空間。

有時(shí)會(huì)發(fā)現(xiàn),AI視頻工具可以將提示內(nèi)容生成視頻的「神奇時(shí)刻」,但這種情況相對(duì)較少見(jiàn)。更常見(jiàn)的情況是,你需要點(diǎn)擊幾次重新生成,然后裁剪或編輯輸出,才能獲得專業(yè)級(jí)別的片段。

這一領(lǐng)域的大多數(shù)公司都專注于解決一些核心的問(wèn)題:

控制性:你能否同時(shí)控制場(chǎng)景中發(fā)生的事情,(比如,提示「有人向前走」,動(dòng)作是否如描述的那樣?)關(guān)于后一點(diǎn),許多產(chǎn)品都增加了一些功能,允許你對(duì)鏡頭zoom或pan,甚至添加特效。

「動(dòng)作是否如描述的那樣」一直較難解決:這涉及到底層模型的質(zhì)量問(wèn)題(模型是否理解提示的含義并能按要求生成),盡管一些公司正在努力在生成前提供更多的用戶控制。

比如,Runway的motion brush就是一個(gè)很好的例子,它允許用戶高粱圖像的特定區(qū)域并確定其運(yùn)動(dòng)方式。

時(shí)間一致性:如何讓角色、對(duì)象和背景在幀之間保持一致,而不會(huì)變形為其他東西或扭曲?

在所有公開提供的模型中,這是一個(gè)非常常見(jiàn)的問(wèn)題。

如果你今天看到一段時(shí)間連貫的視頻,時(shí)長(zhǎng)超過(guò)幾秒,很可能是視頻到視頻,通過(guò)拍攝一段視頻,然后用AnimateDiff prompt travel之類的工具來(lái)改變風(fēng)格。

長(zhǎng)度——制作長(zhǎng)時(shí)間的短片與時(shí)間連貫性高度相關(guān)。

許多公司會(huì)限制生成視頻的長(zhǎng)度,因?yàn)樗麄儾荒艽_保幾分鐘后依然視頻保持一致性。

如果當(dāng)你看到一個(gè)超長(zhǎng)的AI視頻,要知道它們是由一堆短片段組成的。

尚未解決的問(wèn)題

視頻的ChatGPT時(shí)刻什么時(shí)候到來(lái)?

其實(shí)我們還有很長(zhǎng)的路要走,需要回答以下幾個(gè)問(wèn)題:

1 當(dāng)前的擴(kuò)散架構(gòu)是否適用于視頻?

今天的視頻模型是基于擴(kuò)散模型搭建的:它們基本原理是生成幀,并試圖在它們之間創(chuàng)建時(shí)間一致的動(dòng)畫(有多種策略可以做到這一點(diǎn))。

他們對(duì)3D空間和對(duì)象應(yīng)該如何交互沒(méi)有內(nèi)在的理解,這解釋了warping / morphing。

2 優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)從何而來(lái)?

與其他模態(tài)模型相比,訓(xùn)練視頻模型更難,這主要是因?yàn)橐曨l模型沒(méi)有那么多高質(zhì)量的訓(xùn)練數(shù)據(jù)可供學(xué)習(xí)。語(yǔ)言模型通常在公共數(shù)據(jù)集(如Common Crawl)上進(jìn)行訓(xùn)練,而圖像模型則在LAION和ImageNet等標(biāo)記數(shù)據(jù)集(文本-圖像對(duì))上進(jìn)行訓(xùn)練。

視頻數(shù)據(jù)更難獲得。雖然在YouTube和TikTok等平臺(tái)上不乏公開可訪問(wèn)的視頻,但這些視頻沒(méi)有標(biāo)簽,也不夠多樣化。

3 這些用例將如何在平臺(tái)/模型之間進(jìn)行細(xì)分?

我們?cè)趲缀趺恳环N內(nèi)容模態(tài)中看到的是,一種模型并不是對(duì)所有用例都「取勝」的。例如,MidTrik、Idegraph和Dall-E都有不同的風(fēng)格,并擅長(zhǎng)生成不同類型的圖像。

如果你測(cè)試一下今天的文本到視頻和圖像到視頻模式,就會(huì)發(fā)現(xiàn)它們擅長(zhǎng)不同的風(fēng)格、運(yùn)動(dòng)類型和場(chǎng)景構(gòu)成。

誰(shuí)將主導(dǎo)視頻制作的工作流程?

而在許多產(chǎn)品之間,來(lái)回是沒(méi)有意義的。

除了純粹的視頻生成,制作好的剪輯或電影通常需要編輯,特別是在當(dāng)前的范例中,許多創(chuàng)作者正在使用視頻模型來(lái)制作在另一個(gè)平臺(tái)上創(chuàng)建的照片的動(dòng)畫。

從Midjourney的圖像開始,在Runway或Pika上制作動(dòng)畫,然后在Topz上進(jìn)行升級(jí)的視頻并不少見(jiàn)。

然后,創(chuàng)作者將視頻帶到CapCut或Kapwing等編輯平臺(tái),并添加配樂(lè)和畫外音,通常是在Suno和ElevenLabs等其他產(chǎn)品上生成的。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49701

    瀏覽量

    261139
  • ChatGPT
    +關(guān)注

    關(guān)注

    30

    文章

    1596

    瀏覽量

    10059

原文標(biāo)題:AI視頻年大爆發(fā)!Gen-2/Pika成時(shí)代爆款,2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    全球首個(gè)動(dòng)漫專屬AI視頻生成平臺(tái)Animon,國(guó)內(nèi)版"萌動(dòng)AI"正式發(fā)布

    Animon國(guó)內(nèi)版——"萌動(dòng)AI"首秀:AI動(dòng)漫創(chuàng)作進(jìn)入全民時(shí)代 北京20259月25日?/美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首個(gè)專注于動(dòng)漫的AI
    的頭像 發(fā)表于 09-25 12:33 ?524次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    當(dāng)今社會(huì),AI已經(jīng)發(fā)展很迅速了,但是你了解AI的發(fā)展歷程嗎?本章作者將為我們打開AI的發(fā)展歷程以及需求和挑戰(zhàn)的面紗。 從2017開始生成
    發(fā)表于 09-12 16:07

    AI視頻分析系統(tǒng)

    方案背景人工智能大時(shí)代背景下,視頻應(yīng)用領(lǐng)域相關(guān)的行業(yè)應(yīng)用方式已經(jīng)發(fā)生了深刻的變化,各論安防監(jiān)控還是各類垂直行業(yè)視頻應(yīng)用,都需要AI視覺(jué)分析與識(shí)別技術(shù)助力,而且需求廣泛而迫切。在應(yīng)用層面
    的頭像 發(fā)表于 08-06 14:39 ?677次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>視頻</b>分析系統(tǒng)

    4K、多模態(tài)、長(zhǎng)視頻AI視頻生成的下一個(gè)戰(zhàn)場(chǎng),誰(shuí)在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動(dòng)最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無(wú)縫切換的1080P高品質(zhì)
    的頭像 發(fā)表于 06-16 00:13 ?6875次閱讀

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    開發(fā)一個(gè)視頻內(nèi)容生成Agent。 訪問(wèn)語(yǔ)聚AI平臺(tái)官網(wǎng) ,進(jìn)行注冊(cè)或登錄。 在平臺(tái)首頁(yè),了解語(yǔ)聚AI的功能和應(yīng)用場(chǎng)景,特別是其支持的視頻生成
    發(fā)表于 03-05 19:52

    字節(jié)跳動(dòng)即將推出多模態(tài)視頻生成模型OmniHuman

    字節(jié)跳動(dòng)旗下一站式AI創(chuàng)作平臺(tái)即夢(mèng)AI即將迎來(lái)重大更新,全新多模態(tài)視頻生成模型OmniHuman即將上線。這款模型是字節(jié)跳動(dòng)自研的閉源模型,其強(qiáng)大的功能令人矚目:僅需一張圖片與一段音頻,便能自動(dòng)
    的頭像 發(fā)表于 02-08 10:53 ?1115次閱讀

    阿里云通義萬(wàn)相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬(wàn)相迎來(lái)了重要升級(jí),正式推出了全新的萬(wàn)相2.1視頻生成模型。這一創(chuàng)新成果標(biāo)志著阿里云在視頻生成技術(shù)領(lǐng)域的又一次重大突破。 據(jù)悉,萬(wàn)相2.1視頻生成模型在多個(gè)方面實(shí)
    的頭像 發(fā)表于 01-13 10:00 ?1115次閱讀

    Google兩款先進(jìn)生成AI模型登陸Vertex AI平臺(tái)

    新的 AI 模型,包括最先進(jìn)的視頻生成模型Veo以及最高品質(zhì)的圖像生成模型Imagen 3。近日,我們?cè)?Google Cloud 上進(jìn)一步推動(dòng)這一勢(shì)頭,客戶可以在Vertex AI
    的頭像 發(fā)表于 12-30 09:56 ?963次閱讀

    華為云 Flexus 云服務(wù)器 X 實(shí)例 Windows 系統(tǒng)部署一鍵短視頻生成 AI 工具 moneyprinter

    在追求創(chuàng)新與效率并重的今天,我們公司迎難而上,決定自主搭建一款短視頻生成 AI 工具——MoneyPrinter,旨在為市場(chǎng)帶來(lái)前所未有的創(chuàng)意風(fēng)暴。面對(duì)服務(wù)器選擇的難題,我們經(jīng)過(guò)深思熟慮與多方比較
    的頭像 發(fā)表于 12-30 09:10 ?950次閱讀
    華為云 Flexus 云服務(wù)器 X 實(shí)例 Windows 系統(tǒng)部署一鍵短<b class='flag-5'>視頻生成</b> <b class='flag-5'>AI</b> 工具 moneyprinter

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無(wú)推出其視頻生成模型Sora的應(yīng)用程序接口(API)的計(jì)劃。Sora模型能夠基于文本和圖像生成視頻,引發(fā)了廣泛關(guān)注。然而,由于訪問(wèn)量遠(yuǎn)超預(yù)期,OpenAI此前不得不緊急
    的頭像 發(fā)表于 12-20 14:23 ?952次閱讀

    Luma AI Ray 2視頻模型即將發(fā)布

    能夠在短短10秒內(nèi),根據(jù)用戶提供的文本和圖像提示,生成高質(zhì)量的視頻內(nèi)容。 Luma AI Ray 2視頻模型是Luma AI
    的頭像 發(fā)表于 12-20 11:37 ?973次閱讀

    巨人網(wǎng)絡(luò)發(fā)布“千影”大模型,加速“游戲+AI”布局

    近日,巨人網(wǎng)絡(luò)在2024度中國(guó)游戲產(chǎn)業(yè)年會(huì)上,正式推出了名為“千影?QianYing”的有聲游戲生成大模型。這一創(chuàng)新舉措標(biāo)志著巨人網(wǎng)絡(luò)在“游戲+AI”賽道上的又一重要布局。 “千影
    的頭像 發(fā)表于 12-16 09:45 ?1923次閱讀

    中國(guó)電信發(fā)布自研視頻生成大模型

    ,中國(guó)電信隆重發(fā)布了首個(gè)由央企全自研的視頻生成大模型。該模型采用了創(chuàng)新的“VAST(Video As Storyboard from Text)二階段視頻生成技術(shù)”,實(shí)現(xiàn)了從文本描述到視頻內(nèi)容的無(wú)縫轉(zhuǎn)化。具體來(lái)說(shuō),該技術(shù)首先通過(guò)
    的頭像 發(fā)表于 12-13 15:40 ?840次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無(wú)疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著
    的頭像 發(fā)表于 12-12 09:40 ?1039次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統(tǒng)Sora已正式向美國(guó)及其他市場(chǎng)的ChatGPT Plus訂閱用戶開放。自去年首次公開預(yù)覽以來(lái),Sora歷經(jīng)約10個(gè)月的精心研發(fā)與優(yōu)化,現(xiàn)已全面
    的頭像 發(fā)表于 12-10 11:16 ?1050次閱讀