chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點

OpenCV學堂 ? 來源:新智元 ? 2024-02-20 10:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2023年,也是AI視頻元年。過去一年究竟有哪些爆款應用誕生,未來視頻生成領(lǐng)域面臨的難題還有哪些?

過去一年,AI視頻領(lǐng)域我們見證了,Gen-2、Pika等爆款產(chǎn)品的誕生。

來自a16z的Justine Moore,詳細盤點了人工智能視頻生成領(lǐng)域的現(xiàn)狀、不同模型比較,以及還未解決的技術(shù)挑戰(zhàn)。

4889e5b4-cf38-11ee-a297-92fbcf53809c.png

接下來,一起看看這篇文章都講了什么?

4899c13c-cf38-11ee-a297-92fbcf53809c.png

AI視頻生成大爆發(fā)

2023年是AI視頻取得突破的一年。不過,今年過去了一個月,暫未有公開的文本到視頻的模型。

短短12個月,數(shù)十種視頻生成產(chǎn)品受到了全球數(shù)以萬計的用戶的青睞。

不過,這些AI視頻生成工具仍相對有限,多數(shù)只能生成3-4秒的視頻,同時質(zhì)量往往參差不齊,角色一致性等問題尚未解決。

也就是說,我們還遠不能制作出一個只有文字提示,甚至多個提示的皮克斯級別的短片。

然而,我們在過去一年中在視頻生成方面取得的進步表明,世界正處于一場大規(guī)模變革的早期階段——與我們在圖像生成方面看到的情況類似。

我們看到,文本到視頻的模型在不斷改進,圖像到視頻,以及視頻到視頻等分支也在蓬勃發(fā)展。

為了幫助了解這一創(chuàng)新的爆炸式增長,a16z追蹤了到目前為止最需要關(guān)注的公司,以及該領(lǐng)域仍然存在的潛在問題。

wKgaomXUEVyANWD1AAMVy8_kLxk520.jpg

今天,你可以在哪里生成AI視頻?

21個視頻生成產(chǎn)品

今年到目前為止,a16z已經(jīng)跟蹤了21種公開產(chǎn)品。

雖然你可能聽說過Runway、Pika、Genmo和Stable Video Diffusion,但還有許多其他的東西需要探索。

wKgZomXUEVyARFiOAARAYxTYoKQ858.jpg

這些產(chǎn)品大多來自初創(chuàng)公司,其中許多都是從Discord bots,有以下幾個優(yōu)勢:

不需要構(gòu)建自己面向消費者的界面,只需專注于模型質(zhì)量

可以利用Discord每月1.5億活躍用戶的基礎(chǔ)進行分發(fā)

公共渠道為新用戶提供了一種簡便的方式,讓他們獲得創(chuàng)作靈感(通過查看他人的創(chuàng)作)

然而,隨著技術(shù)成熟,我們開始看到越來越多的AI視頻產(chǎn)品建立自己的網(wǎng)站,甚至是App。

隨著Discord提供了一個很好的平臺,但在純生成之上添加的工作流而言,卻是有限的,并且團隊對消費者體驗的控制很少。

值得注意的是,還有很大一部分人不使用Discord,因其覺得界面混亂讓人困惑。

研究和技術(shù)

谷歌、Meta和其他公司在哪里?

在公開的產(chǎn)品列表中,他們顯然沒有出現(xiàn)--盡管你可能已經(jīng)看到了他們發(fā)布的關(guān)于Emu Video、VideoPoet 和 Lumiere等模型的帖子。

到目前為止,大型科技公司基本上都不選擇公開自家的AI視頻產(chǎn)品。

取而代之的是,他們發(fā)表了各種相關(guān)的視頻生成的論文,而沒有選擇視頻演示。

比如,谷歌文本生成視頻的模型Lumiere

48c7ff52-cf38-11ee-a297-92fbcf53809c.png

這些公司有著巨大的分銷優(yōu)勢,其產(chǎn)品擁有數(shù)十億用戶。

那么,他們?yōu)槭裁床环艞壈l(fā)布視頻模型,而在這一新興類別市場中奪取巨大份額。

最主要的原因還是,法律、安全和版權(quán)方面的擔憂,往往使這些大公司很難將研究轉(zhuǎn)化為產(chǎn)品,并推遲推出。如此一來,讓新來者有機會獲得先發(fā)優(yōu)勢。

AI視頻的下一步是什么?

如果你曾使用過這些產(chǎn)品,便知道在AI視頻進入主流產(chǎn)品之前,仍然有很大的改進空間。

有時會發(fā)現(xiàn),AI視頻工具可以將提示內(nèi)容生成視頻的「神奇時刻」,但這種情況相對較少見。更常見的情況是,你需要點擊幾次重新生成,然后裁剪或編輯輸出,才能獲得專業(yè)級別的片段。

這一領(lǐng)域的大多數(shù)公司都專注于解決一些核心的問題:

控制性:你能否同時控制場景中發(fā)生的事情,(比如,提示「有人向前走」,動作是否如描述的那樣?)關(guān)于后一點,許多產(chǎn)品都增加了一些功能,允許你對鏡頭zoom或pan,甚至添加特效。

「動作是否如描述的那樣」一直較難解決:這涉及到底層模型的質(zhì)量問題(模型是否理解提示的含義并能按要求生成),盡管一些公司正在努力在生成前提供更多的用戶控制。

比如,Runway的motion brush就是一個很好的例子,它允許用戶高粱圖像的特定區(qū)域并確定其運動方式。

時間一致性:如何讓角色、對象和背景在幀之間保持一致,而不會變形為其他東西或扭曲?

在所有公開提供的模型中,這是一個非常常見的問題。

如果你今天看到一段時間連貫的視頻,時長超過幾秒,很可能是視頻到視頻,通過拍攝一段視頻,然后用AnimateDiff prompt travel之類的工具來改變風格。

長度——制作長時間的短片與時間連貫性高度相關(guān)。

許多公司會限制生成視頻的長度,因為他們不能確保幾分鐘后依然視頻保持一致性。

如果當你看到一個超長的AI視頻,要知道它們是由一堆短片段組成的。

尚未解決的問題

視頻的ChatGPT時刻什么時候到來?

其實我們還有很長的路要走,需要回答以下幾個問題:

1 當前的擴散架構(gòu)是否適用于視頻?

今天的視頻模型是基于擴散模型搭建的:它們基本原理是生成幀,并試圖在它們之間創(chuàng)建時間一致的動畫(有多種策略可以做到這一點)。

他們對3D空間和對象應該如何交互沒有內(nèi)在的理解,這解釋了warping / morphing。

2 優(yōu)質(zhì)訓練數(shù)據(jù)從何而來?

與其他模態(tài)模型相比,訓練視頻模型更難,這主要是因為視頻模型沒有那么多高質(zhì)量的訓練數(shù)據(jù)可供學習。語言模型通常在公共數(shù)據(jù)集(如Common Crawl)上進行訓練,而圖像模型則在LAION和ImageNet等標記數(shù)據(jù)集(文本-圖像對)上進行訓練。

視頻數(shù)據(jù)更難獲得。雖然在YouTube和TikTok等平臺上不乏公開可訪問的視頻,但這些視頻沒有標簽,也不夠多樣化。

3 這些用例將如何在平臺/模型之間進行細分?

我們在幾乎每一種內(nèi)容模態(tài)中看到的是,一種模型并不是對所有用例都「取勝」的。例如,MidTrik、Idegraph和Dall-E都有不同的風格,并擅長生成不同類型的圖像。

如果你測試一下今天的文本到視頻和圖像到視頻模式,就會發(fā)現(xiàn)它們擅長不同的風格、運動類型和場景構(gòu)成。

誰將主導視頻制作的工作流程?

而在許多產(chǎn)品之間,來回是沒有意義的。

除了純粹的視頻生成,制作好的剪輯或電影通常需要編輯,特別是在當前的范例中,許多創(chuàng)作者正在使用視頻模型來制作在另一個平臺上創(chuàng)建的照片的動畫。

從Midjourney的圖像開始,在Runway或Pika上制作動畫,然后在Topz上進行升級的視頻并不少見。

然后,創(chuàng)作者將視頻帶到CapCut或Kapwing等編輯平臺,并添加配樂和畫外音,通常是在Suno和ElevenLabs等其他產(chǎn)品上生成的。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50109

    瀏覽量

    265565
  • ChatGPT
    +關(guān)注

    關(guān)注

    31

    文章

    1598

    瀏覽量

    10297

原文標題:AI視頻年大爆發(fā)!Gen-2/Pika成時代爆款,2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    在過去幾年中,人工智能的基礎(chǔ)設(shè)施部署重心正經(jīng)歷一場深刻的轉(zhuǎn)移。如果說2020的關(guān)鍵詞是“大模型訓練”,2023的關(guān)鍵詞是“推理下沉”,那么2025-2026的關(guān)鍵詞無疑是 “邊緣
    發(fā)表于 03-10 14:19

    SeaVerse發(fā)布全球首個AI Native平臺,“All in AI Native”引領(lǐng)AI創(chuàng)作前瞻革命

    20261月10日,SeaVerse宣布全球發(fā)布SeaVerse AI平臺。這是全球首個AI原生的創(chuàng)建和部署平臺,集合大語言模型、圖像生成、視頻生
    的頭像 發(fā)表于 01-14 17:41 ?1261次閱讀

    富士通入選2025Gartner生成AI工程新興市場象限領(lǐng)導者

    Gartner公司于202511月13日發(fā)布了《Gartner 生成AI工程創(chuàng)新指南 (Gartner Innovation Guide for Generative AI
    的頭像 發(fā)表于 12-02 11:50 ?838次閱讀
    富士通入選2025<b class='flag-5'>年</b>Gartner<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>工程新興市場象限領(lǐng)導者

    2025高性能無線視頻傳輸模塊廠商及應用方案深度解析

    傳輸模塊市場呈現(xiàn)技術(shù)創(chuàng)新加速、應用領(lǐng)域多元化的特點。本文基于權(quán)威數(shù)據(jù)平臺的分析,全面盤點主要廠商、技術(shù)對比及應用方案,為行業(yè)提供參考。 一、全球無線視頻傳輸模塊市場現(xiàn)狀與趨勢 根據(jù) M
    的頭像 發(fā)表于 11-10 14:59 ?751次閱讀

    全球首個動漫專屬AI視頻生成平臺Animon,國內(nèi)版&quot;萌動AI&quot;正式發(fā)布

    Animon國內(nèi)版——"萌動AI"首秀:AI動漫創(chuàng)作進入全民時代 北京20259月25日?/美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首個專注于動漫的AI
    的頭像 發(fā)表于 09-25 12:33 ?964次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    和關(guān)聯(lián)性 AI驅(qū)動科學:研究和模擬人類思維和認識過程。 本章節(jié)作者為我們講解了第五范式,介紹了科學發(fā)現(xiàn)的一般方法和流程等。一、科學發(fā)現(xiàn)的5個范式 第一范式:產(chǎn)生于公元1000左右的阿拉伯世界和歐洲
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    當今社會,AI已經(jīng)發(fā)展很迅速了,但是你了解AI的發(fā)展歷程嗎?本章作者將為我們打開AI的發(fā)展歷程以及需求和挑戰(zhàn)的面紗。 從2017開始生成
    發(fā)表于 09-12 16:07

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    保持停滯的情況下,依照目前計算機的能耗效率,至少還需要30的努力才接近其水準,見圖1所示。 圖1 大腦與計算機的能量效率對比 圖2 類腦芯片的前瞻性研究領(lǐng)域AI濕件 為此,一些想法超前的科學家
    發(fā)表于 09-06 19:12

    AI視頻分析系統(tǒng)

    方案背景人工智能大時代背景下,視頻應用領(lǐng)域相關(guān)的行業(yè)應用方式已經(jīng)發(fā)生了深刻的變化,各論安防監(jiān)控還是各類垂直行業(yè)視頻應用,都需要AI視覺分析與識別技術(shù)助力,而且需求廣泛而迫切。在應用層面
    的頭像 發(fā)表于 08-06 14:39 ?950次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>視頻</b>分析系統(tǒng)

    2025智能視頻監(jiān)控行業(yè)發(fā)展現(xiàn)狀調(diào)研及市場前景深度分析

    2025智能視頻監(jiān)控技術(shù)加速融合AI、5G等技術(shù),推動行業(yè)向智慧城市、工業(yè)互聯(lián)網(wǎng)等場景拓展,市場前景廣闊。
    的頭像 發(fā)表于 07-24 09:25 ?919次閱讀

    4K、多模態(tài)、長視頻AI視頻生成的下一個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080P高品質(zhì)
    的頭像 發(fā)表于 06-16 00:13 ?7304次閱讀

    AKOOL發(fā)布全球首款實時攝像頭

    近日,硅谷新銳公司AKOOL發(fā)布全球首款實時攝像頭Akool Live Camera,集虛擬數(shù)字人、AI視頻翻譯、實時換臉、實時AI視頻生成四大功能于一身,重新定義了
    的頭像 發(fā)表于 06-09 16:30 ?2235次閱讀

    AI驅(qū)動半導體產(chǎn)業(yè)爆發(fā)式增長 2030全球產(chǎn)值或突破萬億美元大關(guān)

    ,全球半導體行業(yè)總產(chǎn)值有望達到1萬億美元規(guī)模,其中AI相關(guān)應用將貢獻近半壁江山。2024被業(yè)界普遍視為"AI元年",生成AI技術(shù)的
    的頭像 發(fā)表于 05-16 11:09 ?1504次閱讀
    <b class='flag-5'>AI</b>驅(qū)動半導體產(chǎn)業(yè)<b class='flag-5'>爆發(fā)</b>式增長 2030<b class='flag-5'>年</b>全球產(chǎn)值或突破萬億美元大關(guān)

    2025開啟AI智能體規(guī)模應用

    2025,AI 領(lǐng)域的熱議話題已經(jīng)從大語言模型(LLMs)轉(zhuǎn)向了 AI 智能體(AI Agent)。根據(jù) Gartner 最新預測,企業(yè)
    的頭像 發(fā)表于 05-09 11:09 ?1281次閱讀

    AI看點:可靈AI累計營收超1億元 李書福用“黑科技”脫稿演講 蘿卜快跑獲新加坡副總理點贊

    給大家?guī)硪恍?b class='flag-5'>AI相關(guān)資訊: 可靈AI累計營收超1億元 可靈AI是一款視頻生成大模型應用,輸入文字即可生成
    的頭像 發(fā)表于 03-26 11:55 ?885次閱讀