chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌研究人員利用3D卷積網(wǎng)絡打造視頻生成新系統(tǒng)

DPVg_AI_era ? 來源:lq ? 2019-06-02 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌研究人員利用3D卷積網(wǎng)絡打造視頻生成新系統(tǒng),只需要視頻的第一幀和最后一幀,就能生成完整合理的整段視頻,是不是很神奇?

漫畫書秒變動畫片了解一下?

想象一下,現(xiàn)在你的手中有一段視頻的第一幀和最后一幀圖像,讓你負責把中間的圖像填進去,生成完整的視頻,從現(xiàn)有的有限信息中推斷出整個視頻。你能做到嗎?

這可能聽起來像是一項不可能完成的任務,但谷歌人工智能研究部門的研究人員已經(jīng)開發(fā)出一種新系統(tǒng),可以由視頻第一幀和最后一幀生成“似是而非的”視頻序列,這個過程被稱為“inbetween”。

“想象一下,如果我們能夠教一個智能系統(tǒng)來將漫畫自動變成動畫,會是什么樣子?如果真實現(xiàn)了這一點,無疑將徹底改變動畫產(chǎn)業(yè)。“該論文的共同作者寫道。“雖然這種極其節(jié)省勞動力的能力仍然超出目前最先進的水平,但計算機視覺機器學習技術(shù)的進步正在使這個目標的實現(xiàn)越來越接近。”

原理與模型結(jié)構(gòu)

這套AI系統(tǒng)包括一個完全卷積模型,這是是受動物視覺皮層啟發(fā)打造的深度神經(jīng)網(wǎng)絡,最常用于分析視覺圖像。它由三個部分組成:2D卷積圖像解碼器,3D卷積潛在表示生成器,以及視頻生成器。

圖1:視頻生成模型示意圖

圖像解碼器將來自目標視頻的幀映射到潛在空間,潛在表示生成器學習對包含在輸入幀中的信息進行合并。最后,視頻生成器將潛在表示解碼為視頻中的幀。

研究人員表示,將潛在表示生成與視頻解碼分離對于成功實現(xiàn)中間視頻至關重要,直接用開始幀和結(jié)束幀的編碼表示生成視頻的結(jié)果很差。為了解決這個問題,研究人員設計了潛在表示生成器,對幀的表示進行融合,并逐步增加生成視頻的分辨率。

圖2:模型生成的視頻幀序列圖,對于每個數(shù)據(jù)集上方的圖表示模型生成的序列,下方為原視頻,其中首幀和尾幀用于生成模型的采樣。

實驗結(jié)果

為了驗證該方法,研究人員從三個數(shù)據(jù)集中獲取視頻 - BAIR機器人推送,KTH動作數(shù)據(jù)庫和UCF101動作識別數(shù)據(jù)集 - 并將這些數(shù)據(jù)下采樣至64 x 64像素的分辨率。每個樣本總共包含16幀,其中的14幀由AI系統(tǒng)負責生成。

研究人員為每對視頻幀運行100次模型,并對每個模型變量和數(shù)據(jù)集重復10次,在英偉達Tesla V100顯卡平臺上的訓練時間約為5天。結(jié)果如下表所示:

表1:我們報告了完整模型和兩個基線的平均FVD,對每個模型和數(shù)據(jù)集重復10次,每次運行100個epoch,表中FVD值越低,表示對應生成視頻的質(zhì)量越高。

表2:使用直接3D卷積和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),數(shù)值越高越好。

研究人員表示,AI生成的視頻幀序列在風格上與給定的起始幀和結(jié)束幀保持一致,而且看上去說得通?!傲钊梭@喜的是,這種方法可以在如此長的時間段內(nèi)實現(xiàn)視頻生成,”該團隊表示,“這可能給未來的視頻生成技術(shù)研究提供了一個有用的替代視角?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1176

    瀏覽量

    42002
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108177
  • 智能系統(tǒng)

    關注

    2

    文章

    407

    瀏覽量

    73318

原文標題:谷歌AI動畫接龍:只用頭尾兩幀圖像,片刻生成完整視頻!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    4K、多模態(tài)、長視頻:AI視頻生成的下一個戰(zhàn)場,誰在領跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080P高品質(zhì)
    的頭像 發(fā)表于 06-16 00:13 ?6276次閱讀

    NVIDIA助力影眸科技3D生成工具Rodin升級

    在當今數(shù)字化與 AI 飛速發(fā)展的時代,3D 生成技術(shù)正逐漸成為推動各行業(yè)創(chuàng)新的關鍵力量。影眸科技(上海)有限公司專注于 3D 生成領域的探索,積極推動領先實驗室科研成果的民用化、商業(yè)化
    的頭像 發(fā)表于 04-27 15:09 ?537次閱讀

    ?超景深3D檢測顯微鏡技術(shù)解析

    為一個完整的三維模型。這種技術(shù)不僅提升了成像的精度,還大大擴展了顯微鏡的應用范圍。 在材料科學領域,超景深3D檢測顯微鏡為研究人員提供了觀察材料微觀結(jié)構(gòu)的強大工具。例如,在納米材料的研究中,科學家可以
    發(fā)表于 02-25 10:51

    騰訊混元3D AI創(chuàng)作引擎正式上線

    近日,騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具,標志著騰訊在3D內(nèi)容生成領域邁出了重要一步。 混元3D AI創(chuàng)作引擎的核心功能極為強大,用戶只需通
    的頭像 發(fā)表于 01-22 10:26 ?601次閱讀

    阿里云通義萬相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬相迎來了重要升級,正式推出了全新的萬相2.1視頻生成模型。這一創(chuàng)新成果標志著阿里云在視頻生成技術(shù)領域的又一次重大突破。 據(jù)悉,萬相2.1視頻生成模型在多個方面實現(xiàn)了顯著提升
    的頭像 發(fā)表于 01-13 10:00 ?838次閱讀

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型能夠基于文本和圖像生成視頻,引發(fā)了廣泛關注。然而,由于訪問量遠超預期,OpenAI此前不得不緊急
    的頭像 發(fā)表于 12-20 14:23 ?533次閱讀

    中國電信發(fā)布自研視頻生成大模型

    ,中國電信隆重發(fā)布了首個由央企全自研的視頻生成大模型。該模型采用了創(chuàng)新的“VAST(Video As Storyboard from Text)二階段視頻生成技術(shù)”,實現(xiàn)了從文本描述到視頻內(nèi)容的無縫轉(zhuǎn)化。具體來說,該技術(shù)首先通過
    的頭像 發(fā)表于 12-13 15:40 ?556次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發(fā)表于 12-12 09:40 ?721次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統(tǒng)Sora已正式向美國及其他市場的ChatGPT Plus訂閱用戶開放。自去年首次公開預覽以來,Sora歷經(jīng)約10個月的精心研發(fā)與優(yōu)化,現(xiàn)已全面
    的頭像 發(fā)表于 12-10 11:16 ?745次閱讀

    Google DeepMind發(fā)布Genie 2:打造交互式3D虛擬世界

    的交互式體驗。 據(jù)了解,Genie 2是一個自回歸潛在擴散模型,它基于大型視頻數(shù)據(jù)集進行訓練。通過自動編碼器,視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該模型采用與大語言模型類似的因果掩碼進行訓練,從而實現(xiàn)了對3D
    的頭像 發(fā)表于 12-05 14:16 ?1040次閱讀

    卷積神經(jīng)網(wǎng)絡的實現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡因其在圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術(shù)的快速發(fā)展,多種實現(xiàn)工具和框架應運而生,為研究人員和開發(fā)者提供了強大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?672次閱讀

    字節(jié)跳動自研視頻生成模型Seaweed開放

    近日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標志著字節(jié)跳動在AI視頻領域邁出了堅實的一步。
    的頭像 發(fā)表于 11-11 14:31 ?704次閱讀

    今日看點丨Vishay裁員800人,關閉上海等三家工廠;字節(jié)跳動發(fā)布兩款視頻生成大模型

    1. 字節(jié)跳動發(fā)布兩款視頻生成大模型 面向企業(yè)市場開啟邀測 ? 9月24日,字節(jié)跳動旗下火山引擎發(fā)布兩款視頻生成大模型(豆包視頻生成-PixelDance、豆包視頻生成-Seaweed
    發(fā)表于 09-25 15:48 ?953次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這一舉措標志著火山引擎在視頻內(nèi)容生成領域邁出了重要一步。豆包模型憑借其獨特的技術(shù)優(yōu)勢,吸引了業(yè)界的廣泛關注。
    的頭像 發(fā)表于 09-25 14:11 ?651次閱讀

    阿里通義將發(fā)布視頻生成大模型

    在即將召開的云棲大會上,阿里通義將震撼發(fā)布其自主研發(fā)的視頻生成大模型。目前,用戶已可通過通義App頻道及通義萬相PC端預約體驗這一創(chuàng)新功能,盡管具體使用尚未開放。
    的頭像 發(fā)表于 09-19 17:01 ?613次閱讀