chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌研究人員利用3D卷積網(wǎng)絡(luò)打造視頻生成新系統(tǒng)

DPVg_AI_era ? 來源:lq ? 2019-06-02 09:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌研究人員利用3D卷積網(wǎng)絡(luò)打造視頻生成新系統(tǒng),只需要視頻的第一幀和最后一幀,就能生成完整合理的整段視頻,是不是很神奇?

漫畫書秒變動畫片了解一下?

想象一下,現(xiàn)在你的手中有一段視頻的第一幀和最后一幀圖像,讓你負(fù)責(zé)把中間的圖像填進去,生成完整的視頻,從現(xiàn)有的有限信息中推斷出整個視頻。你能做到嗎?

這可能聽起來像是一項不可能完成的任務(wù),但谷歌人工智能研究部門的研究人員已經(jīng)開發(fā)出一種新系統(tǒng),可以由視頻第一幀和最后一幀生成“似是而非的”視頻序列,這個過程被稱為“inbetween”。

“想象一下,如果我們能夠教一個智能系統(tǒng)來將漫畫自動變成動畫,會是什么樣子?如果真實現(xiàn)了這一點,無疑將徹底改變動畫產(chǎn)業(yè)?!霸撜撐牡墓餐髡邔懙馈!半m然這種極其節(jié)省勞動力的能力仍然超出目前最先進的水平,但計算機視覺機器學(xué)習(xí)技術(shù)的進步正在使這個目標(biāo)的實現(xiàn)越來越接近?!?/p>

原理與模型結(jié)構(gòu)

這套AI系統(tǒng)包括一個完全卷積模型,這是是受動物視覺皮層啟發(fā)打造的深度神經(jīng)網(wǎng)絡(luò),最常用于分析視覺圖像。它由三個部分組成:2D卷積圖像解碼器,3D卷積潛在表示生成器,以及視頻生成器。

圖1:視頻生成模型示意圖

圖像解碼器將來自目標(biāo)視頻的幀映射到潛在空間,潛在表示生成器學(xué)習(xí)對包含在輸入幀中的信息進行合并。最后,視頻生成器將潛在表示解碼為視頻中的幀。

研究人員表示,將潛在表示生成與視頻解碼分離對于成功實現(xiàn)中間視頻至關(guān)重要,直接用開始幀和結(jié)束幀的編碼表示生成視頻的結(jié)果很差。為了解決這個問題,研究人員設(shè)計了潛在表示生成器,對幀的表示進行融合,并逐步增加生成視頻的分辨率。

圖2:模型生成的視頻幀序列圖,對于每個數(shù)據(jù)集上方的圖表示模型生成的序列,下方為原視頻,其中首幀和尾幀用于生成模型的采樣。

實驗結(jié)果

為了驗證該方法,研究人員從三個數(shù)據(jù)集中獲取視頻 - BAIR機器人推送,KTH動作數(shù)據(jù)庫和UCF101動作識別數(shù)據(jù)集 - 并將這些數(shù)據(jù)下采樣至64 x 64像素的分辨率。每個樣本總共包含16幀,其中的14幀由AI系統(tǒng)負(fù)責(zé)生成。

研究人員為每對視頻幀運行100次模型,并對每個模型變量和數(shù)據(jù)集重復(fù)10次,在英偉達Tesla V100顯卡平臺上的訓(xùn)練時間約為5天。結(jié)果如下表所示:

表1:我們報告了完整模型和兩個基線的平均FVD,對每個模型和數(shù)據(jù)集重復(fù)10次,每次運行100個epoch,表中FVD值越低,表示對應(yīng)生成視頻的質(zhì)量越高。

表2:使用直接3D卷積和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),數(shù)值越高越好。

研究人員表示,AI生成的視頻幀序列在風(fēng)格上與給定的起始幀和結(jié)束幀保持一致,而且看上去說得通。“令人驚喜的是,這種方法可以在如此長的時間段內(nèi)實現(xiàn)視頻生成,”該團隊表示,“這可能給未來的視頻生成技術(shù)研究提供了一個有用的替代視角。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1201

    瀏覽量

    42840
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6244

    瀏覽量

    110206
  • 智能系統(tǒng)
    +關(guān)注

    關(guān)注

    2

    文章

    416

    瀏覽量

    74117

原文標(biāo)題:谷歌AI動畫接龍:只用頭尾兩幀圖像,片刻生成完整視頻!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    索尼與VAST達成3D業(yè)務(wù)合作

    與Tripo AI的高精度3D生成能力,打造從內(nèi)容創(chuàng)作到沉浸式展示的全鏈路解決方案。此次合作將推動3D技術(shù)在展覽、零售、教育等場景的普惠化應(yīng)用,同時也將為元宇宙、工業(yè)設(shè)計、數(shù)字孿生等領(lǐng)
    的頭像 發(fā)表于 08-28 17:32 ?1004次閱讀

    4K、多模態(tài)、長視頻:AI視頻生成的下一個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可生成多鏡頭無縫切換的1080P高品質(zhì)
    的頭像 發(fā)表于 06-16 00:13 ?6875次閱讀

    VirtualLab Fusion應(yīng)用:3D系統(tǒng)可視化

    描述和F-Theta透鏡的應(yīng)用示例。 光學(xué)系統(tǒng)3D-可視化 VirtualLab Fusion提供的工具可以實現(xiàn)光學(xué)系統(tǒng)3D可視化,因此可以用于檢查元件的位置,以及快速了解
    發(fā)表于 04-30 08:47

    NVIDIA助力影眸科技3D生成工具Rodin升級

    在當(dāng)今數(shù)字化與 AI 飛速發(fā)展的時代,3D 生成技術(shù)正逐漸成為推動各行業(yè)創(chuàng)新的關(guān)鍵力量。影眸科技(上海)有限公司專注于 3D 生成領(lǐng)域的探索,積極推動領(lǐng)先實驗室科研成果的民用化、商業(yè)化
    的頭像 發(fā)表于 04-27 15:09 ?998次閱讀

    一種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是一個關(guān)鍵組件,它在端側(cè)幫助可以幫助智能體理解環(huán)境信息,在云端可以用來輔助生成3D場景和3D標(biāo)簽,具備重要的
    的頭像 發(fā)表于 03-17 13:44 ?945次閱讀
    一種以圖像為中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    ?超景深3D檢測顯微鏡技術(shù)解析

    為一個完整的三維模型。這種技術(shù)不僅提升了成像的精度,還大大擴展了顯微鏡的應(yīng)用范圍。 在材料科學(xué)領(lǐng)域,超景深3D檢測顯微鏡為研究人員提供了觀察材料微觀結(jié)構(gòu)的強大工具。例如,在納米材料的研究中,科學(xué)家可以
    發(fā)表于 02-25 10:51

    騰訊混元3D AI創(chuàng)作引擎正式發(fā)布

    的AI技術(shù),能夠根據(jù)用戶提供的提示詞或圖片,直接生成高質(zhì)量的3D模型。這一功能極大地降低了3D內(nèi)容創(chuàng)作的門檻,使得即使是缺乏專業(yè)3D建模技能的用戶也能輕松創(chuàng)作出令人驚嘆的
    的頭像 發(fā)表于 01-23 10:33 ?963次閱讀

    騰訊混元3D AI創(chuàng)作引擎正式上線

    近日,騰訊公司宣布其自主研發(fā)的混元3D AI創(chuàng)作引擎已正式上線。這一創(chuàng)新性的創(chuàng)作工具,標(biāo)志著騰訊在3D內(nèi)容生成領(lǐng)域邁出了重要一步。 混元3D AI創(chuàng)作引擎的核心功能極為強大,用戶只需通
    的頭像 發(fā)表于 01-22 10:26 ?934次閱讀

    阿里云通義萬相2.1視頻生成模型震撼發(fā)布

    近日,阿里云旗下的通義萬相迎來了重要升級,正式推出了全新的萬相2.1視頻生成模型。這一創(chuàng)新成果標(biāo)志著阿里云在視頻生成技術(shù)領(lǐng)域的又一次重大突破。 據(jù)悉,萬相2.1視頻生成模型在多個方面實現(xiàn)了顯著提升
    的頭像 發(fā)表于 01-13 10:00 ?1115次閱讀

    光學(xué)系統(tǒng)3D可視化

    Results Profile提供有關(guān)傳播光線的信 息,而后者只顯示組件和探測器。 在接下來的使用案例中,我們將重點介紹 System:3D視圖。 系統(tǒng):Ray Results Profile的3D
    發(fā)表于 01-06 08:53

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應(yīng)用程序接口(API)的計劃。Sora模型能夠基于文本和圖像生成視頻,引發(fā)了廣泛關(guān)注。然而,由于訪問量遠超預(yù)期,OpenAI此前不得不緊急
    的頭像 發(fā)表于 12-20 14:23 ?952次閱讀

    中國電信發(fā)布自研視頻生成大模型

    ,中國電信隆重發(fā)布了首個由央企全自研的視頻生成大模型。該模型采用了創(chuàng)新的“VAST(Video As Storyboard from Text)二階段視頻生成技術(shù)”,實現(xiàn)了從文本描述到視頻內(nèi)容的無縫轉(zhuǎn)化。具體來說,該技術(shù)首先通過
    的頭像 發(fā)表于 12-13 15:40 ?840次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發(fā)表于 12-12 09:40 ?1039次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統(tǒng)Sora已正式向美國及其他市場的ChatGPT Plus訂閱用戶開放。自去年首次公開預(yù)覽以來,Sora歷經(jīng)約10個月的精心研發(fā)與優(yōu)化,現(xiàn)已全面
    的頭像 發(fā)表于 12-10 11:16 ?1050次閱讀

    Google DeepMind發(fā)布Genie 2:打造交互式3D虛擬世界

    的交互式體驗。 據(jù)了解,Genie 2是一個自回歸潛在擴散模型,它基于大型視頻數(shù)據(jù)集進行訓(xùn)練。通過自動編碼器,視頻中的潛在幀被傳遞到大型Transformer動力學(xué)模型中。該模型采用與大語言模型類似的因果掩碼進行訓(xùn)練,從而實現(xiàn)了對3D
    的頭像 發(fā)表于 12-05 14:16 ?1565次閱讀