chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌新作Muse:通過(guò)掩碼生成Transformer進(jìn)行文本到圖像生成

CVer ? 來(lái)源:機(jī)器之心 ? 2023-01-09 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖像生成領(lǐng)域越來(lái)越卷了!

文本到圖像生成是 2022 年最火的 AIGC 方向之一,被《science》評(píng)選為 2022 年度十大科學(xué)突破。最近,谷歌的一篇文本到圖像生成新論文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度關(guān)注。

e250c8d6-8f6d-11ed-bfe3-dac502259ad0.png

Muse: Text-To-Image Generation via Masked Generative Transformers

論文地址:https://arxiv.org/abs/2301.00704

項(xiàng)目地址:https://muse-model.github.io/

該研究提出了一種使用掩碼圖像建模方法進(jìn)行文本到圖像合成的新模型,其中的圖像解碼器架構(gòu)以來(lái)自預(yù)訓(xùn)練和 frozen T5-XXL 大型語(yǔ)言模型 (LLM) 編碼器的嵌入為條件。

與谷歌先前的 Imagen 模型類似,該研究發(fā)現(xiàn)基于預(yù)訓(xùn)練 LLM 進(jìn)行調(diào)整對(duì)于逼真、高質(zhì)量的圖像生成至關(guān)重要。Muse 模型是建立在 Transformer (Vaswani et al., 2017) 架構(gòu)之上。

與建立在級(jí)聯(lián)像素空間(pixel-space)擴(kuò)散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了離散 token,效率顯著提升。與 SOTA 自回歸模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解碼而效率更高。

基于在 TPU-v4 上的實(shí)驗(yàn)結(jié)果,研究者估計(jì) Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者認(rèn)為:Muse 比 Stable Diffusion 推理速度更快是因?yàn)?Stable Diffusion v1.4 中使用了擴(kuò)散模型,在推理時(shí)明顯需要更多次迭代。

另一方面,Muse 效率的提升沒(méi)有造成生成圖像質(zhì)量下降、模型對(duì)輸入文本 prompt 的語(yǔ)義理解能力降低的問(wèn)題。該研究根據(jù)多個(gè)標(biāo)準(zhǔn)評(píng)估了 Muse 的生成結(jié)果,包括 CLIP 評(píng)分 (Radford et al., 2021) 和 FID (Heusel et al., 2017)。Muse-3B 模型在 COCO (Lin et al., 2014) 零樣本驗(yàn)證基準(zhǔn)上取得了 0.32 的 CLIP 分?jǐn)?shù)和 7.88 的 FID 分?jǐn)?shù)。

下面我們看看 Muse 生成效果:

文本 - 圖像生成:Muse 模型從文本提示快速生成高質(zhì)量的圖像(在 TPUv4 上,對(duì)于 512x512 分辨率的圖像需要時(shí)間為 1.3 秒,生成 256x256 分辨率的圖像需要時(shí)間為 0.5 秒)。例如生成「一只熊騎著自行車,一只鳥棲息在車把上」:

Muse 模型通過(guò)對(duì)文本提示條件下的圖像 token 進(jìn)行迭代重新采樣,為用戶提供了零樣本、無(wú)掩碼編輯(mask-free editing)。

e26c3f76-8f6d-11ed-bfe3-dac502259ad0.gif

Muse 還提供了基于掩碼的編輯,例如「在美麗的秋葉映照下,有一座涼亭在湖上」。

e27be764-8f6d-11ed-bfe3-dac502259ad0.png

模型簡(jiǎn)介

Muse 建立在許多組件之上,圖 3 提供了模型體系架構(gòu)概述。

e28c6774-8f6d-11ed-bfe3-dac502259ad0.png

具體而言所包含的組件有:

預(yù)訓(xùn)練文本編碼器:該研究發(fā)現(xiàn)利用預(yù)訓(xùn)練大型語(yǔ)言模型(LLM)可以提高圖像生成質(zhì)量。他們假設(shè),Muse 模型學(xué)會(huì)了將 LLM 嵌入中的豐富視覺(jué)和語(yǔ)義概念映射到生成的圖像。給定一個(gè)輸入文本字幕,該研究將其通過(guò)凍結(jié)的 T5-XXL 編碼器,得到一個(gè) 4096 維語(yǔ)言嵌入向量序列。這些嵌入向量線性投影到 Transformer 模型。

使用 VQGAN 進(jìn)行語(yǔ)義 Tokenization:該模型的核心組件是使用從 VQGAN 模型獲得的語(yǔ)義 token。其中,VQGAN 由一個(gè)編碼器和一個(gè)解碼器組成,一個(gè)量化層將輸入圖像映射到一個(gè)學(xué)習(xí)碼本中的 token 序列。該研究全部使用卷積層構(gòu)建編碼器和解碼器,以支持對(duì)不同分辨率圖像進(jìn)行編碼。

基礎(chǔ)模型:基礎(chǔ)模型是一個(gè)掩碼 transformer,其中輸入是投影到 T5 的嵌入和圖像 token。該研究保留所有的文本嵌入(unmasked),隨機(jī)掩碼不同比例的圖像 token,并用一個(gè)特殊的 [mask] token 替換它們。

超分辨率模型:該研究發(fā)現(xiàn)使用級(jí)聯(lián)模型是有益的:首先是生成 16 × 16 潛在映射(對(duì)應(yīng)于 256 × 256 圖像)的基礎(chǔ)模型,然后是將基礎(chǔ)的潛在映射上采樣到的超分辨率模型,也就是 64 × 64 的潛在映射(對(duì)應(yīng)于一個(gè) 512 × 512 的圖像)。

e2d550ce-8f6d-11ed-bfe3-dac502259ad0.png

解碼器微調(diào):為了進(jìn)一步提高模型生成精細(xì)細(xì)節(jié)的能力,該研究通過(guò)添加更多的殘差層和通道來(lái)增加 VQGAN 解碼器的容量,同時(shí)保持編碼器容量不變。然后微調(diào)新的解碼器層,同時(shí)凍結(jié) VQGAN 編碼器權(quán)重、碼本和 transformer(即基礎(chǔ)模型和超分辨率模型)。

除了以上組件外,Muse 還包含可變掩碼比率組件、在推理時(shí)迭代并行解碼組件等。

實(shí)驗(yàn)及結(jié)果

如下表所示,與其他模型相比,Muse 縮短了推理時(shí)間。

e410e53e-8f6d-11ed-bfe3-dac502259ad0.png

下表為不同模型在 zero-shot COCO 上測(cè)量的 FID 和 CLIP 得分:

e41c1ff8-8f6d-11ed-bfe3-dac502259ad0.png

如下表所示,Muse(632M (base)+268M (super-res) 參數(shù)模型)在 CC3M 數(shù)據(jù)集上訓(xùn)練和評(píng)估時(shí)得到了 6.06 的 SOTA FID 分?jǐn)?shù)。

e4245308-8f6d-11ed-bfe3-dac502259ad0.png

下圖是 Muse 與 Imagen、DALL-E 2 在相同 prompt 下生成結(jié)果的例子。

e4339d7c-8f6d-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3652

    瀏覽量

    51724
  • 圖像生成
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    7133
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    154

    瀏覽量

    6819

原文標(biāo)題:比Imagen更高效!谷歌新作Muse:通過(guò)掩碼生成Transformer進(jìn)行文本到圖像生成

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個(gè)性化用戶體驗(yàn),有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其一是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?225次閱讀

    萬(wàn)里紅文本生成算法通過(guò)國(guó)家網(wǎng)信辦備案

    近日,國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布了第十四批深度合成服務(wù)算法備案信息,北京萬(wàn)里紅科技有限公司(以下簡(jiǎn)稱:萬(wàn)里紅)自主研發(fā)的“萬(wàn)里紅文本生成算法”正式通過(guò)備案。該算法致力于通過(guò)自動(dòng)化的方式,提升知識(shí)問(wèn)答、RAG分類、預(yù)測(cè)、文檔
    的頭像 發(fā)表于 11-14 09:06 ?433次閱讀

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?3934次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    生成式 AI 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景生成技術(shù)的突破與實(shí)踐

    生成式AI驅(qū)動(dòng)的4D場(chǎng)景技術(shù)正解決傳統(tǒng)方法效率低、覆蓋不足等痛點(diǎn),如何通過(guò)NeRF、3D高斯?jié)姙R等技術(shù)實(shí)現(xiàn)高保真動(dòng)態(tài)建模?高效生成極端天氣等長(zhǎng)尾場(chǎng)景?本文為您系統(tǒng)梳理AI驅(qū)動(dòng)的4D場(chǎng)景生成
    的頭像 發(fā)表于 08-06 11:20 ?4830次閱讀
    <b class='flag-5'>生成</b>式 AI 重塑自動(dòng)駕駛仿真:4D 場(chǎng)景<b class='flag-5'>生成</b>技術(shù)的突破與實(shí)踐

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說(shuō)明

    檢查結(jié)果為“通過(guò)”或?qū)徍藸顟B(tài)為“審核通過(guò)”。 那么對(duì)于這個(gè)問(wèn)題,我也是嘗試去解決……這里分享一下我了解的情況和方法 首先,這個(gè)政策雖然說(shuō)是針對(duì)AI文本生成模塊,但實(shí)際上,針對(duì)的是所有
    發(fā)表于 06-30 18:37

    邊緣生成式AI面臨哪些工程挑戰(zhàn)?

    本文由TechSugar編譯自electronicdesign當(dāng)大多數(shù)人想到人工智能(AI)時(shí),他們通常能想到的是能夠生成文本、圖像或語(yǔ)音內(nèi)容的應(yīng)用。像ChatGPT這樣流行的文本應(yīng)
    的頭像 發(fā)表于 06-25 10:44 ?923次閱讀
    邊緣<b class='flag-5'>生成</b>式AI面臨哪些工程挑戰(zhàn)?

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺(jué)效果。即使取得了如此飛躍,仍然存在一個(gè)挑戰(zhàn):實(shí)現(xiàn)創(chuàng)意掌控。
    的頭像 發(fā)表于 06-05 09:24 ?762次閱讀

    生成式人工智能認(rèn)證:重構(gòu)AI時(shí)代的人才培養(yǎng)與職業(yè)躍遷路徑

    ,恰似一座連接技術(shù)前沿與個(gè)體成長(zhǎng)的橋梁,既承載著時(shí)代對(duì)人才的迫切需求,也指向著未來(lái)職場(chǎng)的核心競(jìng)爭(zhēng)力。 一、技術(shù)革命的雙重性:賦能與失衡并存 生成式人工智能的突破性,在于其首次讓機(jī)器具備了“無(wú)中生有”的創(chuàng)造力。從文本生成
    的頭像 發(fā)表于 05-23 09:29 ?633次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過(guò) Gemini API 訪問(wèn) Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?974次閱讀

    如何使用離線工具od SPSDK生成完整圖像?

    對(duì)我來(lái)說(shuō),完整圖像是指包含 keyblob、FCB 等的圖像。換句話說(shuō),圖像包含 0x30000000 0x30000FFF 之間的大約 4KB。 如果我理解正確,使用 SPT(以
    發(fā)表于 03-28 06:51

    聲智APP通過(guò)北京市生成式人工智能服務(wù)登記

    近日,聲智APP已正式通過(guò)北京市第二批生成式人工智能服務(wù)登記,成為《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱《辦法》)實(shí)施以來(lái),北京市累計(jì)已完成46款生成式人工智能服務(wù)登記中的重要一
    的頭像 發(fā)表于 03-19 16:33 ?823次閱讀

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    支持生成式任務(wù)。 多模態(tài)融合 :通過(guò)跨模態(tài)注意力機(jī)制、投影層(如CLIP將圖像文本映射到同一空間)或適配器
    的頭像 發(fā)表于 03-17 15:32 ?7676次閱讀
    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無(wú)奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺(jué)效果。
    的頭像 發(fā)表于 03-12 13:49 ?1569次閱讀
    使用OpenVINO GenAI和LoRA適配器<b class='flag-5'>進(jìn)行</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來(lái)顯著的成果。通過(guò)利用谷歌的 Gemini 模型來(lái)制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)
    的頭像 發(fā)表于 01-03 10:38 ?1361次閱讀
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen模型<b class='flag-5'>生成</b>高質(zhì)量<b class='flag-5'>圖像</b>

    檢索增強(qiáng)型生成(RAG)系統(tǒng)詳解

    ? 近年來(lái),人工智能取得了巨大的飛躍,這主要?dú)w功于大型語(yǔ)言模型(LLMs)。LLMs非常擅長(zhǎng)理解和生成類似人類的文本,它們促成了多種新工具的創(chuàng)建,比如先進(jìn)的聊天機(jī)器人和AI作家。 盡管LLMs在生成
    的頭像 發(fā)表于 12-24 10:44 ?1650次閱讀
    檢索增強(qiáng)型<b class='flag-5'>生成</b>(RAG)系統(tǒng)詳解