chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)耗費(fèi)64個(gè)A100訓(xùn)練StyleGAN-T!

CVer ? 來(lái)源:機(jī)器之心 ? 2023-02-07 11:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴(kuò)散模型在文本到圖像生成方面是最好的嗎?不見得,英偉達(dá)等機(jī)構(gòu)推出的新款 StyleGAN-T,結(jié)果表明 GAN 仍具有競(jìng)爭(zhēng)力。

文本合成圖像任務(wù)是指,基于文本內(nèi)容生成圖像內(nèi)容。當(dāng)下這項(xiàng)任務(wù)取得的巨大進(jìn)展得益于兩項(xiàng)重要的突破:其一,使用大的預(yù)訓(xùn)練語(yǔ)言模型作為文本的編碼器,讓使用通用語(yǔ)言理解實(shí)現(xiàn)生成模型成為可能。其二,使用由數(shù)億的圖像 - 文本對(duì)組成的大規(guī)模訓(xùn)練數(shù)據(jù),只要你想到的,模型都可以合成。

訓(xùn)練數(shù)據(jù)集的大小和覆蓋范圍持續(xù)飛速擴(kuò)大。因此,文本生成圖像任務(wù)的模型必須擴(kuò)展成為大容量模型,以適應(yīng)訓(xùn)練數(shù)據(jù)的增加。最近在大規(guī)模文本到圖像生成方面,擴(kuò)散模型(DM)和自回歸模型(ARM)催生出了巨大的進(jìn)展,這些模型似乎內(nèi)置了處理大規(guī)模數(shù)據(jù)的屬性,同時(shí)還能處理高度多模態(tài)數(shù)據(jù)的能力。

有趣的是,2014 年,由 Goodfellow 等人提出的生成對(duì)抗網(wǎng)絡(luò)(GAN),在生成任務(wù)中并沒(méi)有大放異彩,正當(dāng)大家以為 GAN 在生成方面已經(jīng)不行的時(shí)候,來(lái)自英偉達(dá)等機(jī)構(gòu)的研究者卻試圖表明 GAN 仍然具有競(jìng)爭(zhēng)力,提出 StyleGAN-T 模型。

9b55561a-a49c-11ed-bfe3-dac502259ad0.png

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

論文地址:https://arxiv.org/abs/2301.09515

論文主頁(yè):https://sites.google.com/view/stylegan-t/

StyleGAN-T 只需 0.1 秒即可生成 512×512 分辨率圖像:

?

9b7cb174-a49c-11ed-bfe3-dac502259ad0.gif

?

StyleGAN-T 生成宇航員圖像:

9c24c314-a49c-11ed-bfe3-dac502259ad0.gif

?

值得一提的是,谷歌大腦研究科學(xué)家 Ben Poole 表示:StyleGAN-T 在低分辨率 (64x64) 時(shí)生成的樣本比擴(kuò)散模型更快更好,但在高分辨率 (256x256) 時(shí)表現(xiàn)不佳。

9d04c626-a49c-11ed-bfe3-dac502259ad0.png

研究者們表示,他們?cè)?64 臺(tái) NVIDIA A100 上進(jìn)行了 4 周的訓(xùn)練。有人給這項(xiàng)研究算了一筆賬,表示:StyleGAN-T 在 64 塊 A100 GPU 上訓(xùn)練 28 天,根據(jù)定價(jià)約為 473000 美元,這大約是典型擴(kuò)散模型成本的四分之一……

9d254dc4-a49c-11ed-bfe3-dac502259ad0.png

GAN 提供的主要好處在于推理速度以及可以通過(guò)隱空間控制合成的結(jié)果。StyleGAN 的特別之處在于,其具有一個(gè)精心設(shè)計(jì)的隱空間,能從根本上把控生成的圖像結(jié)果。而對(duì)于擴(kuò)散模型來(lái)說(shuō),盡管有些工作在其加速方面取得了顯著進(jìn)展,但速度仍然遠(yuǎn)遠(yuǎn)落后于僅需要一次前向傳播的 GAN。

本文從觀察到 GAN 在 ImageNet 合成中同樣落后于擴(kuò)散模型中得到啟發(fā),接著受益于 StyleGAN-XL 對(duì)判別器的架構(gòu)進(jìn)行了重構(gòu),使得 GAN 和擴(kuò)散模型的差距逐漸縮小。在原文的第 3 節(jié)中,考慮到大規(guī)模文本生成圖像任務(wù)的特定要求:數(shù)量多、類別多的數(shù)據(jù)集、強(qiáng)大的文本對(duì)齊以及需要在變化與文本對(duì)齊間進(jìn)行權(quán)衡,研究者以 StyleGAN-XL 作為開始,重新審視了生成器和判別器的架構(gòu)。

在 MS COCO 上的零樣本任務(wù)中,StyleGAN-T 以 64×64 的分辨率實(shí)現(xiàn)了比當(dāng)前 SOTA 擴(kuò)散模型更高的 FID 分?jǐn)?shù)。在 256×256 分辨率下,StyleGAN-T 更是達(dá)到之前由 GAN 實(shí)現(xiàn)的零樣本 FID 分?jǐn)?shù)的一半,不過(guò)還是落后于 SOTA 的擴(kuò)散模型。StyleGAN-T 的主要優(yōu)點(diǎn)包括其快速的推理速度和在文本合成圖像任務(wù)的上下文中進(jìn)行隱空間平滑插值,分別如圖 1 和圖 2 所示。

9da7e4b4-a49c-11ed-bfe3-dac502259ad0.png

9dc244c6-a49c-11ed-bfe3-dac502259ad0.png

StyleGAN-T 架構(gòu)概覽

該研究選擇 StyleGAN-XL 作為基線架構(gòu),因?yàn)?StyleGAN-XL 在以類別為條件的 ImageNet 合成任務(wù)中表現(xiàn)出色。然后該研究依次從生成器、判別器和變長(zhǎng)與文本對(duì)齊的權(quán)衡機(jī)制的角度修改 StyleGAN-XL。

9e563154-a49c-11ed-bfe3-dac502259ad0.png

在整個(gè)重新設(shè)計(jì)過(guò)程中,作者使用零樣本 MS COCO 來(lái)衡量改動(dòng)的效果。出于實(shí)際原因,與原文第 4 節(jié)中的大規(guī)模實(shí)驗(yàn)相比,測(cè)試步驟的計(jì)算資源預(yù)算有限,該研究使用了更小模型和更小的數(shù)據(jù)集;詳見原文附錄 A。除此以外,該研究使用 FID 分?jǐn)?shù)來(lái)量化樣本質(zhì)量,并使用 CLIP 評(píng)分來(lái)量化文本對(duì)齊質(zhì)量。

為了在基線模型中將以類別為引導(dǎo)條件更改為以文本為引導(dǎo)條件,作者使用預(yù)訓(xùn)練的 CLIP ViT-L/14 文本編碼器來(lái)嵌入文本提示,以此來(lái)代替類別嵌入。接著,作者刪除了用于引導(dǎo)生成的分類器。這種簡(jiǎn)單的引導(dǎo)機(jī)制與早期的文本到圖像模型相匹配。如表 1 所示,該基線方法在輕量級(jí)訓(xùn)練配置中達(dá)到了 51.88 的零樣本 FID 和 5.58 的 CLIP 分?jǐn)?shù)。值得注意的是,作者使用不同的 CLIP 模型來(lái)調(diào)節(jié)生成器和計(jì)算 CLIP 分?jǐn)?shù),這降低了人為夸大結(jié)果的風(fēng)險(xiǎn)。

9e85ad12-a49c-11ed-bfe3-dac502259ad0.png

實(shí)驗(yàn)結(jié)果

該研究使用零樣本 MS COCO 在表 2 中的 64×64 像素輸出分辨率和表 3 中的 256×256 像素輸出分辨率下定量比較 StyleGAN-T 的性能與 SOTA 方法的性能。

9ebda05a-a49c-11ed-bfe3-dac502259ad0.png

9eceddac-a49c-11ed-bfe3-dac502259ad0.png

圖 5 展示了 FID-CLIP 評(píng)分曲線:

9ee3cfb4-a49c-11ed-bfe3-dac502259ad0.png

為了隔離文本編碼器訓(xùn)練過(guò)程產(chǎn)生的影響,該研究評(píng)估了圖 6 中的 FID–CLIP 得分曲線。

9eff64f4-a49c-11ed-bfe3-dac502259ad0.png

圖 2 顯示了 StyleGAN-T 生成的示例圖像,以及它們之間的插值。

在不同的文本提示之間進(jìn)行插值非常簡(jiǎn)單。對(duì)于由中間變量 w_0 = [f (z), c_text0] 生成的圖像,該研究用新的文本條件 c_text1 替換文本條件 c_text0。然后將 w_0 插入到新的隱變量 w_1 = [f (z), c_text1] 中,如圖 7 所示。

9f1ae6ac-a49c-11ed-bfe3-dac502259ad0.png

通過(guò)向文本提示附加不同的樣式,StyleGAN-T 可以生成多種樣式,如圖 8 所示。

a00a3e64-a49c-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3796

    瀏覽量

    138013
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10787
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3950

    瀏覽量

    93724

原文標(biāo)題:GAN強(qiáng)勢(shì)歸來(lái)?英偉達(dá)耗費(fèi)64個(gè)A100訓(xùn)練StyleGAN-T!僅為擴(kuò)散模型成本的四分之一

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    英偉達(dá)a100和h100哪個(gè)強(qiáng)?英偉達(dá)A100和H100的區(qū)別

    基于Ampere架構(gòu)的GPU計(jì)算加速器,專為高性能計(jì)算、人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域而設(shè)計(jì)。它擁有高達(dá)6912個(gè)CUDA核心(在32GB版本中),是目前最強(qiáng)大的數(shù)據(jù)中心GPU之一。A100支持更快的訓(xùn)練速度和更大的模型容量,適用于需
    的頭像 發(fā)表于 08-09 17:31 ?5w次閱讀

    英偉達(dá)a100和h100哪個(gè)強(qiáng)?

    版本制程(4N)打造,單塊芯片包含 800 億晶體管。 A100都是非常強(qiáng)大的GPU,A100配備高達(dá)6,912個(gè)CUDA核心,A100英偉
    的頭像 發(fā)表于 08-07 17:32 ?1.7w次閱讀

    英偉達(dá)a100a800的區(qū)別

    英偉達(dá)a100a800的區(qū)別 英偉達(dá)A100
    的頭像 發(fā)表于 08-07 17:57 ?4.7w次閱讀

    英偉達(dá)a100顯卡算力介紹

    英偉達(dá)a100顯卡算力介紹 英偉達(dá)A100顯卡是一款專為數(shù)據(jù)中心設(shè)計(jì)的顯卡,采用了全新的Ampe
    的頭像 發(fā)表于 08-07 17:59 ?1w次閱讀

    英偉達(dá)A100和H100的區(qū)別

    英偉達(dá)A100和H100的區(qū)別 英偉達(dá)A100和H
    的頭像 發(fā)表于 08-07 18:06 ?3.2w次閱讀

    英偉達(dá)A100和3090的區(qū)別

    地實(shí)現(xiàn)深度學(xué)習(xí)訓(xùn)練和推理操作,具有更高的計(jì)算精度和更大的內(nèi)存容量。 英偉達(dá)A100是一款基于英偉達(dá)
    的頭像 發(fā)表于 08-07 18:54 ?4916次閱讀

    英偉達(dá)A100和V100參數(shù)對(duì)比

    英偉達(dá)A100這個(gè)AI芯片怎么樣?英偉達(dá)A100是一款基于
    的頭像 發(fā)表于 08-08 11:54 ?1.5w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>A100</b>和V<b class='flag-5'>100</b>參數(shù)對(duì)比

    英偉達(dá)A100和4090的區(qū)別

    。 2. 核心數(shù)量:英偉達(dá)A100的核心數(shù)量是6912個(gè),在4090中是4608個(gè)。 3. 性能:英偉
    的頭像 發(fā)表于 08-08 11:59 ?3.2w次閱讀

    英偉達(dá)A100A40的對(duì)比

    英偉達(dá)A100A40的對(duì)比 A100英偉達(dá)推出的
    的頭像 發(fā)表于 08-08 15:08 ?2w次閱讀

    英偉達(dá)A100是什么系列?

    英偉達(dá)A100是什么系列? 全球都在關(guān)注生成式人工智能;特別是OpenAI發(fā)布ChatGPT以來(lái),生成式人工智能技術(shù)一下就被拔高。在大模型訓(xùn)練中,A
    的頭像 發(fā)表于 08-08 15:13 ?3621次閱讀

    英偉達(dá)A100的簡(jiǎn)介

    英偉達(dá)A100的簡(jiǎn)介 A100都是非常強(qiáng)大的GPU。英偉達(dá)A
    的頭像 發(fā)表于 08-08 15:17 ?1w次閱讀

    英偉達(dá)A100的優(yōu)勢(shì)分析

    英偉達(dá)A100的優(yōu)勢(shì)分析 在大模型訓(xùn)練中,A100是非常強(qiáng)大的GPU。A100
    的頭像 發(fā)表于 08-08 15:25 ?3806次閱讀

    英偉達(dá)A100的算力是多少?

    英偉達(dá)A100的算力是多少? 英偉達(dá)A100的算力為19.5 TFLOPS(浮點(diǎn)運(yùn)算每秒19.5
    的頭像 發(fā)表于 08-08 15:28 ?4.1w次閱讀

    英偉達(dá)v100A100的差距有哪些?

    英偉達(dá)v100A100的差距有哪些? 在當(dāng)今人工智能和深度學(xué)習(xí)技術(shù)日益發(fā)展的時(shí)代,高性能計(jì)算機(jī)顯卡已成為支持這些技術(shù)發(fā)展的關(guān)鍵。英偉
    的頭像 發(fā)表于 08-22 16:46 ?2.5w次閱讀

    英偉達(dá)H200和A100的差異

    英偉達(dá)H200和A100在多個(gè)方面存在差異。
    的頭像 發(fā)表于 03-07 16:18 ?4522次閱讀