chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術研 ? 2024-11-27 09:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著擴散生成模型的發(fā)展,人工智能步入了屬于AIGC的新紀元。擴散生成模型可以對初始高斯噪聲進行逐步去噪而得到高質(zhì)量的采樣。當前,許多應用都涉及擴散模型的反演,即找到一個生成樣本對應的初始噪聲。當前的采樣器不能兼顧反演的準確性和采樣的質(zhì)量。

為徹底解決這一問題,微信視覺團隊與浙江大學和清華大學聯(lián)手提出了基于雙向顯式線性多步法的擴散模型精確反演采樣器(BELM)這一通用算法,并通過截斷誤差分析確定了最優(yōu)的 BELM 采樣器系數(shù)。

此方法在確保精確反演的同時還提升了生成樣本的質(zhì)量,在圖像與視頻的編輯、插值等下游任務中有廣泛的應用前景。這一研究成果已被 NeurIPS 2024 會議接收。

當前,擴散模型在圖像生成、文字生成、音頻生成等多個領域得到了廣泛應用,表現(xiàn)出了卓越的性能。擴散模型的反演操作,即找到一個生成樣本對應的初始噪聲,對若干下游任務起到關鍵的作用。傳統(tǒng)的 DDIM 反演會造成嚴重的不一致問題,即原始圖片加噪再去噪的結果與原圖相差甚遠。

近期,研究者們提出了多種啟發(fā)式的精確反演采樣器來解決 DDIM 反演的不一致問題。然而,這些啟發(fā)式的精確反演采樣器的理論特性尚不明確,且采樣質(zhì)量常常不盡如人意,這在一定程度上限制了它們的應用。

為此,本研究引入了一種通用的精確反演采樣器范式 —— 雙向顯式線性多步(BELM)采樣器,該范式包含了上文提到的啟發(fā)式精確反演采樣器。該團隊在 BELM 范式內(nèi)系統(tǒng)地研究了局部截斷誤差(LTE),發(fā)現(xiàn)現(xiàn)有的精確反演采樣器的 LTE 并非最優(yōu)。

因此,研究團隊通過 LTE 最小化方法提出了最優(yōu)的 BELM(Optimal-BELM,O-BELM)采樣器。實驗表明,O-BELM 采樣器在實現(xiàn)精確反演的同時,也提升了采樣的質(zhì)量。

8f62c698-9f6e-11ef-93f3-92fbcf53809c.png

論文題目:BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models

論文鏈接:

https://arxiv.org/abs/2410.07273

項目鏈接:

https://github.com/zituitui/BELM

背景:DDIM反演造成的不一致問題 由于 DDIM 的正向過程和反演過程使用的迭代式并不相同,所以 DDIM 的反演重構樣本與初始的樣本存在較大差別。 實際使用中,DDIM 的反演有顯著的不一致問題:

8f919b1c-9f6e-11ef-93f3-92fbcf53809c.png

8faf777c-9f6e-11ef-93f3-92fbcf53809c.png

現(xiàn)有精確反演方法

Null-text-inversion 以 Null-tex-inversion 為代表的方法對 unconditional占位符進行 fine-tune,以達到精確反演。 問題:這類方法局限于 text-classifier-free-guidance 場景下的擴散模型;需要額外訓練,低效。

8fda2c60-9f6e-11ef-93f3-92fbcf53809c.png

EDICT EDICT 是基于 DDIM 的啟發(fā)式算法,借鑒了可逆網(wǎng)絡的做法,有兩個相互糅合的采樣鏈。

9003bfee-9f6e-11ef-93f3-92fbcf53809c.png

其逆過程如下,精確可逆:

90200b2c-9f6e-11ef-93f3-92fbcf53809c.png

問題:需要兩倍計算量;超參數(shù) p 不魯棒,導致采樣質(zhì)量不可控。 BDIA BDIA 改進了 EDICT,使用 x_i 的速度,x_i 和 x_{i+1} 的位置,通過下述公式實現(xiàn)精確可逆:

90445464-9f6e-11ef-93f3-92fbcf53809c.png

問題:超參數(shù) gamma 不魯棒,導致采樣質(zhì)量不佳。 EDICT 和 BDIA 參數(shù)的不魯棒: EDICT 和 BDIA 超參數(shù)的意義不明,沒有理論指導如何調(diào)整,導致不同情形下超參數(shù)的選擇差別巨大。使用起來極為不便。

9050124a-9f6e-11ef-93f3-92fbcf53809c.png

906219e0-9f6e-11ef-93f3-92fbcf53809c.png

雙向顯式線性多步法(BELM)框架思路起源:DDIM 的正向過程(由藍線表示)與反演過程(由紅線表示)是兩種不同的關系,這導致了 DDIM 的反演不準確。如果強制正過程與反過程使用相同關系,又會引入隱式方法,大大增加計算復雜度。如果多引入一個點,不用隱式方法也可逆(由綠線表示)。

9093515e-9f6e-11ef-93f3-92fbcf53809c.png

該論文中的算法,正向和反演過程都服從相同的關系,因此能夠精確反演。具體來說,為了系統(tǒng)地設計這種采樣器,首先要將擴散模型的采樣過程建模為一個 IVP(Initial Value Problem,初值問題):

90b48270-9f6e-11ef-93f3-92fbcf53809c.png

以下是IVP的一般形式,這實際上是一個變步長變公式線性多步方法(VSVFM):

90ccb156-9f6e-11ef-93f3-92fbcf53809c.png

為了避免隱式方法的復雜計算,上式需要在正向和反向都是顯式的,該團隊稱這一性質(zhì)為雙向顯性(bidirectional explicit)。

90de49f2-9f6e-11ef-93f3-92fbcf53809c.png

代入雙向顯性條件,可以得到一般的 k 步 BELM 采樣器:

910a60aa-9f6e-11ef-93f3-92fbcf53809c.png

最簡單的形式是 k=2,稱為 2-BELM,其表達式如下:

911c90a4-9f6e-11ef-93f3-92fbcf53809c.png

據(jù)此很容易證明,一個滿足雙向顯性性質(zhì)的線性多步法采樣器擁有精確反演性質(zhì):

9130e2fc-9f6e-11ef-93f3-92fbcf53809c.png

研究團隊還發(fā)現(xiàn),前文提到的 EDICT 和 BDIA 都是 BELM 框架的特例:

9138d2be-9f6e-11ef-93f3-92fbcf53809c.png

這也解釋了 EDICT 和 BDIA 能夠精確反演的原因。

最優(yōu)雙向顯式線性多步(O-BELM)采樣器研究團隊在推導 BELM 框架暫時沒有給出具體的系數(shù)選擇,而啟發(fā)式的系數(shù)選擇(如 EDICT 和 BDIA)會造成采樣質(zhì)量的退化。因此,他們提出使用局部截斷誤差(LTE)來獲取最優(yōu)系數(shù)。 首先分析 BELM 的局部截斷誤差:

916819f2-9f6e-11ef-93f3-92fbcf53809c.png

通過對局部截斷誤差的最小化,我們得到了最優(yōu)的 BELM 系數(shù),我們稱此系數(shù)下的 BELM 采樣器為最優(yōu) BELM(O-BELM):

918af8e6-9f6e-11ef-93f3-92fbcf53809c.png

O-BELM 的正向過程表達式如下:

91978b42-9f6e-11ef-93f3-92fbcf53809c.png

O-BELM 的反演過程表達式如下:

91aa9444-9f6e-11ef-93f3-92fbcf53809c.png

此外,研究團隊還證明了 O-BELM 滿足穩(wěn)定性和全局收斂性:

91b40268-9f6e-11ef-93f3-92fbcf53809c.png

至此,可以對比幾種不同反演采樣器的性質(zhì):

91defc8e-9f6e-11ef-93f3-92fbcf53809c.png

可見,O-BELM 是第一種在嚴格的理論保證下兼顧精確反演性質(zhì)和采樣質(zhì)量的采樣器。

實驗重建實驗(驗證O-BELM精確反演性質(zhì)) latent 空間上的 O-BELM 的重建誤差為 0,這表明 O-BELM 具有精確反演的性質(zhì):

921017a6-9f6e-11ef-93f3-92fbcf53809c.png

9216815e-9f6e-11ef-93f3-92fbcf53809c.png

采樣實驗(驗證O-BELM的高質(zhì)量采樣性質(zhì))

不論在無條件生成還是條件生成中,O-BELM 都表現(xiàn)出了高于 DDIM,EDICT 和 BDIA 的采樣質(zhì)量:

924a1032-9f6e-11ef-93f3-92fbcf53809c.png

下游任務 —— 圖像編輯

圖像編輯實驗體現(xiàn)了:

1. 由于 DDIM 不具有精確反演性質(zhì),編輯的結果中存在不一致問題(紅色框);

2. 由于 EDICT 和 BDIA 具有較大的采樣誤差,編輯的結果出現(xiàn)了不真實區(qū)域(黃色框);

3.O-BELM 在保持圖像一致的條件下完成了高質(zhì)量的編輯。

9272ccb6-9f6e-11ef-93f3-92fbcf53809c.png

9281dfa8-9f6e-11ef-93f3-92fbcf53809c.png

由于 O-BELM 是一個采樣方法,因此可以無縫地與 controlNet 結合,編輯效果也優(yōu)于其他方法:

92918cf0-9f6e-11ef-93f3-92fbcf53809c.png

下游任務 —— 圖像插值 由于 O-BELM 精確地建立了噪聲和生成樣本的對應關系,這個關系是 probability flow ODE 的近似,因此 O-BELM 也使得圖像插值更符合人的直覺:

92b9fe6a-9f6e-11ef-93f3-92fbcf53809c.png

結語 本研究提出的雙向顯式線性多步法采樣器從理論上分析并徹底解決了現(xiàn)有擴散生成模型中的反演問題,進一步拓寬了擴散模型在計算機視覺領域的能力邊界。在圖像和視頻的編輯任務上有巨大的應用前景。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4761

    瀏覽量

    97154
  • 采樣器
    +關注

    關注

    0

    文章

    36

    瀏覽量

    2804

原文標題:NeurIPS 2024 | 浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    電能質(zhì)量在線監(jiān)測裝置故障會發(fā)告警嗎?

    裝置層 監(jiān)測裝置檢測到自身故障(如傳感故障、采樣通道故障、硬件異常)或電能質(zhì)量參數(shù)超標后,通過 4G / 以太網(wǎng)將故障數(shù)據(jù)上傳至云平臺 平臺層 云平臺 / 運維系統(tǒng)(如恒一電能質(zhì)量云、北辰電力運維云平臺)接收故障數(shù)據(jù)后,通過
    的頭像 發(fā)表于 12-05 14:58 ?114次閱讀

    分光光度法結合進化算法精確測定:金屬氧化物薄膜厚度與光學常數(shù)

    薄膜厚度和復折射率的測定通常通過橢圓偏振術或分光光度法實現(xiàn)。本研究采用Flexfilm大樣品倉紫外可見近紅外分光光度計精確測量薄膜的反射率(R)和透射率(T)光譜,為反演光學參數(shù)提供高精度實驗數(shù)據(jù)
    的頭像 發(fā)表于 07-21 18:17 ?493次閱讀
    分光光度法結合進化算法<b class='flag-5'>精確</b>測定:金屬氧化物薄膜厚度與光學常數(shù)

    無速度傳感永磁同步直線電機伺服系統(tǒng)的自適應魯棒控制

    摘要:為了提高永磁同步直線電機伺服系統(tǒng)的動態(tài)性能,提出了一種新型的自適應魯棒控制。該控制不含電機參教,只與系統(tǒng)的狀態(tài)變量有關,從而降低了對系統(tǒng)模型參數(shù)的依賴性?;贚ya-puno
    發(fā)表于 07-09 14:24

    英國比克全新推出最高33GHz帶寬9400A系列USB采樣器擴展實時示波器新型號

    英國比克全新推出9400A系列USB采樣器擴展實時示波器新型號,本次同時擴展了更低頻段的9404A-06(6GHz)/9404A-16(16GHz)和更高頻段的9404A-33(33GHz)的采樣器
    的頭像 發(fā)表于 07-04 17:36 ?838次閱讀
    英國比克全新推出最高33GHz帶寬9400A系列USB<b class='flag-5'>采樣器</b>擴展實時示波器新型號

    如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型

    模型切換概述 本文介紹如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型,您需要完成如下動作: 工程切換:新建一個Stage模型
    發(fā)表于 06-04 06:22

    Essential Macleod應用反演工程對四層減反膜進行分析

    的所有知識來評估結果的合理性。我們還利用我們的知識和經(jīng)驗以及各種不同的約束來指導過程。同時,作為目標的測量結果應盡可能精確,這一點至關重要。因此,盡管反演工程本質(zhì)上是一個優(yōu)化,但它的結構與任何優(yōu)化工具都
    發(fā)表于 05-16 08:45

    永磁同步電機的非奇異快速終端滑??刂?/a>

    能[1-5]。因此,近年來國內(nèi)外學者 在永磁同步電機調(diào)速控制方面做了大量研究[6-10], 如自適應控制、魯棒控制、反演控制、直接轉(zhuǎn)矩控 制、智能控制等。純分享帖,點擊附件查看全文*附件:永磁同步電機的非奇異快速終端滑??刂?pdf
    發(fā)表于 03-26 14:16

    用騰訊ima和Deepseek建立個人知識庫

    騰訊AI圖書館來了,是時候升級英飛凌工業(yè)半導體的《圖書館》啦。(對于工程師零難度)近日騰訊推出了AI智能工作臺ima.copilot,本人親測,可以在平臺上建立方便實用的私人圖
    的頭像 發(fā)表于 02-25 17:33 ?2029次閱讀
    用騰訊ima和Deepseek建立個人<b class='flag-5'>微</b><b class='flag-5'>信</b>知識庫

    調(diào)試ADS1258如何實現(xiàn)用定時控制精確地時間采樣,好像自動掃描方式都是確定的采樣頻率?

    調(diào)試ADs1258遇到幾個問題: 1、調(diào)試ADS1258如何實現(xiàn)用定時控制精確地時間采樣,好像自動掃描方式都是確定的采樣頻率? 2、如果想用固定通道
    發(fā)表于 02-05 08:53

    中國電提出模型推理加速新范式Falcon

    近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發(fā)表于 01-15 13:49 ?1469次閱讀
    中國電<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b>推理加速新<b class='flag-5'>范式</b>Falcon

    通過透鏡陣列的傳播

    隨著現(xiàn)代技術的發(fā)展,透鏡陣列等專用光學元件越來越受到人們的重視。特別是在光學投影系統(tǒng)、材料加工單元、光學擴散器等領域,透鏡陣列得到了廣泛的應用。在VirtualLab Fusion中,可以
    發(fā)表于 01-08 08:49

    VirtualLab Fusion應用:衍射光束擴散器產(chǎn)生LightTrans標識的設計與分析

    LightTrans標志。 結果預覽 光束和圖案條件→設計目標圖案(DTP) 光束:尺寸評估 圖案:導入、準備、預變形、采樣考慮 15m處的光斑尺寸 擴散器元件以創(chuàng)建所需圖案的方式偏轉(zhuǎn)入射光束。分辨率由單個光束點
    發(fā)表于 01-04 08:47

    基于移動自回歸的時序擴散預測模型

    在人工智能領域,目前有很多工作采用自回歸方法來模擬或是替代擴散模型,其中視覺自回歸建模(Visual AutoRegressive modeling,簡稱 VAR)就是其中的典型代表,該工作利用自
    的頭像 發(fā)表于 01-03 14:05 ?1649次閱讀
    基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

    基于高光譜的辣椒葉片SPAD反演研究

    無人機高光譜遙感技術和近地高光譜技術在農(nóng)作物的生長狀態(tài)監(jiān)測、分類等方面具有獨特的優(yōu)勢,它快速、高效、便捷、監(jiān)測范圍廣,可對植被進行連續(xù)動態(tài)監(jiān)測,在快速獲取大量植被表型信息的研究中有很好的應用前景。 ? 一、引言 辣椒是一年生或有限多年生植物,是全球僅次于豆類、番茄的第三大蔬菜作物,可以鮮食、加工成食品和調(diào)味品,還可作為醫(yī)藥、化工、軍工等方面的原料,用途十分廣泛,開發(fā)潛力巨大。近年來,貴州將辣椒產(chǎn)業(yè)作為全
    的頭像 發(fā)表于 12-31 10:28 ?2240次閱讀
    基于高光譜的辣椒葉片SPAD<b class='flag-5'>反演</b>研究

    通過透鏡陣列的傳播

    隨著現(xiàn)代技術的發(fā)展,透鏡陣列等專用光學元件越來越受到人們的重視。特別是在光學投影系統(tǒng)、材料加工單元、光學擴散器等領域,透鏡陣列得到了廣泛的應用。在VirtualLab Fusion中,可以
    發(fā)表于 12-11 11:32