chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來源:CVer ? 2023-09-26 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文簡介

可控擴散模型如ControlNet、T2I-Adapter和GLIGEN等可通過額外添加的空間條件如人體姿態(tài)、目標框來控制生成圖像中內容的具體布局。使用從已有的圖像中提取的人體姿態(tài)、目標框或者數據集中的標注作為空間限制條件,上述方法已經獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數量、以及表示形式(目標框、關鍵點、和實例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關系等性質總結為視覺先驗(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗。因此,我們可以從學習好的先驗中通過Prompt從多個層面,例如表示形式(目標框、關鍵點、實例掩碼)、物體類別、大小和數量,來采樣空間限制條件。我們設想,隨著可控擴散模型生成能力的提升,以此可以針對性地生成圖像用于特定場景下的數據補充,例如擁擠場景下的人體姿態(tài)估計和目標檢測。

方法介紹

表1 訓練數據

e17fe920-5c2a-11ee-939d-92fbcf53809c.png

本文從當前公開的數據集中整理收集了七種數據,如表1所示。為了以Generative Pre-Training的方式學習視覺先驗并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

e198337c-5c2a-11ee-939d-92fbcf53809c.png

使用上述模板可以將表1中訓練數據中每一張圖片的標注格式化成一個序列x。在訓練過程中,我們使用BPE算法將每個序列x編碼成tokens={u1,u2,…,u3},并通過極大化似然來學習視覺先驗,如下式:

e1b004d4-5c2a-11ee-939d-92fbcf53809c.png

最后,我們可以從上述方式學習獲得的模型中定制序列輸出,如下圖所示。

e1be4bfc-5c2a-11ee-939d-92fbcf53809c.png

圖1 定制序列輸出

效果展示

e1db2844-5c2a-11ee-939d-92fbcf53809c.png

e1fa30cc-5c2a-11ee-939d-92fbcf53809c.png

e21c6426-5c2a-11ee-939d-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52093
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26186
  • 圖像生成
    +關注

    關注

    0

    文章

    25

    瀏覽量

    7167

原文標題:NeurIPS 2023 | NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    LoRa1121 FCC&CE認證 多頻段LoRa無線通訊模塊規(guī)格書

    LoRa1121 FCC&CE認證 多頻段LoRa無線通訊模塊規(guī)格書
    發(fā)表于 02-26 14:36 ?0次下載

    探秘EV系列0.8 Amp敏感可控硅:特性、應用與設計要點

    探秘EV系列0.8 Amp敏感可控硅:特性、應用與設計要點 在電子工程師的日常設計工作中,可控硅(SCR)是一種常見且關鍵的半導體器件,廣泛應用于各種電路中。今天,我們將深入探討Littelfuse
    的頭像 發(fā)表于 12-16 13:50 ?316次閱讀

    30/35 Amp高溫雙向可控硅——QJxx30xH4 & QJxx35xH4系列的特性與應用

    30/35 Amp高溫雙向可控硅——QJxx30xH4 QJxx35xH4系列的特性與應用 在電子工程師的日常設計工作中,可控硅是交流電源控制應用里常用的器件。今天,我們就來深入探討一下
    的頭像 發(fā)表于 12-16 10:30 ?361次閱讀

    【深度實戰(zhàn)】MYD-LR3576 AMP非對稱多核開發(fā)指南:從配置到實戰(zhàn)

    多處理),AMP具有獨特優(yōu)勢。核心特性:異構運算:不同核心運行最適合的操作系統(tǒng),如Linux處理復雜應用,RT-Thread保障實時任務;資源隔離:各核心擁有獨立內存空間,避免
    的頭像 發(fā)表于 12-05 08:07 ?7119次閱讀
    【深度實戰(zhàn)】MYD-LR3576 <b class='flag-5'>AMP</b>非對稱多核開發(fā)指南:從配置到實戰(zhàn)

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網絡分析儀,頻率高達 54 GHz

    R&amp;SZNB3000以業(yè)界領先的測量速度、出色的擴展能力及一流射頻性能,中端矢量網絡分析儀市場樹立了新標桿。隨著高頻型號的加入,R&amp;SZNB3000將覆蓋更廣泛的應用場景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?618次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網絡分析儀,頻率高達 54 GHz

    rt-thread studio debug生成了elf &amp;amp; map,為什么不生成反匯編呢?

    開發(fā)中crash后dump出了現場,需要通過反匯編文件確定crash的lr &amp;amp; pc,大部分使用rtthread studio的環(huán)境是windows,在windows下倒反匯編文件
    發(fā)表于 09-18 07:13

    1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器 skyworksinc

    電子發(fā)燒友網你提供()1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器相關產品參數、數據手冊,更有1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器的引腳圖
    發(fā)表于 09-01 18:30
    1218 MHz 高輸出 GaN CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴音器 skyworksinc

    電子發(fā)燒友網你提供()870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴音器相關產品參數、數據手冊,更有870 MHz、25 dB 增益 CATV 功率倍增器 Amp擴音器的引腳圖
    發(fā)表于 09-01 18:30
    870 MHz、25 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴音器 skyworksinc

    電子發(fā)燒友網你提供()1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴音器相關產品參數、數據手冊,更有1 GHz、28 dB 增益 CATV 功率倍增器 Amp擴音器的引腳圖、接線圖
    發(fā)表于 08-29 18:35
    1 GHz、28 dB 增益 CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    CS86706適用1~3節(jié)鋰電應用,內置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應用,內置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?644次閱讀
    CS86706適用1~3節(jié)鋰電應用,內置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    關于鴻蒙App上架中“AI文本生成模塊的資質證明文件”的情況說明

    檢查結果“通過”或審核狀態(tài)“審核通過”。 那么對于這個問題,我也是嘗試去解決……這里分享一下我了解到的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際上,針對的是所有調用了AI大模型
    發(fā)表于 06-30 18:37

    新知|Verizon與AT&amp;amp;amp;T也可以手機直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機直連衛(wèi)星方面取得重要進展,使用普通手機實現了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這一舉措是針對此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?1132次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機直接連接衛(wèi)星了

    rt-thread studio debug生成了elf &amp;amp;amp; map,為什么不生成反匯編?

    開發(fā)中crash后dump出了現場,需要通過反匯編文件確定crash的lr &amp;amp; pc,大部分使用rtthread studio的環(huán)境是windows,在windows下倒反匯編文件
    發(fā)表于 06-11 06:42

    多模塊配置!YU系列USB、Type-C連接器工控機打造&amp;amp;quot;全能型&amp;amp;quot;數據傳輸方案

    背景介紹工控機是一類用于工業(yè)、野外等復雜惡劣環(huán)境的專用計算機設備,如何實現穩(wěn)如磐石的數據傳輸是關鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴苛環(huán)境適配性及長期穩(wěn)定的性能表現,成為
    的頭像 發(fā)表于 05-07 18:27 ?669次閱讀
    多模塊配置!YU系列USB、Type-C連接器<b class='flag-5'>為</b>工控機打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數據傳輸方案

    【產品目錄】斯丹麥德電子 | 液位傳感器&amp;amp;浮子

    了解斯丹麥德電子定制液位傳感器&amp;amp;浮子
    發(fā)表于 04-03 16:51