chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

讓GAN再次偉大!拽一拽關鍵點就能讓獅子張嘴&大象轉身

OpenCV學堂 ? 來源:量子位 ? 2023-05-24 15:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這兩天,一段AI修圖視頻在國內(nèi)外社交媒體上傳瘋了。

不僅直接躥升B站關鍵詞聯(lián)想搜索第一,視頻播放上百萬,微博推特也是火得一塌糊涂,轉發(fā)者紛紛直呼“PS已死”。

e9ff026e-f8f4-11ed-90ce-dac502259ad0.png

怎么回事?

原來,現(xiàn)在P圖真的只需要“輕輕點兩下”,AI就能徹底理解你的想法!

小到豎起狗子的耳朵:

ea4c2062-f8f4-11ed-90ce-dac502259ad0.gif

大到讓整只狗子蹲下來,甚至讓馬岔開腿“跑跑步”,都只需要設置一個起始點和結束點,外加拽一拽就能搞定:

ea59d586-f8f4-11ed-90ce-dac502259ad0.gif

不止是動物的調(diào)整,連像汽車這樣的“非生物”,也能一鍵拉升底座,甚至升級成“加長豪華車”:

eb9002cc-f8f4-11ed-90ce-dac502259ad0.gif

這還只是AI修圖的“基操”。

要是想對圖像實現(xiàn)更精準的控制,只需畫個圈給指定區(qū)域“涂白”,就能讓狗子轉個頭看向你:

ed972ac8-f8f4-11ed-90ce-dac502259ad0.gif

或是讓照片中的小姐姐“眨眨眼”:

f8c026de-f8f4-11ed-90ce-dac502259ad0.gif

甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI自動就能給它“安上”:

f8fd2ab6-f8f4-11ed-90ce-dac502259ad0.gif

f91171f6-f8f4-11ed-90ce-dac502259ad0.png

如此“有手就能做”的修圖神器,來自一個MIT、谷歌、馬普所等機構聯(lián)手打造的DragGAN新模型,論文已入選SIGGRAPH 2023。

f93be5d0-f8f4-11ed-90ce-dac502259ad0.png

沒錯,在擴散模型獨領風騷的時代,竟然還能有人把GAN玩出新花樣!

f99a34f0-f8f4-11ed-90ce-dac502259ad0.png

f9b98d00-f8f4-11ed-90ce-dac502259ad0.gif

目前這個項目在GitHub上已經(jīng)有5k+ Star,熱度還在不斷上漲中(盡管一行代碼還沒發(fā))。

f9d4ca8e-f8f4-11ed-90ce-dac502259ad0.png

所以,DragGAN模型究竟長啥樣?它又如何實現(xiàn)上述“神一般的操作”?

f9ee9b26-f8f4-11ed-90ce-dac502259ad0.gif

拽一拽關鍵點,就能修改圖像細節(jié)

這個名叫DragGAN的模型,本質上是為各種GAN開發(fā)的一種交互式圖像操作方法。

論文以StyleGAN2架構為基礎,實現(xiàn)了點點鼠標、拽一拽關鍵點就能P圖的效果。

具體而言,給定StyleGAN2生成的一張圖像,用戶只需要設置幾個控制點(紅點)和目標點(藍點),以及圈出將要移動的區(qū)域(比如狗轉頭,就圈狗頭)。

fabe604a-f8f4-11ed-90ce-dac502259ad0.png

然后模型就將迭代執(zhí)行運動監(jiān)督和點跟蹤這兩個步驟,其中運動監(jiān)督會驅動紅色的控制點向藍色的目標點移動,點跟蹤則用于更新控制點來跟蹤圖像中的被修改對象。

這個過程一直持續(xù)到控制點到達它們對應的目標點。

faf726b4-f8f4-11ed-90ce-dac502259ad0.png

不錯,運動監(jiān)督和點跟蹤就是我們今天要講的重點,它是DragGAN模型中最主要的兩個組件。

先說運動監(jiān)督。在此之前,業(yè)界還沒有太多關于如何監(jiān)督GAN生成圖像的點運動的研究。

在這項研究中,作者提出了一種不依賴于任何額外神經(jīng)網(wǎng)絡的運動監(jiān)督損失(loss)。

其關鍵思想是,生成器的中間特征具有很強的鑒別能力,因此一個簡單的損失就足以監(jiān)督運動。

所以,DragGAN的運動監(jiān)督是通過生成器特征圖上的偏移補丁損失(shifted patch loss)來實現(xiàn)的。

如下圖所示,要移動控制點p到目標點t,就要監(jiān)督p點周圍的一小塊patch(紅圈)向前移動的一小步(藍圈)。

faff489e-f8f4-11ed-90ce-dac502259ad0.png

再看點跟蹤。

先前的運動監(jiān)督會產(chǎn)生一個新的latent code、一個新特征圖和新圖像。

由于運動監(jiān)督步驟不容易提供控制點的精確新位置,因此我們的目標是更新每個手柄點p使其跟蹤上對象上的對應點。

此前,點跟蹤通常通過光流估計模型或粒子視頻方法實現(xiàn)。

但同樣,這些額外的模型可能會嚴重影響效率,并且在GAN模型中存在偽影的情況下可能使模型遭受累積誤差。

因此,作者提供了一種新方法,該方法通過最近鄰檢索在相同的特征空間上進行點跟蹤。

而這主要是因為GAN模型的判別特征可以很好地捕捉到密集對應關系。

基于這以上兩大組件,DragGAN就能通過精確控制像素的位置,來操縱不同類別的對象完成姿勢、形狀、布局等方面的變形。

作者表示,由于這些變形都是在GAN學習的圖像流形上進行的,它遵從底層的目標結構,因此面對一些復雜的任務(比如有遮擋),DragGAN也能產(chǎn)生逼真的輸出。

單張3090幾秒鐘出圖

所以,要實現(xiàn)幾秒鐘“精準控圖”的效果,是否需要巨大的算力?

nonono。大部分情況下,每一步拖拽修圖,單張RTX 3090 GPU在數(shù)秒鐘內(nèi)就能搞定。

fb5c5674-f8f4-11ed-90ce-dac502259ad0.png

具體到生成圖像的效果上,實際評估(均方誤差MSE、感知損失LPIPS)也超越了一系列類似的“AI修圖”模型,包括RAFT和PIPs等等:

fb77141e-f8f4-11ed-90ce-dac502259ad0.png

如果說文字的還不太直觀,具體到視覺效果上就能感受到差異了:

fba846e2-f8f4-11ed-90ce-dac502259ad0.png

值得一提的是,DragGAN的“潛力”還不止于此。

一方面,如果增加關鍵點的數(shù)量,還能實現(xiàn)更加精細的AI修圖效果,用在人臉這類對修圖要求比較嚴格的照片上,也是完全沒問題:

fbb3bcf2-f8f4-11ed-90ce-dac502259ad0.png

另一方面,不止開頭展示的人物和動物,放在汽車、細胞、風景和天氣等不同類型的圖像上,DragGAN也都能精修搞定。

fc41f0bc-f8f4-11ed-90ce-dac502259ad0.png

除了不同的照片類型,從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢變動較大的圖像,也能通過DragGAN實現(xiàn):

fc88679a-f8f4-11ed-90ce-dac502259ad0.png

也難怪網(wǎng)友會調(diào)侃“遠古的PS段子成真”,把大象轉個身這種甲方需求也能實現(xiàn)了。

fda8e65e-f8f4-11ed-90ce-dac502259ad0.png

不過,也有網(wǎng)友指出了DragGAN目前面臨的一些問題。

例如,由于它是基于StyleGAN2生成的圖像進行P圖的,而后者訓練成本很高,因此距離真正商業(yè)落地可能還有一段距離。

fdb19b28-f8f4-11ed-90ce-dac502259ad0.png

除此之外,在論文中提到的“單卡幾秒鐘修圖”的效果,主要還是基于256×256分辨率圖像:

fdcd008e-f8f4-11ed-90ce-dac502259ad0.png

至于模型是否能擴展到256×256以外圖像,生成的效果又是如何,都還是未知數(shù)。

有網(wǎng)友表示“至少高分辨率圖像從生成時間來看,肯定還要更長”。

fdef08e6-f8f4-11ed-90ce-dac502259ad0.png

實際上手的效果究竟如何,我們可以等6月論文代碼開源后,一測見真章。

團隊介紹

DragGAN的作者一共6位,分別來自馬克斯?普朗克計算機科學研究,薩爾布呂肯視覺計算、交互與AI研究中心,MIT,賓夕法尼亞大學和谷歌AR/VR部門。

fe09d5d6-f8f4-11ed-90ce-dac502259ad0.png

其中包括兩位華人:

一作潘新鋼,他本科畢業(yè)于清華大學(2016年),博士畢業(yè)于香港中文大學(2021年),師從湯曉鷗教授。

現(xiàn)在是馬普計算機科學研究所的博士后,今年6月,他將進入南洋理工大學擔任助理教授(正在招收博士學生)。

fe1298a6-f8f4-11ed-90ce-dac502259ad0.png

另一位是Liu Lingjie,香港大學博士畢業(yè)(2019年),后在馬普信息學研究所做博士后研究,現(xiàn)在是賓夕法尼亞大學助理教授(也在招學生),領導該校計算機圖形實驗室,也是通用機器人、自動化、傳感與感知 (GRASP)實驗室成員。

fe86264a-f8f4-11ed-90ce-dac502259ad0.png

值得一提的是,為了展示DragGAN的可控性,一作還親自上陣,演示了生發(fā)、瘦臉和露齒笑的三連P圖效果:

fed26ee2-f8f4-11ed-90ce-dac502259ad0.png

是時候給自己的主頁照片“修修圖”了(手動狗頭)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    90

    文章

    38189

    瀏覽量

    297024
  • GaN
    GaN
    +關注

    關注

    21

    文章

    2335

    瀏覽量

    79271
  • GitHub
    +關注

    關注

    3

    文章

    484

    瀏覽量

    18429

原文標題:讓GAN再次偉大!拽一拽關鍵點就能讓獅子張嘴&大象轉身,DragGAN爆火

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    羅德與施瓦茨宣布推出新頻段 R&S ZNB3000 矢量網(wǎng)絡分析儀,頻率高達 54 GHz

    R&SZNB3000以業(yè)界領先的測量速度、出色的擴展能力及流射頻性能,為中端矢量網(wǎng)絡分析儀市場樹立了新標桿。隨著高頻型號的加入,R&SZNB3000將覆蓋更廣泛的應用場景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?242次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡分析儀,頻率高達 54 GHz

    森木磊石2025 CPEEC&amp;amp;amp;CPSSC展會活動圓滿落幕,期待與您再次相遇!

    CPEEC&amp;CPSSCCongressandExposition:由中國電源學會主辦的國際性、綜合性展會和合作平臺,順應全球電源、電力電子快速發(fā)展的趨勢,集“展覽、會議、評獎、大賽”四大
    的頭像 發(fā)表于 11-13 17:10 ?573次閱讀
    森木磊石2025 CPEEC&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CPSSC展會活動圓滿落幕,期待與您<b class='flag-5'>再次</b>相遇!

    DYY-AMP運算放大器評估模塊技術解析與應用指南

    Instruments DYY-AMP-EVM可以輕松配置為反向放大器、非反向放大器和差分放大器,工程師可以快速評估和驗證設計概念。
    的頭像 發(fā)表于 09-12 11:21 ?670次閱讀
    DYY-<b class='flag-5'>AMP</b>運算放大器評估模塊技術解析與應用指南

    明治科普 | 機器人擁有&amp;amp;quot;觸感&amp;amp;quot;:電子皮膚如何實現(xiàn)?

    ,還能模擬人類的觸覺與感知。電子皮膚(E-skin):是種能夠模仿人類皮膚結構和感知功能的柔性電子系統(tǒng)。它不僅能讓機器人“感受”到壓力、溫度、濕度、紋理等外界刺激
    的頭像 發(fā)表于 09-02 07:34 ?1194次閱讀
    明治科普 | <b class='flag-5'>讓</b>機器人擁有&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;觸感&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;:電子皮膚如何實現(xiàn)?

    1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴音器相關產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有1218 MHz 高輸出 GaN CATV 功率倍增器 Amp
    發(fā)表于 09-01 18:30
    1218 MHz 高輸出 <b class='flag-5'>GaN</b> CATV 功率倍增器 <b class='flag-5'>Amp</b>擴音器 skyworksinc

    CS86706適用1~3節(jié)鋰電應用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?395次閱讀
    CS86706適用1~3節(jié)鋰電應用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    新知|Verizon與AT&amp;amp;amp;T也可以手機直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機直連衛(wèi)星方面取得重要進展,使用普通手機實現(xiàn)了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這舉措是針對此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?907次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機直接連接衛(wèi)星了

    多模塊配置!YU系列USB、Type-C連接器為工控機打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機是類用于工業(yè)、野外等復雜惡劣環(huán)境的專用計算機設備,如何實現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴苛環(huán)境適配性及長期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?487次閱讀
    多模塊配置!YU系列USB、Type-C連接器為工控機打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案

    在線研討會 @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &amp;amp;amp; SR 處理器的無限可能

    邊緣AI的發(fā)展正在改變智能設備的未來,而cASTRA系列處理器正是這領域的佼佼者。2025年4月10日(周四)上午10至11,大聯(lián)大詮鼎集團聯(lián)合Synaptics新突思將舉辦“ASTRA賦能
    的頭像 發(fā)表于 04-02 16:34 ?851次閱讀
    在線研討會 @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; SR 處理器的無限可能

    雙模載波芯片CN8513&amp;amp;amp;CN8514在智能家居中的創(chuàng)新應用

    雙模載波芯片CN8513&amp;CN8514在智能家居中的創(chuàng)新應用
    的頭像 發(fā)表于 02-10 09:43 ?982次閱讀
    雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514在智能家居中的創(chuàng)新應用

    HPLC+HRF雙模載波芯片CN8513&amp;amp;amp;CN8514應用于智能樓宇

    HPLC+HRF雙模載波芯片CN8513&amp;CN8514應用于智能樓宇
    的頭像 發(fā)表于 01-09 10:01 ?1196次閱讀
    HPLC+HRF雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514應用于智能樓宇

    HPLC+HRF雙模載波芯片CN8513&amp;amp;amp;CN8514用于智能抄表系統(tǒng)

    HPLC+HRF雙模載波芯片CN8513&amp;CN8514用于智能抄表系統(tǒng)
    的頭像 發(fā)表于 01-03 10:04 ?2424次閱讀
    HPLC+HRF雙模載波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514用于智能抄表系統(tǒng)

    如何判斷產(chǎn)品需不需要做AT&amp;amp;amp;T認證?AT&amp;amp;amp;T測試內(nèi)容和要求分享

    隨著經(jīng)濟全球化的發(fā)展,國內(nèi)越來越多產(chǎn)品廠商選擇將自家產(chǎn)品出口到北美市場,而這時候各位廠商都會面臨產(chǎn)品需不需要做AT&amp;T的問題。今天英利檢測針對這問題整理了些關于AT&amp
    的頭像 發(fā)表于 12-23 17:46 ?1029次閱讀
    如何判斷產(chǎn)品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T測試內(nèi)容和要求分享

    上新 | 超全模塊超乎想象,YU系列USB&amp;amp;amp;Type-C多模塊工業(yè)級連接器新品驚喜上市

    Type-C,Type-C轉USB等眾多功能,海量模塊應俱全,滿足超乎想象的豐富數(shù)據(jù)連接訴求。作為市場同類產(chǎn)品中不可多得的多模塊、多功能USB&amp;Type-C連接器,它的上市將
    的頭像 發(fā)表于 12-17 18:25 ?965次閱讀
    上新 | 超全模塊超乎想象,YU系列USB&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Type-C多模塊工業(yè)級連接器新品驚喜上市

    AR&amp;amp;MR光波導器件的仿真研究

    隨著增強現(xiàn)實和混合現(xiàn)實(AR&amp;amp;MR)領域新技術的出現(xiàn),使光學光波導越來越受歡迎。為了對此類結構進行建模和設計,VirtualLab Fusion使用其強大的光波導工具箱,該工具箱允許
    發(fā)表于 12-13 09:57