chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

放下你的PhotoShop!無限圖像編輯已開源!

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-12-10 10:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0. 筆者個人體會

最近文本到圖像的工作很火,生成的圖像也非常真實(shí)。但還有個問題,現(xiàn)有工作效率比較低,往往只能接受一次text指令,再修改就要重新輸入text重新生成,可能會影響原本的語義信息,這樣導(dǎo)出的圖像和最初圖像可能差距甚遠(yuǎn)。

今天筆者將為大家分享一項(xiàng)最新開源的工作LEDITS++,可以一次輸入無限多的編輯指令,一次性生成真實(shí)圖像!而且LEDITS++是無參數(shù)方案,不需要微調(diào)和優(yōu)化。不得不感慨AI發(fā)展之迅速,距離人們真實(shí)生活也越來越近了。

下面一起來閱讀一下這項(xiàng)工作,文末附論文和代碼鏈接~

1. 效果展示

先看一下具體效果,輸入具體指令就可以直接產(chǎn)生對應(yīng)效果。PS要想在幾十秒內(nèi)達(dá)到同等效果應(yīng)該是有點(diǎn)困難。

27892dc0-96ad-11ee-8b88-92fbcf53809c.png

LEDITS++很強(qiáng)調(diào)編輯前后的圖像一致性,也就是僅修改圖像的相關(guān)區(qū)域,保持原始圖像的語義信息。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

27a9e4fc-96ad-11ee-8b88-92fbcf53809c.png

代碼已經(jīng)開源了,官方主頁也開放了交互式demo,感興趣的讀者可以上傳自己的圖像和文本指令嘗鮮一下效果。

2. 具體原理是什么?

LEDITS++可以分為三個部分:(1)有效的圖像反轉(zhuǎn);(3)多功能文本編輯;(3)圖像變化的語義基礎(chǔ)。

我們知道擴(kuò)散模型生成圖像是通過反轉(zhuǎn)采樣來進(jìn)行的,重點(diǎn)是識別噪聲。LEDITS++從DDPM反演中提取特征,并提出一種有效的反演方法,大大減少所需的步驟,同時降低重建誤差。當(dāng)將反向擴(kuò)散過程公式化為SDE時,DDPM可以被視為一階SDE解算器。使用高階微分方程解算器可以更有效地解算,因此作者推導(dǎo)出一種新的更快技術(shù)------DPM-solver++反演。

27cde406-96ad-11ee-8b88-92fbcf53809c.png

在創(chuàng)建重建序列之后,可以通過一組編輯指令操縱噪聲來編輯圖像。根據(jù)有條件和無條件估計,作者分別設(shè)計了一個專門的引導(dǎo)項(xiàng),既反映了編輯的方向,又最大化了對所需編輯效果的細(xì)粒度控制。

27ef003c-96ad-11ee-8b88-92fbcf53809c.png

最后,LEDITS++還包括一個Mask項(xiàng),由交叉注意層生成的Mask和噪聲估計導(dǎo)出的Mask取交集計算得到。Mask可以捕捉與編輯概念相關(guān)的圖像區(qū)域,對于多次編輯特別有效。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

2815c21c-96ad-11ee-8b88-92fbcf53809c.png

3. 和其他SOTA方法對比如何?

不同編輯方法的指令對齊和圖像相似度權(quán)衡的比較,側(cè)重CLIP得分(越高越好)與LPIPS相似度(越低越好),也就是圖中越靠近左上角效果越好。

282ecd02-96ad-11ee-8b88-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    42055
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37165

    瀏覽量

    291404
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3888

    瀏覽量

    45318

原文標(biāo)題:放下你的PhotoShop!無限圖像編輯已開源!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    迅龍軟件亮相2025開放原子開源生態(tài)大會,共繪AI+開源智能圖景

    7月23日,2025開放原子開源生態(tài)大會在北京舉行。大會由開放原子開源基金會主辦,以“開源賦能產(chǎn)業(yè),生態(tài)共筑未來”為主題,旨在展示中國開源生態(tài)“創(chuàng)新發(fā)展+開放協(xié)作”的成果,匯聚全球
    的頭像 發(fā)表于 07-25 18:15 ?868次閱讀
    迅龍軟件亮相2025開放原子<b class='flag-5'>開源</b>生態(tài)大會,共繪AI+<b class='flag-5'>開源</b>智能圖景

    開源交通行業(yè)應(yīng)用實(shí)踐分論壇即將召開

    當(dāng)前,全球開源生態(tài)蓬勃發(fā)展,賦予產(chǎn)業(yè)升級創(chuàng)新之力,開拓數(shù)字經(jīng)濟(jì)時代的無限機(jī)遇。開源鴻蒙作為萬物智聯(lián)時代的全場景智能終端操作系統(tǒng),在交通領(lǐng)域落地生根,正在打造更具影響力的“中國方案”與“中國標(biāo)準(zhǔn)”,為全球智慧交通發(fā)展注入創(chuàng)新動能。
    的頭像 發(fā)表于 07-23 09:53 ?506次閱讀

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA Jetson 加速運(yùn)行。
    的頭像 發(fā)表于 07-16 09:16 ?1511次閱讀

    擁抱開源!一起來做FPGA開發(fā)板啦!

    ,發(fā)起“擁抱開源——一起來做FPGA開發(fā)板” 項(xiàng)目!無論是FPGA領(lǐng)域的資深開發(fā)者,渴望探索國產(chǎn)芯片的無限可能;還是初入茅廬的技術(shù)小白,想要在實(shí)踐中學(xué)習(xí)成長;亦或是對硬件開發(fā)充滿熱情的愛好者,希望親手
    發(fā)表于 06-06 14:05

    開源鴻蒙開發(fā)者大會2025·AI分論壇圓滿閉幕,探索開源鴻蒙AI無限可能

    5月24日,開源鴻蒙開發(fā)者大會2025·AI分論壇在深圳蛇口希爾頓南海酒店成功舉辦?;顒犹匮麑W(xué)術(shù)領(lǐng)袖、開源專家、行業(yè)先鋒和社區(qū)開發(fā)者,從終端操作系統(tǒng)、國產(chǎn)大模型、智能體、算力芯片、應(yīng)用場景、機(jī)器人等
    的頭像 發(fā)表于 05-26 18:06 ?1218次閱讀
    <b class='flag-5'>開源</b>鴻蒙開發(fā)者大會2025·AI分論壇圓滿閉幕,探索<b class='flag-5'>開源</b>鴻蒙AI<b class='flag-5'>無限</b>可能

    從初學(xué)到進(jìn)階:樹莓派上最適合的代碼編輯器推薦!

    之前,需要安裝一些必備工具,代碼編輯器便是其中之一。樹莓派系統(tǒng)自帶了一些代碼編輯器,它們功能良好,足以滿足基本需求。不過,如果需要更高級的功能,就必須探索其他
    的頭像 發(fā)表于 05-15 16:20 ?613次閱讀
    從初學(xué)到進(jìn)階:樹莓派上最適合<b class='flag-5'>你</b>的代碼<b class='flag-5'>編輯</b>器推薦!

    Vim編輯器的基本操作

    26個字母鍵為核心,用極簡的操作重構(gòu)了代碼編輯的宇宙。今天,就讓我們一同走進(jìn)Vim的世界,探索它如何以獨(dú)特的方式提升的編程效率。
    的頭像 發(fā)表于 05-06 13:41 ?849次閱讀
    Vim<b class='flag-5'>編輯</b>器的基本操作

    TIDA-00570板子的FPGA程序能開放下載嗎?

    TIDA-00570 板子的FPGA程序能開放下載嗎?
    發(fā)表于 02-20 07:07

    SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

    ? 背景簡介 隨著圖像編輯工具和圖像生成技術(shù)的快速發(fā)展,圖像處理變得非常方便。然而圖像在經(jīng)過處理后不可避免的會留下偽影(操作痕跡),這些偽影可分為語義和非語義特征。因此目前幾乎所有的
    的頭像 發(fā)表于 01-15 09:30 ?690次閱讀
    SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

    開源鴻蒙技術(shù)分論壇在武漢成功舉辦

    舉行。本次論壇通過南北向開發(fā)賦能,融合前沿的行業(yè)案例經(jīng)驗(yàn),生動展現(xiàn)了開源鴻蒙在驅(qū)動技術(shù)創(chuàng)新與產(chǎn)業(yè)升級中的優(yōu)勢與無限潛能。 開源技術(shù)引領(lǐng)變革,構(gòu)建枝繁葉茂生態(tài)體系 在萬物智聯(lián)的時代浪潮中,開源
    的頭像 發(fā)表于 12-24 13:38 ?990次閱讀

    與鴻同行,探索無限開源鴻蒙技術(shù)分論壇在武漢成功舉辦

    。本次論壇通過南北向開發(fā)賦能,融合前沿的行業(yè)案例經(jīng)驗(yàn),生動展現(xiàn)了開源鴻蒙在驅(qū)動技術(shù)創(chuàng)新與產(chǎn)業(yè)升級中的優(yōu)勢與無限潛能。開源技術(shù)引領(lǐng)變革,構(gòu)建枝繁葉茂生態(tài)體系在萬物智聯(lián)的
    的頭像 發(fā)表于 12-23 21:29 ?1355次閱讀
    與鴻同行,探索<b class='flag-5'>無限</b>!<b class='flag-5'>開源</b>鴻蒙技術(shù)分論壇在武漢成功舉辦

    高倍金相自動測量顯微鏡無限遠(yuǎn)光學(xué)系統(tǒng)

    高倍金相自動測量顯微鏡無限遠(yuǎn)光學(xué)系統(tǒng)在無限遠(yuǎn)處形成圖像,是通過在物鏡與目鏡之間的主鏡筒中設(shè)置鏡筒透鏡,構(gòu)建了一個能夠形成中間圖像的光學(xué)系統(tǒng)。并可以靈活添加各種輔助組件,豐富了顯微鏡的功
    的頭像 發(fā)表于 12-14 20:31 ?1217次閱讀
    高倍金相自動測量顯微鏡<b class='flag-5'>無限</b>遠(yuǎn)光學(xué)系統(tǒng)

    字節(jié)發(fā)布SeedEdit圖像編輯模型

    近日,字節(jié)跳動公司在其豆包大模型團(tuán)隊(duì)的官方網(wǎng)站上,正式公布了其最新的通用圖像編輯模型——SeedEdit。這款創(chuàng)新性的圖像編輯模型,為用戶提供了前所未有的便捷圖像編輯體驗(yàn)。 據(jù)官方介紹
    的頭像 發(fā)表于 11-12 10:43 ?977次閱讀

    圖像采集卡的接口類型有哪些?

    圖像采集卡又稱圖像捕獲卡,是一種能獲取數(shù)字視頻圖像信息并進(jìn)行存儲和播放的硬件設(shè)備。它的作用是將圖像信號采集到計算機(jī)中,以數(shù)據(jù)文件的形式保存在硬盤上,是
    的頭像 發(fā)表于 10-24 17:07 ?1048次閱讀
    <b class='flag-5'>圖像</b>采集卡的接口類型有哪些?