chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種圖像語(yǔ)義分層處理框架,可以實(shí)現(xiàn)像素級(jí)別的圖像語(yǔ)義理解和操縱

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-27 08:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

密歇根大學(xué)和谷歌大腦的研究人員合作,提出了一種圖像語(yǔ)義分層處理框架,可以實(shí)現(xiàn)像素級(jí)別的圖像語(yǔ)義理解和操縱,在圖像中任意添加、改變、移動(dòng)對(duì)象,并與原圖渾然一體,實(shí)現(xiàn)真正的“毫無(wú)PS痕跡”。

曾經(jīng),你以為下面普京×容嬤嬤那張圖就稱(chēng)得上“毫無(wú)PS痕跡”了。

的確,用肉眼看,效果是很不錯(cuò)。但是,在專(zhuān)業(yè)的圖像分析軟件下,修改的痕跡一目了然。

你再看看這兩張圖:

不不不,這不是“找不同”,是為了讓你感受一下“像素級(jí)語(yǔ)義分割和理解”帶來(lái)的修圖效果:

可能,你需要看得更清晰一點(diǎn)。

看好了哦,這是原圖:

發(fā)現(xiàn)有什么不同/不自然的地方了嗎?(提示:一共有7處不同)。

先別急著往下拉……

答案揭曉:

實(shí)際上,找出不同是很簡(jiǎn)單的(畢竟多了好幾個(gè)東西),關(guān)鍵是這樣像素級(jí)的改動(dòng),比原先意義上“毫無(wú)PS痕跡”增強(qiáng)了一大步!

無(wú)論是色調(diào)、光線(xiàn)還是紋理,都與原圖配合得更加自然,操作起來(lái)也十分簡(jiǎn)單方便。

這多虧了密歇根大學(xué)和谷歌大腦的研究人員,他們提出了一種新的圖像語(yǔ)義處理分層框架,首先根據(jù)圖像中給定對(duì)象的邊界框,學(xué)習(xí)生成像素級(jí)語(yǔ)義標(biāo)簽地圖(pixel-wise semantic label maps),然后根據(jù)這個(gè)地圖再生成新的圖像。

因此,用戶(hù)可以實(shí)現(xiàn)對(duì)象級(jí)的操縱,無(wú)論是改變顏色、移動(dòng)位置、去除某個(gè)物體,增加新的東西,或者把原來(lái)在最前面的人物往后移一層或兩層,而且與原圖像自然融為一體。

操作只需要一步即可:

圖像語(yǔ)義分層處理框架工作流程圖示意:輸入車(chē)道照片,輸出上面有一輛車(chē)的照片

定量和定性結(jié)果分析,該方法比當(dāng)前流行的Context Encoder、Pix2PixHD等效果都要高出許多。這有望掀起計(jì)算機(jī)視覺(jué)和圖像處理界的巨變,難怪有人看完后在Twitter留言:

“在我兩年前開(kāi)始學(xué)計(jì)算機(jī)視覺(jué)時(shí),這種技術(shù)簡(jiǎn)直是無(wú)法想象的?!薄昂?jiǎn)直是科幻變成了現(xiàn)實(shí)!”

還有人疾呼:PS里有個(gè)功能我想在就想要!

像素級(jí)分層語(yǔ)義處理框架,實(shí)現(xiàn)圖片對(duì)象自然修改

想必大家看到這個(gè)神級(jí)PS技術(shù),對(duì)其原理應(yīng)該是十分好奇了吧!接下來(lái),小編就帶著讀者領(lǐng)略這款神技的技術(shù)奧秘!

正如上述所言,這個(gè)PS技術(shù)框架的核心就是分層圖像處理。

當(dāng)給出新的邊界框B時(shí),算法首先通過(guò)以B為中心、尺寸為S×S的裁剪平方窗口,提取標(biāo)簽映射(semantic label map)M∈RS×S×C和圖像I∈RS×S×3的局部觀測(cè)值。 在M,I和B上,模型通過(guò)以下過(guò)程生成操縱圖像:

給定邊界框B和語(yǔ)義標(biāo)簽映射M,結(jié)構(gòu)生成器通過(guò)

給定操縱的標(biāo)簽映射M和圖像I,圖像生成器通過(guò)

而在分層圖像處理過(guò)程中,有兩個(gè)核心的關(guān)鍵步驟:

結(jié)構(gòu)生成器(Structure Generator)

結(jié)構(gòu)生成器的目標(biāo)是以像素級(jí)類(lèi)標(biāo)簽M∈RS×S×C的形式推斷由B = {b,c}指定的區(qū)域的潛在結(jié)構(gòu)。

結(jié)構(gòu)生成器的體系結(jié)構(gòu)

給定一個(gè)masked layout M和一個(gè)binary mask B,分別用于對(duì)目標(biāo)的類(lèi)和位置進(jìn)行編碼。該模型通過(guò)來(lái)自雙流解碼器(two-stream decoder)的輸出產(chǎn)生M(該雙流解碼器對(duì)應(yīng)于box整個(gè)區(qū)域中對(duì)象的二進(jìn)制掩碼和語(yǔ)義標(biāo)簽映射)。

圖像生成器(Image Generator)

給定一張圖像I和從結(jié)構(gòu)生成器中獲得的可操縱layout M,圖像生成器輸出區(qū)域內(nèi)由B定義的、內(nèi)容的像素級(jí)預(yù)測(cè)。

圖像生成器的體系結(jié)構(gòu)

給定一張masked圖像I和語(yǔ)義layout M,該模型使用單獨(dú)的編碼路徑對(duì)對(duì)象的視覺(jué)樣式和語(yǔ)義結(jié)構(gòu)進(jìn)行編碼,并產(chǎn)生被操縱的圖像。

超越當(dāng)前最好標(biāo)準(zhǔn),從此修圖隨心所欲

定量評(píng)估

Ablation Study。 為了分析所提方法的有效性,對(duì)該方法的幾種變體進(jìn)行了Ablation Study。 首先考慮圖像生成器的三個(gè)基線(xiàn):

僅限于圖像上下文(SingleStream-Image);

僅限于語(yǔ)義布局(SingleStream-Layout);

對(duì)上述兩個(gè)基線(xiàn)的結(jié)合。

結(jié)果如下表所示:

下圖顯示了基線(xiàn)的定性比較:

定性分析

語(yǔ)義對(duì)象處理

通過(guò)將汽車(chē)的同一個(gè)邊界框移動(dòng)到圖像中的不同位置來(lái)展示操作結(jié)果

從圖中可以看到,當(dāng)把車(chē)的邊框從一邊移動(dòng)到另一邊的時(shí)候,模型所產(chǎn)生的車(chē)輛外觀發(fā)生了變化。有趣的是,汽車(chē)的形狀、方向和外觀也會(huì)根據(jù)周?chē)鷧^(qū)域的場(chǎng)景布局和陰影而改變。

在更多樣化的上下文中生成的結(jié)果

該結(jié)果表明,模型在考慮上下文的情況下生成了合適的對(duì)象結(jié)構(gòu)和外觀。除了生成與周?chē)h(huán)境相匹配的對(duì)象外,還可以對(duì)框架輕松地進(jìn)行擴(kuò)展,允許用戶(hù)直接控制對(duì)象樣式。

擴(kuò)展式操作

用樣式向量控制對(duì)象顏色

結(jié)果表明,模型成功地合成了具有指定顏色的各種對(duì)象,同時(shí)保持圖像的其他部分不變。

交互式和數(shù)據(jù)驅(qū)動(dòng)的圖像編輯

圖像編輯是該模型的關(guān)鍵點(diǎn)之一。通過(guò)添加、刪除和移動(dòng)對(duì)象邊界框來(lái)執(zhí)行交互式圖像處理。 結(jié)果如下圖所示:

在圖像中對(duì)多對(duì)象進(jìn)行處理的例子

表明該方法生成合理的語(yǔ)義布局和圖像,可以平滑地增加原始圖像的內(nèi)容。除了交互式操作之外,還可以通過(guò)以數(shù)據(jù)驅(qū)動(dòng)的方式對(duì)圖像中的邊界框進(jìn)行采樣來(lái)自動(dòng)化操作過(guò)程。 結(jié)果如下圖所示:

數(shù)據(jù)驅(qū)動(dòng)的圖像操作示例

室內(nèi)場(chǎng)景數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

使用ADE20K數(shù)據(jù)集對(duì)臥室圖像進(jìn)行定性實(shí)驗(yàn)。 下圖展示了了交互式圖像處理結(jié)果。

室內(nèi)圖像處理的示例

由于室內(nèi)圖像中的對(duì)象涉及更多樣化的類(lèi)別和外觀,因此生成與場(chǎng)景中的其他組件對(duì)齊的適當(dāng)對(duì)象形狀和紋理比街道圖像更具挑戰(zhàn)性。

可以看出,該方法生成的對(duì)象與周?chē)h(huán)境可以保持高度一致性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6250

    瀏覽量

    110742
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42256
  • 圖像分析
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    19186

原文標(biāo)題:谷歌等祭出圖像語(yǔ)義理解分割神器,PS再也不用專(zhuān)業(yè)設(shè)計(jì)師!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RK3588采集Cameralink圖像快速搭建系統(tǒng)辦法

    對(duì)于些特種相機(jī),在進(jìn)行嵌入式開(kāi)發(fā)的時(shí)候,會(huì)遇到諸如ARM+Cameralink接口的圖像采集架構(gòu)。下面距離介紹一種嵌入式圖像采集方案。代替Dalsa采集卡,xtium等系列。也
    發(fā)表于 12-19 10:07

    Progress-Think框架賦能機(jī)器人首次實(shí)現(xiàn)語(yǔ)義進(jìn)展推理

    在視覺(jué)語(yǔ)言導(dǎo)航(VLN)中,機(jī)器人長(zhǎng)期缺乏一種關(guān)鍵能力:它能持續(xù)前進(jìn),卻無(wú)法判斷自己的任務(wù)推進(jìn)到了哪步。導(dǎo)航在空間中不斷展開(kāi),畫(huà)面節(jié)節(jié)推進(jìn),但模型并不知道自己在自然語(yǔ)言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認(rèn)為,引入
    的頭像 發(fā)表于 12-03 09:27 ?291次閱讀
    Progress-Think<b class='flag-5'>框架</b>賦能機(jī)器人首次<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>語(yǔ)義</b>進(jìn)展推理

    Cortex-M級(jí)別的轉(zhuǎn)換

    、 簡(jiǎn)述 Cortex-M 里面有特權(quán)級(jí)別的概念,不同級(jí)別可以設(shè)定不同的權(quán)限,如何轉(zhuǎn)換特權(quán)級(jí)別基本是本章的內(nèi)容。 二、操作模式 ARM M
    發(fā)表于 11-19 07:32

    使用Otsu閾值算法將灰度圖像二值化

    Otsu 算法是由日本學(xué)者OTSU于1979年提出的一種對(duì)圖像進(jìn)行二值化的高效算法,又稱(chēng)“最大類(lèi)間方差法”。當(dāng)我們對(duì)個(gè)圖象進(jìn)行二值化操作的時(shí)候,需要根據(jù)項(xiàng)灰度閾值來(lái)判決每個(gè)
    發(fā)表于 10-28 06:49

    創(chuàng)龍 瑞芯微 RK3588 國(guó)產(chǎn)2.4GHz八核 工業(yè)開(kāi)發(fā)板—視頻圖像處理框架

    創(chuàng)龍科技研發(fā)的 TL3588-EVM 評(píng)估板依托 RK3588/RK3588J SoC 強(qiáng)大的視頻圖像處理能力,可滿(mǎn)足多場(chǎng)景圖像應(yīng)用需求。為幫助開(kāi)發(fā)者全面了解其視頻圖像
    的頭像 發(fā)表于 10-16 11:45 ?1001次閱讀
    創(chuàng)龍 瑞芯微 RK3588 國(guó)產(chǎn)2.4GHz八核 工業(yè)開(kāi)發(fā)板—視頻<b class='flag-5'>圖像</b><b class='flag-5'>處理</b><b class='flag-5'>框架</b>

    微店關(guān)鍵詞搜索接口核心突破:動(dòng)態(tài)權(quán)重算法與語(yǔ)義引擎的實(shí)戰(zhàn)落地

    本文詳解微店搜索接口從基礎(chǔ)匹配到智能推薦的技術(shù)進(jìn)階路徑,涵蓋動(dòng)態(tài)權(quán)重、語(yǔ)義理解與行為閉環(huán)三大創(chuàng)新,助力商家提升搜索轉(zhuǎn)化率、商品曝光與用戶(hù)留存,實(shí)現(xiàn)技術(shù)驅(qū)動(dòng)的業(yè)績(jī)?cè)鲩L(zhǎng)。
    的頭像 發(fā)表于 10-15 14:38 ?352次閱讀

    HarmonyOS應(yīng)用圖像stride處理方案

    當(dāng)圖像存儲(chǔ)在內(nèi)存中時(shí),內(nèi)存緩沖區(qū)可能在每行像素之后包含額外的填充字節(jié)。填充字節(jié)會(huì)影響圖像在內(nèi)存中的存儲(chǔ)方式,但不會(huì)影響圖像的顯示方式。stride是內(nèi)存中
    的頭像 發(fā)表于 06-10 14:17 ?1100次閱讀
    HarmonyOS應(yīng)用<b class='flag-5'>圖像</b>stride<b class='flag-5'>處理</b>方案

    基于LockAI視覺(jué)識(shí)別模塊:C++圖像的基本運(yùn)算

    圖像處理中,理解圖像的基本操作是掌握計(jì)算機(jī)視覺(jué)技術(shù)的關(guān)鍵。本文章將介紹 基于LockAI視覺(jué)識(shí)別模塊下OpenCV 中圖像的基本運(yùn)算方法,
    發(fā)表于 05-06 16:56

    基于LockAI視覺(jué)識(shí)別模塊:C++圖像的基本運(yùn)算

    圖像處理中,理解圖像的基本操作是掌握計(jì)算機(jī)視覺(jué)技術(shù)的關(guān)鍵。本文章將介紹基于LockAI視覺(jué)識(shí)別模塊下OpenCV中圖像的基本運(yùn)算方法,包括
    的頭像 發(fā)表于 05-06 16:20 ?625次閱讀
    基于LockAI視覺(jué)識(shí)別模塊:C++<b class='flag-5'>圖像</b>的基本運(yùn)算

    一種實(shí)時(shí)多線(xiàn)程VSLAM框架vS-Graphs介紹

    針對(duì)現(xiàn)有VSLAM系統(tǒng)語(yǔ)義表達(dá)不足、地圖可解釋性差的問(wèn)題,本文提出vS-Graphs,一種實(shí)時(shí)多線(xiàn)程VSLAM框架。該方案顯著提升了重建地圖的語(yǔ)義豐富度、可解釋性及定位精度。實(shí)驗(yàn)表明
    的頭像 發(fā)表于 04-19 14:07 ?870次閱讀
    <b class='flag-5'>一種</b>實(shí)時(shí)多線(xiàn)程VSLAM<b class='flag-5'>框架</b>vS-Graphs介紹

    中科億海微SoM模組——AI圖像理解決方案

    隨著AI技術(shù)的快速發(fā)展,AI圖像推理作為一種高效、智能的圖像處理技術(shù),已成為推動(dòng)各行業(yè)數(shù)字化轉(zhuǎn)型和智能化升級(jí)的關(guān)鍵。它憑借強(qiáng)大的圖像
    的頭像 發(fā)表于 03-27 13:48 ?751次閱讀
    中科億海微SoM模組——AI<b class='flag-5'>圖像</b>推<b class='flag-5'>理解</b>決方案

    破解透明物體抓取難題,地瓜機(jī)器人 CASIA 推出幾何和語(yǔ)義融合的單目抓取方案|ICRA 2025

    動(dòng)態(tài)語(yǔ)義理解框架提升復(fù)雜場(chǎng)景識(shí)別準(zhǔn)確率,后者結(jié)合幾何建模與語(yǔ)義分析技術(shù)優(yōu)化透明物體操作精度,兩項(xiàng)技術(shù)成果均已在規(guī)模化商業(yè)場(chǎng)景中得到有效驗(yàn)證。
    的頭像 發(fā)表于 03-05 19:30 ?1465次閱讀
    破解透明物體抓取難題,地瓜機(jī)器人 CASIA 推出幾何和<b class='flag-5'>語(yǔ)義</b>融合的單目抓取方案|ICRA 2025

    一種基于正交與縮放變換的大模型量化方法

    近年來(lái),大規(guī)模語(yǔ)言模型(Large Language Models, LLMs)在自然語(yǔ)言處理領(lǐng)域取得了革命性進(jìn)展。以 GPT 系列、LLaMA 等為代表的模型,通過(guò)千億級(jí)參數(shù)的復(fù)雜結(jié)構(gòu)展現(xiàn)出強(qiáng)大的語(yǔ)義理解和生成能力。
    的頭像 發(fā)表于 03-04 11:10 ?1088次閱讀
    <b class='flag-5'>一種</b>基于正交與縮放變換的大模型量化方法

    圖像采集卡:現(xiàn)代圖像處理技術(shù)的關(guān)鍵組件

    在現(xiàn)代科技快速發(fā)展的背景下,圖像處理技術(shù)已成為信息技術(shù)領(lǐng)域不可或缺的部分。圖像采集卡,作為連接計(jì)算機(jī)與各種圖像采集設(shè)備的重要硬件組件,扮演
    的頭像 發(fā)表于 02-20 10:42 ?1262次閱讀
    <b class='flag-5'>圖像</b>采集卡:現(xiàn)代<b class='flag-5'>圖像</b><b class='flag-5'>處理</b>技術(shù)的關(guān)鍵組件

    FPGA圖像處理基礎(chǔ)----實(shí)現(xiàn)緩存卷積窗口

    像素行與像素窗口 圖像是由個(gè)個(gè)像素點(diǎn)構(gòu)成的,對(duì)于
    的頭像 發(fā)表于 02-07 10:43 ?1599次閱讀
    FPGA<b class='flag-5'>圖像</b><b class='flag-5'>處理</b>基礎(chǔ)----<b class='flag-5'>實(shí)現(xiàn)</b>緩存卷積窗口