大變活人,需要幾個(gè)步驟?
萬萬沒想到,這么經(jīng)典的大型魔術(shù),現(xiàn)在都能零基礎(chǔ)入門了。
在快手和江蘇衛(wèi)視聯(lián)手打造的「一千零一夜」晚會(huì)上,迪麗熱巴就當(dāng)場(chǎng)表演了一個(gè)。
不需要道具,不需要托兒,也不挑時(shí)間地點(diǎn),她就這么在直播鏡頭里blingbling地閃現(xiàn)了。
并且位場(chǎng)的波動(dòng),完全沒有破壞背景的完整。(手動(dòng)狗頭)
最關(guān)鍵的是,給你一部安裝了快手的手機(jī),你同樣可以實(shí)現(xiàn)。
沒錯(cuò),這個(gè)能實(shí)時(shí)實(shí)現(xiàn)電影大片里隱身特效的黑科技,就是快手最近上線的AI新玩法——「隱身魔法」。這是結(jié)合單圖圖像修復(fù)和幀間圖像對(duì)齊技術(shù)的視頻修復(fù)算法,在短視頻行業(yè)中的首次應(yīng)用。
不僅能「憑空出現(xiàn)」,對(duì)著鏡頭比個(gè)「6」,你還能當(dāng)場(chǎng)變身透明人,跟空氣融為一體。
效果如此絲滑,難怪上線幾天時(shí)間,快手用戶就玩得飛起,迅速貢獻(xiàn)了77.5w個(gè)相關(guān)作品。
一時(shí)成為年度短視頻最熱特效玩法。
移動(dòng)端的實(shí)時(shí)視頻修復(fù)技術(shù)
讓視頻里的人實(shí)時(shí)隱身,怎么個(gè)原理?
此前,量子位其實(shí)介紹過類似的「隱身」算法,比如弗吉尼亞大學(xué)和Facebook聯(lián)手打造的基于光流邊緣引導(dǎo)的視頻修復(fù)算法。
雖然有學(xué)術(shù)領(lǐng)域的前例,但想要把這樣的技術(shù)應(yīng)用到移動(dòng)端,仍然存在不小的挑戰(zhàn)。
最主要的問題在于計(jì)算量,視頻修復(fù)涉及到多幀計(jì)算,其深度學(xué)習(xí)模型普遍計(jì)算量較大,很難在移動(dòng)端運(yùn)行。
那么快手是怎么做到的?量子位照例來一一捋清楚。
其實(shí)道理很簡(jiǎn)單,想要把畫面中的人抹掉,除了自動(dòng)把人像摳出來之外,AI還得學(xué)會(huì)腦補(bǔ)人像遮擋住的真實(shí)背景。
這就涉及到兩方面的問題:
初始幀人像區(qū)域的背景修復(fù)
后續(xù)相機(jī)、人物運(yùn)動(dòng)過程中人像區(qū)域的背景填充
為了解決這兩個(gè)問題,快手的工程師們將算法整體分成了兩個(gè)階段:
首幀使用移動(dòng)端腦補(bǔ)模型實(shí)現(xiàn)對(duì)人像區(qū)域的背景填充,后續(xù)幀使用幀間實(shí)時(shí)跟蹤匹配投影,實(shí)現(xiàn)可見背景區(qū)域向人物遮擋區(qū)域的填充。
基于DeepFill的圖像修復(fù)算法
首先來看首幀修復(fù)。具體到模型架構(gòu)上,快手工程師主要基于開源的DeepFill模型,根據(jù)實(shí)際需求進(jìn)行了定制化開發(fā)和優(yōu)化。
DeepFill是一種基于GAN提出的圖像修復(fù)方法,修復(fù)能力是醬嬸的:
在此基礎(chǔ)上,快手在整個(gè)模型設(shè)計(jì)中采用coarse to refine雙階段結(jié)構(gòu)。
第一階段,在小尺寸上進(jìn)行初步修復(fù),利用較少計(jì)算量的coarse網(wǎng)絡(luò)得到缺失區(qū)域的大概輪廓。
第二階段,將該初步結(jié)果融合到原圖在大尺寸上利用refine網(wǎng)絡(luò)生成缺失區(qū)域的細(xì)節(jié)。
而為了讓模型能在移動(dòng)端上更好地部署運(yùn)行,工程師們還采用剪枝和蒸餾方法進(jìn)一步壓縮了模型結(jié)構(gòu)。
在算法研發(fā)過程中,工程師還發(fā)現(xiàn),缺失區(qū)域越大,圖像修復(fù)結(jié)果越不可控,使用L1損失和GAN損失無法有效的約束修復(fù)區(qū)域的結(jié)構(gòu)和語義的合理性。
針對(duì)此問題,一方面采用邊界生成聯(lián)合訓(xùn)練的方法,對(duì)邊界這一結(jié)構(gòu)信息進(jìn)行直接約束,明顯提高了大缺失區(qū)域情況下修復(fù)結(jié)果的合理性。另一方面采用多尺度預(yù)測(cè)的方式對(duì)模型中間層的特征進(jìn)行了約束,有效提升了修復(fù)結(jié)果的清晰度。
在損失函數(shù)方面,在訓(xùn)練中工程師采用了SSIM、Lpips感知損失、PatchGan損失和蒸餾損失,在小模型上也實(shí)現(xiàn)良好的圖像修復(fù)結(jié)果。
在訓(xùn)練數(shù)據(jù)方面,快手工程師構(gòu)建了一個(gè)包含100W背景圖和10W人像mask的通用圖像修復(fù)數(shù)據(jù)集,包含居家、辦公、建筑、風(fēng)景、虛擬CG等常見環(huán)境。
并且,根據(jù)背景數(shù)據(jù)的紋理復(fù)雜度進(jìn)行了分類,模型訓(xùn)練過程中隨著網(wǎng)絡(luò)逐步收斂,逐漸加大復(fù)雜紋理數(shù)據(jù)的比例,使得模型更好地完成從簡(jiǎn)單到復(fù)雜等多種背景的修復(fù)。
一套組合拳下來,測(cè)試的結(jié)果如下。從左到右,分別是輸入圖像、邊界預(yù)測(cè)、腦補(bǔ)結(jié)果和實(shí)際背景。
實(shí)時(shí)跟蹤投影匹配
而在后續(xù)幀的背景修復(fù)上,為了更好地利用已有的背景信息,需要將已經(jīng)存在的背景投影到當(dāng)前幀實(shí)現(xiàn)對(duì)人像遮擋區(qū)域的修復(fù),即幀間圖像映射。
目前對(duì)幀間圖像映射關(guān)系的描述主要有三種方式:簡(jiǎn)單的全局單應(yīng)變換,基于柵格的局部單應(yīng)變換,以及復(fù)雜的逐像素的稠密光流。
其中,全局單應(yīng)變換雖然計(jì)算量較小,但無法描述復(fù)雜的三維結(jié)構(gòu)映射。
逐像素的稠密光流算法可以得到精確的圖像間可見像素的映射關(guān)系,但對(duì)于人像區(qū)域內(nèi)未知區(qū)域的修復(fù)無法實(shí)現(xiàn),另外限于手機(jī)平臺(tái)計(jì)算量的限制,該算法無法滿足實(shí)時(shí)獲取映射關(guān)系的需求。
因此,快手采用基于柵格的局部單應(yīng)變換的圖像對(duì)齊算法,來平衡計(jì)算量和精確度之間的關(guān)系。通過同時(shí)優(yōu)化幀間特征點(diǎn)的光度誤差和柵格的形變誤差,在低計(jì)算量的情況下也能得到精準(zhǔn)的幀間映射關(guān)系,有效地將歷史幀的可見區(qū)域信息實(shí)時(shí)傳播到當(dāng)前畫面。
并且,通過調(diào)節(jié)柵格數(shù)量,可以很方便的調(diào)節(jié)算法的計(jì)算量和映射的精度,實(shí)現(xiàn)多機(jī)型的算法適配。
中低端機(jī)型都能用,真正麻瓜的「魔法」
其實(shí),對(duì)快手的工程師而言,僅僅實(shí)現(xiàn)效果是遠(yuǎn)遠(yuǎn)不夠的。
更重要的一點(diǎn),是要在移動(dòng)端硬件種類繁多的情況下,覆蓋高、中、低端各種手機(jī)型號(hào),讓每一個(gè)檔次的機(jī)型的能力都發(fā)揮到最大。
一方面,是因?yàn)槊恳淮蔚漠a(chǎn)品落地,都關(guān)系到4億用戶的實(shí)際體驗(yàn),牽一發(fā)而動(dòng)全身。
另一方面,快手的用戶特性決定,用戶手中的手機(jī)型號(hào)分布會(huì)很廣,不同機(jī)型算力和內(nèi)存資源差異很大。
而要做到這一點(diǎn),快手依靠的是自研的YCNN深度學(xué)習(xí)推理引擎。
拿CPU來說,無論是蘋果、高通、華為還是聯(lián)發(fā)科的芯片,無論是高端的驍龍865還是低端的驍龍450、430,YCNN引擎都能支持模型在上面運(yùn)行。同樣,GPU方面,YCNN引擎同時(shí)支持Mali、Adreno、Apple和英偉達(dá)等多種GPU。NPU方面,蘋果Bionic,華為HiAI,高通SNPE和MTK的APU均在支持范圍之內(nèi)。
同時(shí),YCNN引擎具有完備的模型結(jié)構(gòu)與數(shù)值精度,支持常見的CNN, RNN結(jié)構(gòu),支持float32, float16,uint8等不同精度計(jì)算。
為了在更大程度上利用手機(jī)算力,YCNN引擎還提供了多種模型,既有針對(duì)高算力NPU設(shè)計(jì)的大模型,有針對(duì)高端CPU、GPU設(shè)計(jì)的級(jí)的不同的小模型,也有針對(duì)中低端CPU處理器設(shè)計(jì)的特定小模型。同時(shí),通過模型下發(fā)的方式,將設(shè)備上的最好算力與相應(yīng)的模型進(jìn)行匹配,以期達(dá)到效果與性能的最佳平衡,給用戶帶來最好的體驗(yàn)。
在推理引擎的優(yōu)化方面,針對(duì)不同的設(shè)備端,快手的工程師們分別設(shè)計(jì)了Metal算子、OpenCL算子以及Neon算子等等,有針對(duì)性地進(jìn)行了算子的優(yōu)化,以最大化利用設(shè)備性能,提升模型的運(yùn)算速度。
此外,YCNN引擎具有完善的AI模型工具鏈,支持PyTorch, TF/TFlite模型直接轉(zhuǎn)換為YCNN模型,并支持訓(xùn)練時(shí)模型量化與基于硬件的模型結(jié)構(gòu)搜索。綜合性能比業(yè)界引擎有10%左右的優(yōu)勢(shì)。
快手之道
最后,回到AI特效、回到晚會(huì),回到快手本身。
快手的技術(shù)和AI特效魔法,之前介紹的也不少。這家依靠短視頻迅速崛起的技術(shù)公司,一方面把最新最前沿的技術(shù)帶給了更多人,另一方面也通過技術(shù),讓用戶體驗(yàn)到從「記錄每一種生活」到「擁抱每一種生活」。
但更值得稱道的是,快手之道,更在于面對(duì)最前沿技術(shù)時(shí)的心態(tài)——希望無差別地讓每一個(gè)用戶使用,感受技術(shù)的樂趣,無論是何種機(jī)型,無論信號(hào)覆蓋如何。
現(xiàn)在,這種快手之道,在往線下延續(xù),讓線上的用戶有機(jī)會(huì)登上線下的舞臺(tái),和明星一起亮相,展示自己。從線上到線下,跨越平臺(tái)和社區(qū)。
這次快手「九年磨一劍」打造的「一千零一夜」超豪華陣容晚會(huì),就是最直觀的例證。
一方面,快手與江蘇衛(wèi)視攜手,臺(tái)網(wǎng)聯(lián)動(dòng),在節(jié)目?jī)?nèi)核和呈現(xiàn)形式上實(shí)現(xiàn)了大小屏的深度融合。不只是實(shí)時(shí)隱身特效,還有黃渤跟周杰倫的低延時(shí)連麥、虛擬技術(shù)加持下的F4隔空同臺(tái)等黑科技,都給觀眾帶來了新的觀賞體驗(yàn)。
另一方面,從明星陣容上就可以看出快手的號(hào)召力在增強(qiáng),星素同臺(tái)的晚會(huì)形式,形成了快手獨(dú)有的文化IP。
數(shù)據(jù)同樣也佐證了這一點(diǎn)。據(jù)悉,這場(chǎng)晚會(huì)快手官方直播間觀看總?cè)藬?shù)達(dá)9008萬,直播間互動(dòng)總量達(dá)1.34億次,最高同時(shí)在線人數(shù)達(dá)315萬,預(yù)約直播總?cè)藬?shù)達(dá)到3100萬。
如此巨大的流量和關(guān)注度,無疑也是一場(chǎng)技術(shù)價(jià)值觀的科普。
在舞臺(tái)之上,有明星大咖和快手達(dá)人的跨界合作;舞臺(tái)之下,快手也踏踏實(shí)實(shí)遵循提升用戶體驗(yàn)、創(chuàng)造用戶價(jià)值的技術(shù)信仰,使得陽春白雪和下里巴人的種種「人間煙火」,都能通過AI技術(shù)這樣的前沿科技為生活增添色彩。
這是理性科技之外的那一面:用奇幻科技,打破人間藩籬。
之前有句「老話」,說科技是麻瓜的魔法。
但比起這種魔法,打造魔法本身的工程師、讓魔法真正無差別應(yīng)用的工程師,不易于被推至鎂光燈下,但依然值得掌聲和褒獎(jiǎng)。
你還能舉出其他的「魔法」案例嗎?
最后的最后,開發(fā)該特效的技術(shù)團(tuán)隊(duì)是快手Y-tech團(tuán)隊(duì),這里也特別傳送一下:
這支團(tuán)隊(duì)致力于計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)、AR/VR 等領(lǐng)域的技術(shù)創(chuàng)新和業(yè)務(wù)落地,不斷探索新技術(shù)與新用戶體驗(yàn)的最佳結(jié)合點(diǎn)。目前 Y-tech 在北京、深圳、杭州、Seattle、Palo Alto 有研發(fā)團(tuán)隊(duì),大部分成員來自于國際知名公司和大學(xué)。
責(zé)任編輯:lq
-
視頻
+關(guān)注
關(guān)注
6文章
1972瀏覽量
73925 -
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
56745 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794
原文標(biāo)題:分分鐘擁有哈利波特的隱身衣,還是在手機(jī)端的那種
文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
明遠(yuǎn)智睿SSD2351開發(fā)板:視頻監(jiān)控領(lǐng)域的卓越之選
Arm 公司面向移動(dòng)端市場(chǎng)的 ?Arm Lumex? 深度解讀
堆焊過程熔池相機(jī)實(shí)時(shí)缺陷檢測(cè)技術(shù)

降低液晶面板修復(fù)線的信號(hào)延遲及液晶線路修光修復(fù)

MWC2025亮點(diǎn)放送 探索Arm如何塑造移動(dòng)端技術(shù)未來

BEM在移動(dòng)端開發(fā)中的應(yīng)用案例
低空視頻傳輸在望獲實(shí)時(shí)linux系統(tǒng)上的應(yīng)用
騰訊視頻攜手頂尖移動(dòng)端廠商為用戶打造極致觀影體驗(yàn)
AI模型部署邊緣設(shè)備的奇妙之旅:邊緣端設(shè)備的局域網(wǎng)視頻流傳輸方案

RTC技術(shù)在實(shí)時(shí)通信中的應(yīng)用 RTC與VoIP的區(qū)別
慧視高效壓縮技術(shù) 解決多路視頻傳輸難點(diǎn)

評(píng)論