我們?cè)谧非笤鯓拥木幋a未來(lái)?
Cloud?
Imagine
無(wú)處不在的視頻滲透、井噴式的流量增長(zhǎng)、多元的場(chǎng)景技術(shù)需求、用戶(hù)對(duì)視頻體驗(yàn)的“不將就”……音視頻行業(yè)的快速發(fā)展卻伴隨著“編碼標(biāo)準(zhǔn)升級(jí)速度緩慢”、“硬件紅利見(jiàn)底”、“編碼復(fù)雜度帶來(lái)的成本問(wèn)題”等眾多挑戰(zhàn)。 ? 視頻編碼還“卷”得動(dòng)嗎? ? 究竟怎樣的視頻編碼技術(shù),才能滿足既要又要的體驗(yàn)與成本平衡? ? 面向機(jī)器視覺(jué)的視頻編碼、虛擬現(xiàn)實(shí)視頻、智能化應(yīng)用視頻......前浪翻滾而來(lái),視頻編碼的“未來(lái)式”如何展開(kāi)? ? 本文由IMMENSE、「阿里云視頻云」視頻編碼服務(wù)端負(fù)責(zé)人陳高星和LiveVideoStack策劃、采訪而成。
需求很多,矛盾更多
技術(shù)迭代速度凝固了嗎?摩爾定律走到盡頭了嗎?
視頻編解碼技術(shù)約10年提升50%壓縮率,但這“十年磨一劍”的升級(jí)速度,早就跟不上視頻信息量膨脹的速度。 ? 新編碼標(biāo)準(zhǔn)帶來(lái)的編碼復(fù)雜度增加,遠(yuǎn)高于CPU處理能力的增強(qiáng),隨之面臨編碼技術(shù)難以“普惠”的難題。 ? 隨著視頻在更多應(yīng)用場(chǎng)景的擴(kuò)展探索,單一編碼標(biāo)準(zhǔn)已難覆蓋多種視頻應(yīng)用需求…… ? 顯然,一邊是AR、VR時(shí)代的到來(lái),以及4K、8K的高分辨率,60-120fps高幀率,10-12bit寬色域,讓視頻本身的信息量數(shù)倍膨脹;一邊,是資源堆疊置換壓縮效率,和“摩爾定律”的進(jìn)步已經(jīng)走到了“盡頭”。加之,視頻的“超低延時(shí)”對(duì)編碼速度的要求,這一切,讓視頻體驗(yàn)、帶寬、計(jì)算成本、編碼速度之間的“矛盾”越發(fā)明顯。 ? 于是,我們始終面臨更高清、更實(shí)時(shí)、更高效的編碼需求,也面臨技術(shù)與需求之間的諸多“矛盾”。 ? 在這些似乎難以平衡的“矛盾”背景下,也衍生出許多值得進(jìn)一步探討的問(wèn)題:
??現(xiàn)有的編碼標(biāo)準(zhǔn)在哪些方面關(guān)注不夠?
??如何先用好現(xiàn)有的編碼標(biāo)準(zhǔn)?
??現(xiàn)有的視頻編碼技術(shù)覆蓋不到的維度有哪些?
??除了碼率和質(zhì)量,視頻編碼是否需要關(guān)注更多的目標(biāo)?
? 如何打破資源堆疊置換視頻壓縮效率提升的技術(shù)思維慣性?
……
從需求、矛盾、問(wèn)題中,可引出深一層的認(rèn)知:編碼優(yōu)化的目標(biāo)不再僅僅考慮傳統(tǒng)的主客觀質(zhì)量、復(fù)雜度、時(shí)延等維度,還有與AI處理能力的友好性、多平臺(tái)下性能的適配性等。 ? 問(wèn)題的提出總是伴隨著解題思路和技術(shù)方向的選擇。 ? 于是,推動(dòng)著編解碼架構(gòu)從傳統(tǒng)向更智能、更兼容的方向演進(jìn)。
終極目標(biāo),有些偏倚
在優(yōu)化編解碼時(shí),我們究竟需要追求什么?
當(dāng)2015年阿里云視頻云向業(yè)界提出了“窄帶高清”的概念,并在2016年正式推出窄帶高清技術(shù)品牌并產(chǎn)品化,這種既“降低碼率”又“提高清晰度”的兼顧之方,幾乎成為了業(yè)界的通用解法。 ? 但是,不斷演化之下到當(dāng)前,業(yè)內(nèi)開(kāi)始流行一種“內(nèi)卷”,即,過(guò)度追求"某客觀指標(biāo)數(shù)據(jù)"的優(yōu)化。 ? 然而,以“人”為中心的視頻化視角,在最終的用戶(hù)體驗(yàn)上,視頻都應(yīng)是更關(guān)注主觀體驗(yàn)的。相反的是,在實(shí)際研發(fā)過(guò)程中,特別是編碼器的優(yōu)化上,通常都是依賴(lài)如:PSNR、SSIM、VMAF-NEG這樣的“有源客觀指標(biāo)”。 ? 誠(chéng)然,在大部分情況下,客觀質(zhì)量的提升都能一定程度反映到主觀質(zhì)量的提升上,特別是當(dāng)樣本數(shù)足夠大,且客觀質(zhì)量提升較大時(shí),客觀指標(biāo)和主觀感受能呈現(xiàn)一致性。 ? 不過(guò)在窄帶高清的優(yōu)化實(shí)踐中,也存在一些主客觀優(yōu)化“不一致”的情況。 ? 比如:H.265標(biāo)準(zhǔn)中的SAO工具,用于改善振鈴效應(yīng),但隨之會(huì)降低VMAF和VMAF-NEG分?jǐn)?shù); ? X265編碼器里的PSY工具,在主觀質(zhì)量上能增加高頻細(xì)節(jié),但是對(duì)于客觀指標(biāo)都是不友好的; ? 又比如:JND和ROI技術(shù),在挖掘視覺(jué)失真冗余的過(guò)程中,也不可避免地會(huì)造成有源客觀指標(biāo)的下降; ? 阿里云自研的碼控算法,會(huì)對(duì)容易出現(xiàn)“塊效應(yīng)”等主觀問(wèn)題的區(qū)域分配更多碼率以保護(hù)主觀質(zhì)量,但這也會(huì)導(dǎo)致客觀質(zhì)量下降; ? 還有,前處理增強(qiáng)中的各種修復(fù)生成技術(shù),會(huì)直接對(duì)源進(jìn)行修改,這類(lèi)技術(shù)對(duì)于旨在評(píng)價(jià)“與源差異大小”的有源客觀指標(biāo),都是不太友好的。 ? 此外,針對(duì)單一客觀指標(biāo)的“過(guò)度優(yōu)化”,也有可能造成單一客觀指標(biāo)與主觀體驗(yàn)相悖的情況...... ? 因此,單項(xiàng)客觀指標(biāo)的數(shù)值或高或低,都不應(yīng)是視頻編碼優(yōu)化追求的“終極目標(biāo)”。
細(xì)微之處,方見(jiàn)視界
我們的編解碼視界里,可以有哪些精妙解法?
在上述技術(shù)理念和智能編碼架構(gòu)的支撐下,“窄帶高清2.0”從人眼視覺(jué)模型出發(fā),將編碼器的優(yōu)化目標(biāo)從“保真度更高”調(diào)整為“主觀體驗(yàn)更好”。 ? 這可以從視覺(jué)編碼和細(xì)節(jié)修復(fù)兩個(gè)視角來(lái)看。 ? 在視覺(jué)編碼維度,“窄帶高清2.0”采用基于場(chǎng)景和內(nèi)容的幀類(lèi)型決策和塊級(jí)碼率分配,模式?jīng)Q策采用面向主觀友好的算法。 ? 在內(nèi)容自適應(yīng)編碼部分,考慮到人眼感知的視頻空間域的亮度、對(duì)比度以及時(shí)域失真是不連續(xù)的,通過(guò)基于恰可察覺(jué)失真(JND)自適應(yīng)編碼技術(shù),丟棄視覺(jué)冗余信息,在主觀質(zhì)量不發(fā)生明顯降低的情況下,可以大幅節(jié)省帶寬;同時(shí),通過(guò)ROI碼控技術(shù)調(diào)整碼率分配策略,進(jìn)一步提升人眼感興趣區(qū)域的清晰度。 ? 在細(xì)節(jié)修復(fù)維度,“窄帶高清2.0”采用基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的細(xì)節(jié)修復(fù)生成技術(shù),在修復(fù)因編碼壓縮引起的馬賽克效應(yīng)和邊緣毛刺的同時(shí),“腦補(bǔ)”生成一些自然的紋理細(xì)節(jié),使得畫(huà)面紋理細(xì)節(jié)更豐富、更自然、更有質(zhì)感。 ? 更關(guān)鍵的是,應(yīng)對(duì)垂直細(xì)分場(chǎng)景,我們的模型會(huì)對(duì)場(chǎng)景特征會(huì)實(shí)現(xiàn)更為智能的紋理生成。 ? 比如:對(duì)于演唱會(huì)場(chǎng)景,曾為百視TV專(zhuān)屬打造了Idol人像定制模版,針對(duì)優(yōu)化人像區(qū)域的細(xì)節(jié)修復(fù)生成效果,將Idol的“懟臉直拍”,通過(guò)直播清晰還原送到觀眾屏幕前。 ? 再比如:在NBA籃球比賽場(chǎng)景,AI修復(fù)模型加強(qiáng)了籃球場(chǎng)地板紋理、球員近景特寫(xiě)、球場(chǎng)邊界線、地面廣告字母、球衣上數(shù)字、籃球網(wǎng)等籃球體育賽事特有元素的修復(fù)生成,大大提升畫(huà)面清晰度和整體視覺(jué)生動(dòng)力表現(xiàn)。 ? 也正是,唯有細(xì)微之處,方能見(jiàn)技術(shù)之極。
繞不開(kāi)的“成本、成本、成本”
成本和體驗(yàn)的“非零和博弈”, ?編解碼怎么擺平?
正如“清晰度”和“帶寬”是“窄帶高清”需要平衡的天平兩端,在當(dāng)前“降本增效”的大環(huán)境之下,“體驗(yàn)”和“成本”的“非零和博弈”,一定是繞不開(kāi)的話題。 ? 成本(計(jì)算復(fù)雜度),體驗(yàn)(質(zhì)量),這兩者雖然是“trade-off”的權(quán)衡關(guān)系,但在某種程度上,也可以單方面優(yōu)化提升。 ? 比如,通過(guò)算法優(yōu)化,在復(fù)雜度不變的情況下,將編碼器的R-D曲線朝著更有性?xún)r(jià)比的方向優(yōu)化;同時(shí),通過(guò)高性?xún)r(jià)比的自適應(yīng)快速算法的設(shè)計(jì),也可以將質(zhì)量的提升轉(zhuǎn)化為成本的收益;又或者,通過(guò)底層優(yōu)化并與計(jì)算平臺(tái)的充分結(jié)合,挖掘異構(gòu)編碼的潛力,可以進(jìn)一步在質(zhì)量不變的情況下降低計(jì)算成本。
? 當(dāng)然,在“讓高壓縮率算法和AI真正普惠”的路上,阿里云視頻云所做的不僅于此。 ? 與視頻編碼類(lèi)似,在視頻處理領(lǐng)域,深度學(xué)習(xí)從效果上已經(jīng)遠(yuǎn)超傳統(tǒng)方法,同時(shí)還在不斷地快速進(jìn)化,但深度學(xué)習(xí)對(duì)計(jì)算資源的高消耗,成為阻礙其在實(shí)際應(yīng)用中廣泛使用的主要原因。 ? 阿里云視頻云深度自研編碼內(nèi)核,包括s264、s265,落地100+算法,支持直播、點(diǎn)播、RTC場(chǎng)景,相對(duì)于開(kāi)源,全場(chǎng)景20%+壓縮率領(lǐng)先。 ? 同時(shí),我們引入AI輔助的編碼決策,在碼率分配和模式?jīng)Q策上提升內(nèi)容自適應(yīng)能力,極致挖掘視覺(jué)冗余,同等主觀下,碼率節(jié)省50%。
軟硬結(jié)合,是破解編碼天花板之技嗎?
在算法層面和軟件層面塑造的有限差異之上,要想塑造成本優(yōu)勢(shì),必須將軟件、算法與操作系統(tǒng)、硬件、乃至芯片,全線聯(lián)動(dòng)。 ? 此基礎(chǔ)上,基于自研倚天710芯片,視頻云與倚天團(tuán)隊(duì)聯(lián)合投入ARM視頻編碼優(yōu)化,深度重構(gòu)了視頻編碼數(shù)據(jù)結(jié)構(gòu)、并行框架,重新調(diào)優(yōu)了快速算法策略,從軟件、匯編、硬件層面跨層深度優(yōu)化,塑造極致性能。 ? 同時(shí),我們與平頭哥深度合作,共建“軟硬結(jié)合”自研芯片競(jìng)爭(zhēng)力,通過(guò)算法、加速庫(kù)、驅(qū)動(dòng)、固件一體化設(shè)計(jì),不斷探索創(chuàng)新音視頻技術(shù),加強(qiáng)在更多視頻應(yīng)用、更多終端設(shè)備上的普適性,從而帶來(lái)更節(jié)省、更低耗、更高清、更實(shí)時(shí)的硬核編碼力,賦能千行百業(yè)的視頻化需求。
沒(méi)有想象,就沒(méi)有進(jìn)化
蘋(píng)果的VisonPro,透射出編碼的未來(lái)嗎?
回顧文章開(kāi)頭的“矛盾”與問(wèn)題,面對(duì)激增的海量視頻數(shù)據(jù)、多元的視頻內(nèi)容形式,以及加速擴(kuò)大的行業(yè)應(yīng)用范圍,視頻編碼如何“進(jìn)化”的答案,也隱藏在行業(yè)的急速迭代之中。 ? 如何實(shí)現(xiàn)更高壓縮效率并匹配多樣的細(xì)分場(chǎng)景?AI codec能實(shí)現(xiàn)比傳統(tǒng)壓縮標(biāo)準(zhǔn)更高的壓縮效率,并能夠在一些垂直場(chǎng)景有落地的機(jī)會(huì),例如:業(yè)界已有基于深度學(xué)習(xí)的圖像壓縮,落地于衛(wèi)星圖像的壓縮傳輸; ? 面對(duì)未來(lái)視頻數(shù)據(jù)的消費(fèi)場(chǎng)景不再單純局限于人眼視覺(jué),服務(wù)于機(jī)器視覺(jué)的視頻編碼也將迎來(lái)巨大應(yīng)用市場(chǎng)。阿里云視頻云團(tuán)隊(duì)已與高校深度合作,布局“面向人-機(jī)視覺(jué)的全新編碼范例:高層語(yǔ)義與低層信號(hào)相結(jié)合的圖像編碼方案”; ? 而對(duì)于近期大熱的蘋(píng)果VisionPro的推出,作為視頻行業(yè)工作者,十分樂(lè)見(jiàn)VR生態(tài)能在蘋(píng)果的帶領(lǐng)下,真正打出一片市場(chǎng)。因此,一些相關(guān)的沉浸式編碼標(biāo)準(zhǔn)如MIV,點(diǎn)云編碼,動(dòng)態(tài)網(wǎng)格編碼等技術(shù),也將逐步投入研究……
編輯:黃飛
?
電子發(fā)燒友App








































評(píng)論