在實(shí)時(shí)視頻互動(dòng)中,影響觀眾對(duì)視頻體驗(yàn)的有較多且復(fù)雜的因素,包括:畫質(zhì)、流暢度以及與其耦合的觀看設(shè)備等。傳統(tǒng)客觀算法會(huì)利用網(wǎng)絡(luò)傳輸或編解碼參數(shù)擬合接收端人的感知體驗(yàn),或者使用圖像質(zhì)量結(jié)合其他相關(guān)參數(shù)擬合實(shí)時(shí)視頻質(zhì)量。由于缺少除畫質(zhì)外的量化指標(biāo)且沒有直接衡量視頻感知體驗(yàn),所以當(dāng)前QoE算法有一定局限性。目前端到端的QoE模型可以有效解決上述面臨的難題,但同時(shí)也面臨著主觀實(shí)驗(yàn)復(fù)雜、數(shù)據(jù)依賴與模型運(yùn)算量大等問題。LiveVideoStackCon 2022北京站邀請(qǐng)到鄭林儒老師為我們介紹視頻體驗(yàn)數(shù)據(jù)庫的建立、視頻畫質(zhì)評(píng)估建模及其端上輕量?jī)?yōu)化。
大家好,我是來自聲網(wǎng)的視頻算法工程師鄭林儒,今天給大家分享的是實(shí)時(shí)互動(dòng)下視頻QoE端到端輕量化網(wǎng)絡(luò)建模。

今天將從影響視頻主觀體驗(yàn)的因素、針對(duì)這些影響因素現(xiàn)階段建立的一些數(shù)據(jù)庫、對(duì)于視頻畫質(zhì)評(píng)估做了一個(gè)端到端建模、考慮模型端上運(yùn)行的實(shí)時(shí)性介紹了當(dāng)前主流的深度學(xué)習(xí)模型加速方法和對(duì)視頻QoE的展望五個(gè)部分展開介紹。
-01-
QoE介紹

視頻或者實(shí)時(shí)互動(dòng)場(chǎng)景下QoE體驗(yàn)的影響因素主要有媒體體驗(yàn)和互動(dòng)體驗(yàn)。媒體體驗(yàn)分為視頻體驗(yàn)和音頻體驗(yàn)。視頻體驗(yàn)包括畫質(zhì)、流暢度、播放設(shè)備等。音頻體驗(yàn)則包括清晰度、流暢度、播放設(shè)備。除此之外還有連接視頻和音頻的音畫同步。互動(dòng)體驗(yàn)?zāi)壳爸饕x為延遲。

為什么要建立一套端到端的QoE評(píng)估體系呢?上圖是視頻從編碼傳輸?shù)奖挥脩舾兄牧鞒獭?a href="http://www.brongaenegriffin.com/tags/編碼器/" target="_blank">編碼器將視頻編成碼流,經(jīng)過復(fù)雜的網(wǎng)絡(luò)環(huán)境會(huì)有各種碼率自適應(yīng)算法去感知當(dāng)前網(wǎng)絡(luò)變化或根據(jù)客戶端播放情況自動(dòng)做出合理的碼率調(diào)整,以最大化用戶在線觀看視頻的體驗(yàn)。一個(gè)端到端的QoE指標(biāo)可以提供相對(duì)于PSNR、SSIM更貼合主觀的畫質(zhì)指標(biāo)。從而基于這個(gè)指標(biāo)可以指導(dǎo)編碼器選擇最優(yōu)編碼參數(shù),進(jìn)而在不影響用戶感知畫質(zhì)情況下實(shí)現(xiàn)碼率節(jié)省。類似的,它也可作為ABR算法的參考指標(biāo)。
-02-
QoE建庫

當(dāng)前我們所建立的數(shù)據(jù)庫主要針對(duì)視頻體驗(yàn)。首先考慮的是解碼端視頻畫質(zhì),這里畫質(zhì)包括了清晰度、亮度、對(duì)比度、色彩等等方面。在畫質(zhì)基礎(chǔ)上增加了畫面流暢度的評(píng)估維度,刻畫流暢度的客觀指標(biāo)主要是幀率和卡頓率,但也和畫面、應(yīng)用場(chǎng)景有關(guān)??梢钥吹綗o論是解碼端畫質(zhì)還是流暢度都會(huì)收到觀看設(shè)備的影響,比如屏幕ppi會(huì)影響畫質(zhì)體驗(yàn)、刷新率會(huì)影響流暢度體驗(yàn)。這里我們將設(shè)備大致歸為3類,分別為電腦、手機(jī)以及電視。

首先建立了一個(gè)畫質(zhì)主觀評(píng)估數(shù)據(jù)庫,通過內(nèi)部視頻軟件收集了一些數(shù)據(jù)。隨后對(duì)收集數(shù)據(jù)進(jìn)行處理,通過我們開發(fā)的打分軟件,按照ITU標(biāo)準(zhǔn)進(jìn)行主觀評(píng)估,得到每個(gè)視頻的MOS。

對(duì)于每個(gè)視頻序列我們都至少有20位評(píng)估人員參與打分以保證數(shù)據(jù)清洗后的有效人數(shù)。根據(jù)ITU推薦的方法,計(jì)算每個(gè)人與整體打分的相關(guān)性,再排除相關(guān)性較低的參與者。實(shí)驗(yàn)中我們通過設(shè)置錨點(diǎn)發(fā)現(xiàn)了設(shè)備不同ppi對(duì)畫質(zhì)評(píng)估影響很大,在像素密度較高屏幕素質(zhì)越好的設(shè)備上給出的分也相對(duì)較高。同時(shí)錨點(diǎn)的設(shè)置也可以作為數(shù)據(jù)篩選的依據(jù)。

設(shè)置合理的視頻序列也是需要考慮的。為了避免長(zhǎng)時(shí)間單調(diào)標(biāo)注過程中產(chǎn)生疲勞而導(dǎo)致數(shù)據(jù)失真,每個(gè)批次盡量差異化視頻內(nèi)容,并且在畫質(zhì)層面最大化覆蓋評(píng)分區(qū)間,每個(gè)評(píng)估人員每次打分的時(shí)長(zhǎng)不超過30分鐘。

如何在視頻失真類型以及視頻特征上最大化多樣性呢?首先考慮空域失真即畫面失真,一般會(huì)因?yàn)橐曨l采集時(shí)聚焦不準(zhǔn)而導(dǎo)致模糊,會(huì)由于背光等光照不均勻時(shí)出現(xiàn)過暗或過曝。視頻傳輸前會(huì)通過編碼器編成碼流,由于有量化操作所以在解碼后會(huì)有塊效應(yīng),還有其他很多類型的失真。時(shí)域相關(guān)的失真一般會(huì)有畫面卡頓以及不同的視頻幀率。從特征層面去表述或者區(qū)分的話,用經(jīng)典的視頻特征SI和TI表述。SI表示視頻的空間細(xì)節(jié)程度,越復(fù)雜的場(chǎng)景SI越高;TI表示視頻在時(shí)域上的畫面變化程度,運(yùn)動(dòng)越劇烈的場(chǎng)景TI越高。

左圖是幾十個(gè)視頻在iPhone上全屏和半屏觀看時(shí)畫質(zhì)MOS分變化趨勢(shì)圖。可以看到,相對(duì)于hs,fs大部分情況下畫質(zhì)都有所降低。建模的目的就是為了找出相同畫質(zhì)范圍內(nèi)的偏移。右上角的圖來自華為的白皮書,表示不同分辨率視頻在不同尺寸設(shè)備上的極限MOS。越小分辨率的視頻在更大尺寸的設(shè)備上播放衰減越嚴(yán)重。右下角是我們做的一個(gè)實(shí)驗(yàn)。對(duì)六個(gè)原視頻進(jìn)行不同幀率的MOS評(píng)估,發(fā)現(xiàn)不同視頻,隨著幀率的上升,MOS會(huì)有所提升。但不同視頻內(nèi)容導(dǎo)致的變化趨勢(shì)也略有不同,與視頻畫面會(huì)有很大關(guān)系,當(dāng)運(yùn)動(dòng)劇烈時(shí)則需要更高的幀率支持,反之則不需要浪費(fèi)更多的幀率資源。
-03-
QoE建模

首先考慮的是視頻解碼端畫質(zhì)的建模。業(yè)內(nèi)目前主要有兩種方式。一種是端到端的訓(xùn)練方式,另一種是非端到端的訓(xùn)練方式。端到端是對(duì)一組視頻直接采樣,然后回歸MOS。采集的數(shù)據(jù)在分辨率和幀率大概率是不一樣的,需要通過采樣統(tǒng)一size。非端到端利用特征提取器,將原始視頻通過特征提取器提取到同一個(gè)維度,然后再回歸。右邊的圖是不同的采樣方式。第一個(gè)是空域采樣,保證了所有時(shí)域上的幀數(shù)。還有時(shí)域采樣和時(shí)空域采樣。下面的圖表示不同采樣方式MOS和原始視頻MOS的相關(guān)性。在空域進(jìn)行時(shí)域采樣時(shí)相關(guān)性最高,時(shí)域信息沒有空域信息重要。線上推理完整的size則需要消耗更多資源。評(píng)估視頻的畫質(zhì)不僅僅是空域上的失真,如果僅有空域的失真,直接用IQA擬合VQA即可,但目前該類方案的擬合效果都不佳。所以時(shí)域的影響不能消除。

假設(shè)現(xiàn)在有一個(gè)十秒的視頻,每一秒都有一個(gè)MOS。每一秒MOS的均值和整個(gè)視頻的MOS有強(qiáng)相關(guān)性,基本可以認(rèn)為互等。在這樣的前提下,滯后效應(yīng)可以描述為當(dāng)視頻的畫質(zhì)下降時(shí),MOS也會(huì)立即下降。但當(dāng)畫質(zhì)恢復(fù)時(shí),由于人的主觀對(duì)之前的損失有記憶,提升是一個(gè)緩慢的過程。視頻2反映的趨勢(shì)也是如此。畫質(zhì)不斷波動(dòng),畫質(zhì)差的印象會(huì)一直在人的印象中,主觀MOS很難提升。

通過建??梢苑浅V庇^的反映該效應(yīng)。充分考慮前ti時(shí)刻和后ti時(shí)刻的影響。前ti時(shí)刻類比快速下降,對(duì)前ti時(shí)刻每一時(shí)刻的預(yù)測(cè)值取最小值,可以體現(xiàn)MOS快速下降的行為;而對(duì)后ti時(shí)刻的每一時(shí)刻預(yù)測(cè)值進(jìn)行升序排序,對(duì)預(yù)測(cè)值較高的賦更低的權(quán)重,這一操作體現(xiàn)了緩慢提升的思想。將兩段時(shí)刻加權(quán)求和,作為最終的MOS。右下圖紅框就是效果展示。兩個(gè)數(shù)據(jù)集上以及不同的客觀指標(biāo)上都有比較明顯的提升。但簡(jiǎn)單的求平均,類似單幀IQA平均VQA,效果較差。

我們也同時(shí)在兩個(gè)數(shù)據(jù)集上做了實(shí)驗(yàn)。AGORA-VQA是目前采用的方法。IQA+MOTION是基于深度學(xué)習(xí)的IQA算法。BRISQUE是傳統(tǒng)IQA算法。V-BINDS是傳統(tǒng)視頻的算法。VSFA是視頻的深度學(xué)習(xí)算法。
-04-
模型加速

基于深度學(xué)習(xí)算法落地時(shí)避免不了的一個(gè)問題就是運(yùn)算量與性能的平衡。怎么在減小模型參數(shù)和運(yùn)算量的同時(shí)保持甚至提高性能,業(yè)內(nèi)一些小模型的設(shè)計(jì)給我們提供了一些思路。第一張圖是一個(gè)標(biāo)準(zhǔn)卷積過程,輸入3通道圖片經(jīng)過一個(gè)4通道卷積層。MobileNet中對(duì)標(biāo)準(zhǔn)卷積進(jìn)行了拆解,拆解成一個(gè)個(gè)深度卷積和逐點(diǎn)卷積。深度卷積的參數(shù)量和運(yùn)算量有相同的關(guān)系,均為輸出通道1/N,而逐點(diǎn)卷積為卷積核大小平方分之一,通常在較深的網(wǎng)絡(luò)中N遠(yuǎn)大于K,所以也可以看出這種結(jié)構(gòu)下運(yùn)算量主要來自于逐點(diǎn)卷積。

為了減少運(yùn)算量同時(shí)增加通道間的信息流通,ShuffleNet中對(duì)分組卷積中不同通道進(jìn)行重排,這樣下面的分組卷積中不同組的輸入就實(shí)現(xiàn)了特征融合。在模型落地的過程中也發(fā)現(xiàn)了一些問題。在V1模型中,如果采用ResNet瓶頸結(jié)構(gòu),輸入和輸出通道會(huì)不一樣,會(huì)增加內(nèi)存的存取,即MAC。另外,分組卷積也會(huì)增加MAC。不同分支上的碎片化操作會(huì)降低并行度,例如channel shuffle。ReLU、add、shuffle這類元素級(jí)操作的運(yùn)算量雖然比較低但是也會(huì)帶來MAC。針對(duì)這些問題,V2進(jìn)行了一定的優(yōu)化。

這張圖展示了不同小模型的性能。ShuffleNet的運(yùn)算量、參數(shù)量還是線上推理延遲都比較小。在落地算法模型時(shí),更為關(guān)注的是延遲,特別是RTE的場(chǎng)景下。

對(duì)于模型加速,選取一個(gè)合理的,對(duì)硬件友好的結(jié)構(gòu)是基礎(chǔ)?;谀P徒Y(jié)構(gòu)基礎(chǔ)上,還可以通過一些方法對(duì)模型做進(jìn)一步的壓縮。模型蒸餾類似于一個(gè)遷移學(xué)習(xí),將一個(gè)大模型的輸出作為監(jiān)督信息指導(dǎo)小模型的訓(xùn)練。模型剪枝主要是通過評(píng)估不同結(jié)構(gòu)、不同通道的重要性對(duì)其進(jìn)行剪枝。模型量化通常訓(xùn)練的權(quán)重是float32,我們通過對(duì)其量化成float16甚至int8,也可以加速運(yùn)算。低秩分解認(rèn)為深度學(xué)習(xí)模型權(quán)重矩陣非常大,可以將其近似分解成多個(gè)低秩矩陣來降低模型運(yùn)算量。

剪枝分為結(jié)構(gòu)剪枝和非結(jié)構(gòu)剪枝。非結(jié)構(gòu)剪枝對(duì)硬件不友好,在實(shí)際應(yīng)用中少見。結(jié)構(gòu)化剪枝有一點(diǎn)需要注意,如果是在硬件上實(shí)時(shí)去跑,通道不是8、16、32的倍數(shù)的話,后續(xù)也需要通道對(duì)齊的處理,此時(shí)效果不一定會(huì)好。經(jīng)過模型選擇、優(yōu)化、加速處理后,我們的模型與當(dāng)前大模型相比,在性能相同的情況下參數(shù)量和運(yùn)算量遠(yuǎn)低于大模型。
-05-
QoE展望

目前這些QoE指標(biāo)仍在內(nèi)部打磨中,后續(xù)會(huì)開放給開發(fā)者和用戶。后續(xù)階段還要對(duì)端到端RTE-QoE指標(biāo)進(jìn)行完善,包括適配場(chǎng)景的增加、整合流暢度、延遲和音頻MOS。在對(duì)這些指標(biāo)建模后還需要一個(gè)完備可靠的算法驗(yàn)收確保其在線上線下表現(xiàn)一致。最后,基于畫面的QoE算法隨著視頻分辨率的上升其運(yùn)算量也會(huì)相應(yīng)提高。畫面剪切也會(huì)損失模型性能,怎么平衡模型準(zhǔn)確率與不同分辨率下運(yùn)算量也是需要考慮的。
審核編輯 :李倩
-
算法
+關(guān)注
關(guān)注
23文章
4801瀏覽量
98519 -
建模
+關(guān)注
關(guān)注
1文章
323瀏覽量
63481 -
網(wǎng)絡(luò)傳輸
+關(guān)注
關(guān)注
0文章
149瀏覽量
18663
原文標(biāo)題:實(shí)時(shí)互動(dòng)下視頻 QoE 端到端輕量化網(wǎng)絡(luò)建模
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
樹莓派做一個(gè)網(wǎng)絡(luò)攝像頭上傳實(shí)時(shí)視頻到云服務(wù)器,云服務(wù)器推流到客戶端可以實(shí)現(xiàn)嗎
汽車輕量化采用3D打印
基于紫光同創(chuàng)FPGA的多路視頻采集與AI輕量化加速的實(shí)時(shí)目標(biāo)檢測(cè)系統(tǒng)
基于WiMAX接入技術(shù)的端到端網(wǎng)絡(luò)架構(gòu)
端到端實(shí)時(shí)控制系統(tǒng)解決方案
常見的輕量化材料的分類與汽車輕量化材料的應(yīng)用
山東首個(gè)基于端到端5G網(wǎng)絡(luò)的專業(yè)無人機(jī)測(cè)試飛行
端到端駕駛模型的發(fā)展歷程
我國正式啟動(dòng)了5G網(wǎng)絡(luò)切片端到端總體架構(gòu)標(biāo)準(zhǔn)研制工作
北京聯(lián)通率先完成5G SA網(wǎng)絡(luò)端到端切片的業(yè)務(wù)測(cè)試
基于深度神經(jīng)網(wǎng)絡(luò)的端到端圖像壓縮方法
如何實(shí)現(xiàn)端到端網(wǎng)絡(luò)切片?
基于矢量化場(chǎng)景表征的端到端自動(dòng)駕駛算法框架
端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸
實(shí)時(shí)互動(dòng)下視頻QoE端到端輕量化網(wǎng)絡(luò)建模
評(píng)論