成熟少妇毛片免费观看,一区二区三区深田咏美在线,1313国产午夜精品理论片

隨著短視頻、直播、智慧城市、5G等的快速發(fā)展，視頻內(nèi)容鋪天蓋地，五花八門(mén)，相應(yīng)的處理需求也多種多樣。如何能高效地應(yīng)對(duì)？需要在數(shù)據(jù)處理系統(tǒng)，底層計(jì)算能力，以及算法研究等多方面協(xié)同努力。LiveVideoStackCon 2022 北京站邀請(qǐng)到沐曦AI解決方案總監(jiān)——虞新陽(yáng)，為大家梳理視頻處理的需求及介紹沐曦應(yīng)對(duì)視頻處理場(chǎng)景的GPU產(chǎn)品等。

大家好，我是虞新陽(yáng)，早期主要從事GPU架構(gòu)研發(fā)相關(guān)工作，包括視頻架構(gòu)以及computer架構(gòu)，曾在國(guó)際旗艦廠商主導(dǎo)設(shè)計(jì)硬件解碼器的架構(gòu)設(shè)計(jì)和研發(fā)。對(duì)compute更上層的應(yīng)用感興趣后加入互聯(lián)網(wǎng)公司，曾負(fù)責(zé)阿里巴巴智能家裝設(shè)計(jì)整體解決方案。2021年加入沐曦，一家提供GPU芯片及計(jì)算解決方案的算力公司，負(fù)責(zé)AI算法方向的解決方案。本次分享的主題是《海量視頻處理的應(yīng)對(duì)和算法實(shí)踐》。

為什么要研究視頻的處理？

首先，人最基本的屬性包括視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué)等，其中的視覺(jué)和聽(tīng)覺(jué)是主要的信息接收和溝通管道。從人的基本屬性可以看出，音視頻永遠(yuǎn)不會(huì)過(guò)時(shí)，不管是在當(dāng)前飛速發(fā)展的現(xiàn)實(shí)社會(huì)還是在今后的元宇宙場(chǎng)景中。

其次，第三方數(shù)據(jù)對(duì)視頻的重要性也有總結(jié)。2021年，互聯(lián)網(wǎng)消耗的數(shù)據(jù)流量主要集中在視頻，占比大概是75%。一年后占比還在持續(xù)增加，由于短視頻、直播等各種更貼近人類(lèi)視聽(tīng)屬性的應(yīng)用的爆發(fā)，客戶端的占比達(dá)到82%，移動(dòng)端達(dá)到79%。可以想象，視頻內(nèi)容的占比還會(huì)持續(xù)增加。

為什么我們要特別關(guān)注這個(gè)問(wèn)題呢？因?yàn)橛?jì)算需要感知上層應(yīng)用，或者說(shuō)一個(gè)應(yīng)用只有充分利用了算力才能夠跑得快，而算力只有深刻分析理解應(yīng)用，并不斷進(jìn)行迭代優(yōu)化，才能設(shè)計(jì)出更好的算力。兩方相互結(jié)合能更好地提升整體系統(tǒng)性能。

本次分享主要包括四部分：

1、視頻處理需求理解

2、系統(tǒng)解決方案

3、視頻處理算法實(shí)踐

4、后續(xù)工作

-01-

視頻處理需求理解

圖中數(shù)據(jù)來(lái)自Bitmovin2021年的視頻發(fā)展報(bào)告，它本身的調(diào)研數(shù)據(jù)來(lái)自于包括65個(gè)國(guó)家，大中小企業(yè)的工程、算法以及市場(chǎng)從業(yè)者等，覆蓋面非常廣。

挑戰(zhàn)方面，主要包括直播低延時(shí)、成本控制（最主要是帶寬流量）、各種設(shè)備可播放（筆記本、pad、手機(jī)）、精控分析、插廣告等。

趨勢(shì)方面，標(biāo)黃部分特別重要：第一點(diǎn)，原來(lái)H.264是絕對(duì)的主流，但在2021年開(kāi)始出現(xiàn)了首次下降（91%->83%），而專(zhuān)利費(fèi)較高的H265提升卻較明顯(42%->49%），我理解是因?yàn)閹挼某杀咎?，比起額外的專(zhuān)利費(fèi)，大家更需要降低帶寬成本。第二點(diǎn)，無(wú)論是國(guó)外的亞馬遜、國(guó)內(nèi)的阿里、騰訊等，它們的云服務(wù)都在持續(xù)發(fā)展，編碼采用云服務(wù)的比例持續(xù)提升。第三點(diǎn)是基于內(nèi)容的編碼，也就是智能視頻編碼，比例提升到了35%。

其它期待AI賦能的場(chǎng)景包括ASR、視頻分析、打標(biāo)簽、視頻質(zhì)量的優(yōu)化等。

接下來(lái)也簡(jiǎn)要介紹下國(guó)內(nèi)互聯(lián)網(wǎng)的情況（來(lái)源于過(guò)往的公開(kāi)分享）：

芒果TV，既是視頻內(nèi)容生產(chǎn)商，同時(shí)也是運(yùn)營(yíng)商，他們分享了5G背景下視頻運(yùn)營(yíng)平臺(tái)的挑戰(zhàn)，包括CDN成本，4K/8K&60fps的應(yīng)對(duì)等。

火山引擎，他們重點(diǎn)投入了新一代的編碼器H266，并研發(fā)自適應(yīng)編碼、畫(huà)質(zhì)評(píng)價(jià)（感知短視頻質(zhì)量并確定推薦權(quán)重）等。

阿里云有一個(gè)產(chǎn)品叫窄帶高清（降低帶寬提升畫(huà)質(zhì)）。它具象地總結(jié)CDN成本占比，從他示例的視頻云廠商來(lái)說(shuō)，帶寬：存儲(chǔ)：轉(zhuǎn)碼的成本占比是100：3：1，應(yīng)該遠(yuǎn)超出了很多人的感知。

抖音和微博在研發(fā)ASR技術(shù)來(lái)自動(dòng)生成字幕，愛(ài)奇藝、網(wǎng)易云的工作重點(diǎn)是AI配音、AI生成音樂(lè)視頻等。

最后來(lái)看看工業(yè)界的需求，主要包括智能安防、智慧交通、智能制造等。

國(guó)內(nèi)的智能安防很發(fā)達(dá)，處理場(chǎng)景包括邊緣端、服務(wù)器端等，對(duì)采集的海量視頻的基本處理包括編解碼、結(jié)構(gòu)化分析及比對(duì)等。

智能交通包括路邊停車(chē)識(shí)別、車(chē)路協(xié)同，以及汽車(chē)自動(dòng)駕駛等，視頻解碼和結(jié)構(gòu)化處理是這些功能最底層的要素。

智能制造主要是工業(yè)機(jī)器人，包括家電等的生產(chǎn)制造。最重要的場(chǎng)景是檢測(cè)分類(lèi)，也有定位、測(cè)量等工作。

梳理后可以發(fā)現(xiàn)，大方向還是視頻編解碼+AI，雖然后處理略有不同，有的偏結(jié)構(gòu)化存儲(chǔ)，有的偏檢索分析，有的偏定位控制等。

從前面的3個(gè)維度可以發(fā)現(xiàn)，海量音視頻處理的基本形態(tài)是視頻編解碼+AI，重點(diǎn)需求是低時(shí)延、視頻壓縮、視頻超分、視頻分類(lèi)檢測(cè)及ASR，其他需求還包括視頻處理（切片、轉(zhuǎn)HDR等）、視頻分析、視頻推薦等。

重點(diǎn)需求中的低時(shí)延直播，主要在硬件層進(jìn)行解決；而壓縮、超分等需求算法側(cè)可以發(fā)揮很大作用。

-02-

系統(tǒng)解決方案

大家對(duì)這張圖應(yīng)該不陌生，AI最基本的三要素包括算法、算力和數(shù)據(jù)。平移到海量視頻數(shù)據(jù)的處理，需要一個(gè)高效的數(shù)據(jù)系統(tǒng)做支撐，其中算力提供底層基礎(chǔ)能力，算法協(xié)助數(shù)據(jù)系統(tǒng)更加智能高效。接下來(lái)主要介紹下算力和算法方面。

海量視頻處理對(duì)算力側(cè)的需求包括強(qiáng)編解碼能力、強(qiáng)AI推理能力和高性價(jià)比。

這里介紹下沐曦的曦思N100產(chǎn)品。根據(jù)上述需求，我們針對(duì)性地設(shè)計(jì)了這款產(chǎn)品，它具備很強(qiáng)的編解碼能力，解碼支持96x1080p@30fps，標(biāo)準(zhǔn)包括H264/H265/AV1/AVS2，支持8K；編碼更強(qiáng)，能支持128x1080@30fps，標(biāo)準(zhǔn)包括H264/H265/AV1，支持8K。此外，它還具備很強(qiáng)的AI推理能力，上文提到很多場(chǎng)景同時(shí)需要編解碼能力和AI能力，它的AI算力達(dá)到160TOPS int8, 80TFLOPS FP16/BF16，此外它也有很好的帶寬能力，相關(guān)的軟件棧、開(kāi)發(fā)工具、虛擬化等配套能力也很齊備。

也簡(jiǎn)要介紹一下沐曦，它成立于2020年9月，專(zhuān)注于設(shè)計(jì)針對(duì)異構(gòu)計(jì)算等各類(lèi)應(yīng)用的GPU芯片及解決方案。公司發(fā)展速度很快，有80%以上的員工是碩士及以上學(xué)歷，70%以上的員工平均工齡超過(guò)10年。沐曦基本每年會(huì)推出一款產(chǎn)品進(jìn)行持續(xù)迭代。

-03-

視頻處理算法實(shí)踐

針對(duì)算法實(shí)踐，接下來(lái)重點(diǎn)介紹下我們?cè)谝曨l壓縮、視頻超分和ASR上的一些工作。

根據(jù)AI和編解碼的關(guān)系，視頻壓縮解決方案主要可分為四種：

1、純視頻編解碼：也是當(dāng)前最普遍最基礎(chǔ)的形式，采用標(biāo)準(zhǔn)的視頻標(biāo)準(zhǔn)如H264等。

2、AI外層輔助編碼：AI和標(biāo)準(zhǔn)編碼器有清晰的邊界，依托FFmpeg框架等，主要在幀級(jí)別進(jìn)行數(shù)據(jù)的交互控制，編出來(lái)的碼流符合標(biāo)準(zhǔn)。

3、AI深入輔助編碼：AI算法參與編碼的深層次控制，為編碼器提供各種hint，譬如幀內(nèi)預(yù)測(cè)、運(yùn)動(dòng)估計(jì)等，需要在編碼器內(nèi)部做相關(guān)的能力和接口實(shí)現(xiàn)。

4、純AI編碼：是未來(lái)的發(fā)展趨勢(shì)，拋棄了H.264/H.265等基于預(yù)測(cè)變換之類(lèi)工具的編碼思路，而是用AI網(wǎng)絡(luò)進(jìn)行編解碼，英偉達(dá)和Google等都有發(fā)布相關(guān)的工作。當(dāng)前比較適用的場(chǎng)景是會(huì)議系統(tǒng)，無(wú)需重復(fù)傳輸背景，只需傳輸人臉關(guān)鍵點(diǎn)信息等即可較好恢復(fù)畫(huà)面，編解碼端也可控。新一代的編解碼標(biāo)準(zhǔn)（VCM, DCM）也有在往這個(gè)方向努力。

接下來(lái)分析下以上四種編碼方案的應(yīng)用場(chǎng)景：純視頻編碼器，在任何場(chǎng)景都適用，無(wú)論是手機(jī)、電腦還是pad等等，因?yàn)榫幗獯a器支持已官方內(nèi)嵌在各種芯片和解決方案中。AI外層輔助編碼器，AI在外層輔助，和編解碼的邊界很清晰，編出的碼流符合規(guī)范，各種已有設(shè)備也都能播放。AI深入輔助編碼器，碼流符合標(biāo)準(zhǔn)，可以廣泛使用，但需要算法和編碼器底層深入?yún)f(xié)同，公司之間在這個(gè)層面合作的可能性較小，且不太適用于硬件編碼器方案。純AI，個(gè)人認(rèn)為在10年之內(nèi)不會(huì)廣泛使用，一方面因?yàn)樗懔蜆?biāo)準(zhǔn)，它需要各種設(shè)備都具備不錯(cuò)的AI算力，然后編解碼端需要有大家都認(rèn)同的標(biāo)準(zhǔn)協(xié)議；另外一方面在標(biāo)準(zhǔn)統(tǒng)一后，大規(guī)模采用也需要好幾年的時(shí)間（參考H264/H265等的普及）。

沐曦的智能視頻編碼方案是AI外層輔助編碼，整體框圖如圖所示。視頻輸入后分為兩路，先進(jìn)行前處理、場(chǎng)景編碼和ROI區(qū)域檢測(cè)，然后再合并進(jìn)行ROI區(qū)域增強(qiáng)編碼決策，最后用通用的接口調(diào)用FFmpeg框架進(jìn)行視頻壓縮。

在具體介紹各模塊之前，大家先看下智能視頻編碼前后的效果對(duì)比。左側(cè)是H.264默認(rèn)編碼，經(jīng)過(guò)智能編碼后，碼率下降了27%，主觀質(zhì)量VMAF還有所提高，但PSNR、SSIM有明顯下降。

在效果示意2中，視頻碼率下降了15%，VMAF略有下降，PSNR和SSIM改變也很小，因?yàn)橐曨l沒(méi)有經(jīng)過(guò)前處理。

前處理的底層原理，是人眼視覺(jué)系統(tǒng)有一些基礎(chǔ)屬性，主要包括：對(duì)邊緣輪廓信息敏感，對(duì)運(yùn)動(dòng)敏感，對(duì)對(duì)比度敏感，對(duì)高頻信息（白噪聲、小雪花）不敏感，亮度感受強(qiáng)于色度等。

對(duì)原始圖片做了修改后差距會(huì)變得更大？實(shí)際上，壓縮總體上是降低質(zhì)量、模糊圖片的過(guò)程，前處理階段會(huì)把重要信息先提升起來(lái)，再通過(guò)H.264/H.265壓縮時(shí)又降低下去，加減相抵。總體過(guò)程使得處理前后的VMAF差距不大，但PSNR降低會(huì)較明顯。

針對(duì)前處理，我們主要做了以下兩方面的工作：退化質(zhì)量修復(fù)和主觀質(zhì)量增強(qiáng)。

退化質(zhì)量修復(fù)：視頻內(nèi)容的編碼效果不理想，很多時(shí)候是輸入時(shí)的質(zhì)量就不高，普遍存在的一個(gè)質(zhì)量問(wèn)題是重復(fù)壓縮。比如上傳一張圖片到微信，默認(rèn)它會(huì)進(jìn)行二次壓縮，如果再經(jīng)過(guò)其它應(yīng)用或手機(jī)可能又會(huì)壓縮一遍，整體畫(huà)質(zhì)就會(huì)逐步下降。其次是噪聲，大部分噪點(diǎn)是拍攝采集端數(shù)字化時(shí)引入的，另外在傳輸保存過(guò)程中也可能會(huì)引入噪聲。噪聲對(duì)編碼器很不友好，因?yàn)闆](méi)有規(guī)律會(huì)引起預(yù)測(cè)后的編碼殘差較大，浪費(fèi)挺多的碼流。

主觀質(zhì)量增強(qiáng)：人是視覺(jué)動(dòng)物，導(dǎo)演拍攝時(shí)會(huì)進(jìn)行場(chǎng)景布置，補(bǔ)光及后期制作，各種設(shè)備包括手機(jī)等持續(xù)優(yōu)化甚至美化圖片，都是為了讓拍出來(lái)的東西讓人感受更好，所以從某種角度看來(lái)，并不是要一模一樣的真實(shí)才有意義。對(duì)主觀質(zhì)量的增強(qiáng)，我們主要處理了邊緣增強(qiáng)和SDR2SDR+。

下圖示例了去失真修復(fù)，細(xì)節(jié)增強(qiáng)以及SDR2SDR+等的效果，對(duì)比左側(cè)的原始圖片可以看出是明顯會(huì)更清晰明亮些的。

場(chǎng)景編碼的原理相信大家并不陌生，視頻編碼領(lǐng)域的R-D曲線描述了一個(gè)基本原理：碼率越低，失真越大。論文VideoSet進(jìn)行了進(jìn)一步的研究，發(fā)覺(jué)人的視覺(jué)感受并不是光滑的R-D曲線，而是階梯狀的，類(lèi)似于我們學(xué)英語(yǔ)時(shí)并不是循序漸進(jìn)的，而是平穩(wěn)一段時(shí)間然后會(huì)突然提升。在AI算法訓(xùn)練側(cè)也有類(lèi)似現(xiàn)象，Loss很多時(shí)候也是一段一段震蕩下降的。所以在對(duì)一個(gè)視頻進(jìn)行壓縮時(shí)，需要找到一個(gè)合適的點(diǎn)，使得Distortion差不多的情況下，Bitrate盡量小。另外，不同視頻內(nèi)容，比如游戲變化較劇烈，動(dòng)畫(huà)變化較少，合適的點(diǎn)是不一樣的。

綜上，可以對(duì)場(chǎng)景編碼做一個(gè)定義：對(duì)某一視頻內(nèi)容，找到恰當(dāng)?shù)拇a率和分辨率去編碼，達(dá)到合適的效果。

在過(guò)往的音視頻大會(huì)上，各大廠商也分享了不少的方案，譬如方案1，它會(huì)提取各種維度特征如High-level（場(chǎng)景、質(zhì)量）、Low-level（時(shí)空復(fù)雜度、JND），然后得到自適應(yīng)參數(shù)進(jìn)行決策。方案2側(cè)重于特征提取+預(yù)編碼，即通過(guò)下采樣、預(yù)編碼、VAQ計(jì)算后得到一些特征，然后再預(yù)測(cè)碼率和編碼質(zhì)量。

在以上方案的基礎(chǔ)上，進(jìn)一步思考，是否可以直接端到端而非分階段分類(lèi)別地提取特征呢？

通過(guò)探索嘗試，我們?cè)O(shè)計(jì)研發(fā)了圖中的算法模型和策略，它能夠端到端輕量化地預(yù)測(cè)出編碼效果，然后結(jié)合場(chǎng)景需求決策出最終的編碼參數(shù)。模型已經(jīng)適配影視劇、動(dòng)漫、游戲、安防等場(chǎng)景。在VMAF下降<2%的情況下，碼率節(jié)省10%~20%；并且可以分鐘級(jí)調(diào)整碼率；計(jì)算輕量支持高并發(fā)譬如32路。

ROI檢測(cè)的發(fā)展歷程大致是中心區(qū)域ROI—人臉ROI—字幕ROI—主觀感興趣區(qū)域ROI。主觀感興趣區(qū)域ROI的難度較大，且因人而異。思考實(shí)踐后，我們定義重要的前景就是感興趣區(qū)域，然后前景分割技術(shù)目前也是比較成熟了。

一個(gè)特殊的場(chǎng)景是游戲，如王者榮耀、絕地求生等與當(dāng)前前景分割的公開(kāi)數(shù)據(jù)集領(lǐng)域差異很大，因此在開(kāi)源預(yù)訓(xùn)練模型上的效果很差。此外不同游戲場(chǎng)景的差異也很大，數(shù)據(jù)標(biāo)注繁瑣且泛化能力差。我們的研發(fā)目標(biāo)是帶普遍意義的基礎(chǔ)解決方案，是否存在一種避免數(shù)據(jù)標(biāo)注然后泛化性高的算法能力，能夠自動(dòng)在各種游戲場(chǎng)景分割檢測(cè)重要目標(biāo)，譬如英雄？

我們的檢測(cè)分割方案大體可以分為三個(gè)研發(fā)階段：

1、基于背景建模的前景粗定位：基于人眼對(duì)運(yùn)動(dòng)物體的敏感，先對(duì)視頻進(jìn)行場(chǎng)景分割，然后在做光流估計(jì)，再結(jié)合背景建模算法，可以較粗糙的檢測(cè)出來(lái)英雄。

2、漸進(jìn)式自學(xué)習(xí)目標(biāo)檢測(cè)：再結(jié)合特征匹配和帶噪聲的半監(jiān)督學(xué)習(xí)，可以訓(xùn)練出一個(gè)模型較細(xì)致地框出英雄。

3、漸進(jìn)式自學(xué)習(xí)實(shí)例分割：在前兩個(gè)階段的基礎(chǔ)上繼續(xù)努力，進(jìn)行目標(biāo)追蹤，限定范圍內(nèi)的背景建模等，可以很好地進(jìn)行實(shí)例分割。

下方是效果示例，這些游戲視頻并沒(méi)有標(biāo)注任何訓(xùn)練圖片，是通過(guò)純算法學(xué)習(xí)出來(lái)的。

檢測(cè)出感興趣區(qū)域后，接下來(lái)的問(wèn)題是來(lái)應(yīng)該分配多少碼流對(duì)它進(jìn)行編碼。

方案1的實(shí)現(xiàn)是第三種視頻壓縮方案，它和編碼器深入融合，通過(guò)分析統(tǒng)計(jì)所有宏塊的QP，然后根據(jù)目標(biāo)，譬如30%碼流分給20%ROI區(qū)域，修正得到各QP值并進(jìn)行配置。

基于AI外層輔助編碼，我們避免在幀內(nèi)進(jìn)行數(shù)據(jù)交互，而是考慮直接在幀級(jí)別控制。

FFmpeg開(kāi)放了dqp（delta-QP）進(jìn)行區(qū)域調(diào)整，整個(gè)問(wèn)題可以抽象為決策問(wèn)題：設(shè)置全圖、ROI區(qū)域、過(guò)渡區(qū)域的dqp值以及設(shè)置過(guò)渡區(qū)域的大小。具體方案充分利用了AI的能力，端到端的直接學(xué)習(xí)預(yù)測(cè)，可以較好地解決這一問(wèn)題。

從效果上看，ROI檢測(cè)結(jié)合專(zhuān)家知識(shí)能節(jié)省~5%的碼率；然后在相同VMAF下，ROI決策相比專(zhuān)家知識(shí)能額外節(jié)省~3%的碼率。

視頻超分方面，隨著顯示設(shè)備如電視機(jī)等越來(lái)越大，一個(gè)重要需求是在影視劇等視頻內(nèi)容上，可以是視頻內(nèi)容的源側(cè)做超分提升內(nèi)容質(zhì)量；也可以是在終端側(cè)做超分提升顯示效果。另一個(gè)可見(jiàn)的大需求是AIGC，超分模塊會(huì)和diffusion模塊協(xié)同生成video。

Video SR Survey這篇文章較好地總結(jié)了超分pipeline和主流的方法。整個(gè)過(guò)程可描述為輸入低分辨率視頻序列，進(jìn)行圖像數(shù)據(jù)的對(duì)齊，然后做特征提取和融合，最后進(jìn)行重建。右側(cè)歸納總結(jié)了一些主流的算法模型，包括運(yùn)動(dòng)估計(jì)、光流、2D/3D卷積等。

2022年有兩個(gè)SOTA算法，一個(gè)是basicVSR++，基于LSTM做特征的雙向傳播，需要的幀不多，對(duì)齊技術(shù)用光流；另一個(gè)是VRT，使用Transformer結(jié)構(gòu)，用QKV而非傳統(tǒng)光流做特征的匹配融合，總體效果更好，但參數(shù)量也更大。

算法研發(fā)特別重要的是評(píng)價(jià)，在超分所屬的圖像質(zhì)量評(píng)價(jià)領(lǐng)域，已有PSNR/SSIM/VMAF/NIQE等四個(gè)自動(dòng)化的客觀指標(biāo)；也有MOS的主觀評(píng)價(jià)，代表了人的主觀感受，但它是人工的所以獲取成本較高。在超分算法等研發(fā)過(guò)程中，時(shí)常會(huì)出現(xiàn)多個(gè)客觀指標(biāo)評(píng)價(jià)不一致的情況，那如何判斷迭代中的算法效果是否正向呢？

右側(cè)是LIVE2的圖片示例，圖1是reference image，圖2做了Gaussblur，圖3加了白噪聲，圖4加了JPEG壓縮。主觀看來(lái)圖3和圖1比較好，圖2和圖4看起來(lái)較差。

左下角是不同指標(biāo)的對(duì)比結(jié)果，它包含了八種不同的失真方式，包括JPEG compression、JPEG-2000 compression、Gaussian blur、White noise、Bit error等。紅色曲線是MOS的結(jié)果，可以看出其它4個(gè)客觀指標(biāo)與MOS的表征都不一樣，或者說(shuō)它們都不能很好地反應(yīng)圖片主觀質(zhì)量。

再來(lái)看一個(gè)具體案例，它們是使用了SwinIR-GAN和BasicVSR++的圖片效果。右圖的PSNR指標(biāo)較好，但人的主觀感受應(yīng)該是左圖較好。

針對(duì)指標(biāo)不一致的問(wèn)題，能否有更強(qiáng)表征能力的指標(biāo)？我們?cè)O(shè)計(jì)了一個(gè)基于集成學(xué)習(xí)的更有MOS表征能力的指標(biāo)stackMosScore。在數(shù)據(jù)集側(cè)搭建了包含主觀評(píng)價(jià)的數(shù)據(jù)集和其它影視劇的數(shù)據(jù)，然后使用當(dāng)前的4個(gè)客觀指標(biāo)作為基礎(chǔ)做集成學(xué)習(xí)，目標(biāo)是擬合MOS。

從評(píng)價(jià)數(shù)據(jù)集上看，它比原來(lái)最好的VMAF高出7個(gè)點(diǎn)，更好地表征了人的主觀感受。

這里是一個(gè)圖片示例，stackMosScore較好地表征了3張圖片的質(zhì)量好壞關(guān)系。

在算法模型層面我們也做了一些探索嘗試，采用BasicVSR++的主體結(jié)構(gòu)，借鑒VRT思想，添加了關(guān)鍵幀的選擇并進(jìn)行信息融合。

實(shí)際場(chǎng)景一般是兩倍超分，在影視劇數(shù)據(jù)集的評(píng)測(cè)上，PSNR提升0.18db。

最后介紹下ASR方面的一些實(shí)踐。ASR的一個(gè)重要應(yīng)用場(chǎng)景是字幕。影視劇早期是手工字幕，隨著互聯(lián)網(wǎng)平臺(tái)的發(fā)展壯大，ASR在內(nèi)容審核側(cè)會(huì)做一些關(guān)鍵詞的提取，在自媒體時(shí)代，短視頻和直播蓬勃發(fā)展，ASR被廣泛用來(lái)自動(dòng)生成字幕。

字幕生成的Pipeline大致可分為：去背景音樂(lè)、去噪、長(zhǎng)語(yǔ)音切分、ASR識(shí)別、后處理糾錯(cuò)和輸出字幕文件。

ASR的SOTA算法是WeNet(2)，它很好地將實(shí)時(shí)語(yǔ)音識(shí)別和離線語(yǔ)音識(shí)別兩個(gè)分支進(jìn)行了統(tǒng)一。

然后我們主要在長(zhǎng)音頻的切分和ASR算法上做了一些改進(jìn)嘗試，具體包括熱詞（來(lái)自演員表或手動(dòng)設(shè)置），語(yǔ)音增強(qiáng)（去背景音，去噪），短音頻合并成長(zhǎng)音頻優(yōu)化（適當(dāng)合并短音頻成長(zhǎng)音頻，10-15s），WeNet模型加噪聲以及背景音語(yǔ)料微調(diào)，解碼參數(shù)微調(diào)（模型層面提升對(duì)噪聲和背景音的魯棒性）。

這里是一些效果示例：

示例1，背景音去除后能聽(tīng)清最后兩個(gè)字；

示例2，這里是男的他，變長(zhǎng)句后結(jié)合上下文能識(shí)別出是女的她。

上圖表格數(shù)據(jù)是在影視局?jǐn)?shù)據(jù)集上的測(cè)試結(jié)果，總的來(lái)說(shuō)效果還不錯(cuò)。

-04-

后續(xù)工作

后續(xù)工作，在算力方面，曦思N100已進(jìn)入小規(guī)模量產(chǎn)階段，接下來(lái)會(huì)繼續(xù)優(yōu)化提升軟件棧等來(lái)提升全局性能。在解決方案（算法）方面主要包括：

協(xié)同優(yōu)化效果：在核心場(chǎng)景，譬如智能視頻編碼，在模塊間更好地上下協(xié)同，提升效果；

系統(tǒng)性性能優(yōu)化：結(jié)合N100芯片的特點(diǎn)，優(yōu)化算法的網(wǎng)絡(luò)結(jié)構(gòu)乃至方案等；

SDK化部署：整合智能編碼、超分、ASR等的能力，提供基礎(chǔ)的sdk能力作為第三方的基礎(chǔ)解決方案。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4710

瀏覽量
95376
視頻處理

視頻處理

+關(guān)注

關(guān)注
2

文章
99

瀏覽量
19131
視覺(jué)

視覺(jué)

+關(guān)注

關(guān)注
1

文章
163

瀏覽量
24367

原文標(biāo)題：海量視頻處理的應(yīng)對(duì)和算法實(shí)踐

文章出處：【微信號(hào)：livevideostack，微信公眾號(hào)：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

海量視頻處理的應(yīng)對(duì)和算法實(shí)踐

評(píng)論