chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能化編碼面臨的算力瓶頸 如何利用CPU解決全鏈路智能編碼?

LiveVideoStack ? 來(lái)源:LiveVideoStack ? 2023-08-09 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

智能化編碼面臨的算力瓶頸

圖中是一個(gè)視頻轉(zhuǎn)碼推流的一般性流程圖。主播將視頻上傳到上行CDN,然后再由視頻處理中心進(jìn)行各種前處理,包括內(nèi)容理解,審核,編輯,增強(qiáng)和超分,然后進(jìn)行編碼,再推送到下行CDN,供觀眾觀看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

紅色框部分都是和AI相關(guān)的部分。智能化編碼中,AI所需算力已經(jīng)超過(guò)編碼本身。1080p的數(shù)據(jù)超成4K,編碼只需要20幾個(gè)物理核,但是如果要超分,就需要一張GPU卡。一張GPU卡5000塊一個(gè)月,對(duì)比下來(lái)成本優(yōu)勢(shì)一目了然。

根據(jù)相關(guān)視頻企業(yè)公開的財(cái)報(bào),視頻轉(zhuǎn)碼和帶寬的成本占到公司全年收入的10%左右。隨著AIGC的發(fā)展,未來(lái)肯定不局限于10%,因此成本問(wèn)題是我們的痛點(diǎn)之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全鏈路智能化編碼的優(yōu)勢(shì)就在于成本節(jié)約,運(yùn)維簡(jiǎn)單。下面舉一個(gè)更具體的例子:

我們都知道轉(zhuǎn)碼方式有很多種,但CPU有兩個(gè)不可替代的優(yōu)勢(shì):1.高靈活性;2.高復(fù)用性。CPU的升級(jí)幾乎沒(méi)有成本,只需升級(jí)一下軟件部分即可,以云為基礎(chǔ),申請(qǐng)一個(gè)虛擬主機(jī),無(wú)論是docker還是container都可以隨用隨放,十分自由靈活,成本很低。

由于超分部分對(duì)算力的要求非常高,需要通過(guò)GPU來(lái)輔助,但同時(shí)也會(huì)引發(fā)一些問(wèn)題:客戶將高要求的AI負(fù)載遷移到GPU上,將編碼和前處理完全分離。這就像在一間屋子里解碼——發(fā)送到另一間屋子進(jìn)行前處理——再轉(zhuǎn)回來(lái)編碼。這不僅讓流程變得冗長(zhǎng),也對(duì)運(yùn)維造成了極大負(fù)擔(dān),數(shù)據(jù)的反復(fù)調(diào)度也造成了一定時(shí)延的增加。

CPU全鏈路智能化編碼正是解決了這一痛點(diǎn)。

英特爾第四代至強(qiáng)可擴(kuò)展處理器及AMX賦能智能化編碼

接下來(lái)會(huì)介紹英特爾第四代至強(qiáng)可擴(kuò)展處理器及其內(nèi)置的AI加速器AMX,以及如何利用AMX和英特爾成熟的軟件棧和工具鏈幫助視頻編解碼工作者,打造全鏈路智能化編碼。

據(jù)最新的統(tǒng)計(jì)數(shù)據(jù),英特爾至強(qiáng)服務(wù)器在中國(guó)市場(chǎng)的數(shù)據(jù)中心的占有率保持在80%以上,可以說(shuō)至強(qiáng)服務(wù)器是數(shù)據(jù)中心的基石。第四代至強(qiáng)一個(gè)重要的革新就是內(nèi)置了數(shù)個(gè)硬件加速器,用于不同應(yīng)用場(chǎng)景的性能加速,例如之前需要外置的PCIE插卡就已經(jīng)內(nèi)置在CPU內(nèi)部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

從左往右第一個(gè)AMX適用于AI;QAT負(fù)責(zé)壓縮、解壓和加解密;DLB負(fù)責(zé)Load Balance,CDN負(fù)責(zé)負(fù)載均衡,自動(dòng)dispatch到閑散的資源上;DSA負(fù)責(zé)內(nèi)存拷貝,不需要CPU參與,異步拷貝不僅速度快,而且不占用CPU內(nèi)存;IAA負(fù)責(zé)存內(nèi)分析,更多和數(shù)據(jù)庫(kù)相關(guān),IAA可以在不解壓數(shù)據(jù)的情況下分析數(shù)據(jù)。

AMX的全稱是Advanced Matrix eXensions,高級(jí)矩陣擴(kuò)展指令集。它在AVX512的基礎(chǔ)之上做了進(jìn)一步的擴(kuò)展。AMX有兩個(gè)核心思想,一個(gè)是Tiles,一個(gè)是Timo。Tiles是物理上兩地寄存器的疊加,16個(gè)AVX512疊加在一塊。Timo是針對(duì)兩地Tiles的矩陣運(yùn)算。最新的至強(qiáng)每一顆物力核上都有一個(gè)內(nèi)置的AMX,充當(dāng)AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多數(shù)加速卡一樣,AMX加速的是量化精度。目前第四代至強(qiáng)支持的是BF16和INT8,未來(lái)也會(huì)很快支持FP8和FP16。BF16的表達(dá)范圍和FP32一模一樣,只是精度比FP32小一點(diǎn)。目前絕大多數(shù)的場(chǎng)景,BF16已經(jīng)足夠。對(duì)于訓(xùn)練來(lái)說(shuō)FP16足矣,而推理則只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩陣乘的呢?我們?cè)谧龃蟮木仃嚂r(shí)可以把矩陣拆成16*64,然后一次性計(jì)算。如果算力不夠,可以用oneDNN和MLKDNN處理,而AMX加速矩陣乘計(jì)算,算力是前一代產(chǎn)品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

這張圖是至強(qiáng)服務(wù)器峰值計(jì)算能力的演進(jìn)過(guò)程。從2019年開始的第二代至強(qiáng)可擴(kuò)展處理器支持VNNI,最新發(fā)布的第四代至強(qiáng)可擴(kuò)展處理器支持AMX,可以看到每個(gè)指令周期的計(jì)算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,軟件生態(tài)某種意義上說(shuō)對(duì)開發(fā)者來(lái)說(shuō)更為關(guān)鍵。這是一張英特爾 AMX的軟件生態(tài)圖,從下往上,從最底層的操作系統(tǒng)到虛擬化KVM、HyperV,再到核心AI計(jì)算庫(kù)都是英特爾開發(fā)的。在框架層面,主流的TF和PyTorch也都包含在內(nèi),除此之外英特爾還提供了豐富的推理工具。這些成熟的軟件生態(tài)使得我們的開發(fā)者可以專注于算法創(chuàng)新,而不用考慮如何部署等細(xì)節(jié),開箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力對(duì)將AI從GPU遷到CPU之上確實(shí)有很大的幫助,但如何保證精度呢?英特爾有一個(gè)工具叫做INC,內(nèi)置了很多專門用于精度的校正算法。作為開發(fā)者,只需要做三件事:輸入模型、輸入數(shù)據(jù)集和輸入精度要求即可。INC會(huì)根據(jù)客戶的輸入進(jìn)行tuning,直到有一個(gè)用戶滿意的算法。如果最終達(dá)不到設(shè)定的精度要求,還可以對(duì)某些層進(jìn)行回滾,從而保證設(shè)定的精度可以達(dá)到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到視頻編解碼領(lǐng)域,我們知道視頻前處理是在FFmpeg解碼之后,對(duì)YUV或者RGB數(shù)據(jù)進(jìn)行處理,處理結(jié)束后再送到編碼器x264或者x265編碼。由于整個(gè)pipeline中,數(shù)據(jù)的處理速度并不一致,因此為了讓整個(gè)過(guò)程的數(shù)據(jù)順滑地流動(dòng)起來(lái),就需要做一部分的改造,比如解碼后的raw data放入一個(gè)buffer隊(duì)列中,AI推理異步從這個(gè)隊(duì)列中取數(shù)據(jù)做推理,并把推理后的結(jié)果送到編碼器中,這需要一定量針對(duì)FFmpeg的開發(fā)工作。

幸運(yùn)的是,英特爾已經(jīng)幫用戶做好了。FFmpeg中有一個(gè)英特爾的OpenVINO后端,用戶直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2個(gè)后端,一個(gè)是Tensorflow,另外一個(gè)就是英特爾的OpenVINO。

總結(jié):FFmpeg已經(jīng)集成了OpenVINO作為AI 的后端推理引擎且英特爾有專門的團(tuán)隊(duì)去維護(hù),大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

這是一個(gè)和合作伙伴的實(shí)際案例。在視頻增強(qiáng)和目標(biāo)檢測(cè)這兩個(gè)場(chǎng)景下,使用了英特爾第四代至強(qiáng)可擴(kuò)展處理器AMX優(yōu)化的AI推理性能相對(duì)上一代平臺(tái)分別提升了1.86倍和1.95倍。與此同時(shí),精度損失被控制在可接受的范圍,這也使得英特爾的客戶在CPU上實(shí)現(xiàn)了全鏈路智能化編碼,大幅降低了部署成本和運(yùn)維成本。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20142

    瀏覽量

    246646
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3899

    瀏覽量

    141340
  • DSA
    DSA
    +關(guān)注

    關(guān)注

    0

    文章

    53

    瀏覽量

    15767
  • 硬件加速器
    +關(guān)注

    關(guān)注

    0

    文章

    43

    瀏覽量

    13332
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    306

    瀏覽量

    6387

原文標(biāo)題:面對(duì)算力瓶頸,如何利用CPU解決全鏈路智能編碼?

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構(gòu)計(jì)算效能

    前言AI已成為數(shù)字經(jīng)濟(jì)時(shí)代的核心生產(chǎn),但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計(jì),行業(yè)
    的頭像 發(fā)表于 11-21 16:05 ?663次閱讀
    從<b class='flag-5'>CPU</b>、GPU到NPU,美格<b class='flag-5'>智能</b>持續(xù)優(yōu)化異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>計(jì)算效能

    SDI編碼板CM2001S與模組CM8272:賦能工業(yè)高清視覺(jué)

    可靠性、高清低延遲特性及深度協(xié)同能力,在復(fù)雜工業(yè)環(huán)境中構(gòu)建起視覺(jué)解決方案,成為推動(dòng)產(chǎn)業(yè)數(shù)字轉(zhuǎn)型的關(guān)鍵動(dòng)力。 核心產(chǎn)品協(xié)同:硬件實(shí)力鑄就工業(yè)級(jí)優(yōu)勢(shì) CM2001S作為工業(yè)傳輸?shù)摹?/div>
    的頭像 發(fā)表于 11-20 14:26 ?68次閱讀

    協(xié)同!艾為電子開啟端側(cè)AI音頻“精而優(yōu)”時(shí)代

    不同,邊緣設(shè)備更需要適配碎片場(chǎng)景“精而優(yōu)”的解決方案。中國(guó)數(shù)模龍頭艾為電子,憑借在ADC、Codec、DSP、自研算法、SmartPA等領(lǐng)域的
    的頭像 發(fā)表于 11-12 19:02 ?339次閱讀
    <b class='flag-5'>全</b><b class='flag-5'>鏈</b><b class='flag-5'>路</b>協(xié)同!艾為電子開啟端側(cè)AI音頻“精而優(yōu)”時(shí)代

    “汽車智能化” 和 “家電高端

    “帶輪子的超級(jí)計(jì)算機(jī)” 了!而這一切都離不開 7nm 級(jí)別的高芯片:? 智能座艙的 “大腦” 需求:現(xiàn)在新車流行的 7 屏聯(lián)動(dòng)、4K 高清顯示、語(yǔ)音控制、人臉識(shí)別,都需要芯片有超強(qiáng)
    發(fā)表于 10-28 20:46

    從高清采集到抗擾傳輸:索尼4k模組FCB-CR8530與SDI編碼板驅(qū)動(dòng)工業(yè)智能化發(fā)展

    隨著工業(yè)4.0 進(jìn)入深度落地階段,生產(chǎn)流程的精細(xì)化管控、關(guān)鍵設(shè)備的毫米級(jí)檢測(cè)、多系統(tǒng)數(shù)據(jù)的實(shí)時(shí)協(xié)同,已成為工業(yè)企業(yè)提升核心競(jìng)爭(zhēng)的關(guān)鍵訴求。而視覺(jué)技術(shù)作為工業(yè)智能化的 “眼睛”,正面臨著 “高清采集
    的頭像 發(fā)表于 09-19 11:55 ?544次閱讀

    突破傳統(tǒng)桎梏,PPEC Workbench 開啟電源智能化設(shè)計(jì)新路徑

    數(shù)據(jù)庫(kù),接入器件商城,新硬件接入能快速推薦適配方案,極大加快產(chǎn)品落地速度。 二、 平臺(tái)優(yōu)勢(shì):生命周期智能化閉環(huán) PPEC Workbench 電力電子智能化設(shè)計(jì)平臺(tái)重構(gòu)了電源設(shè)計(jì)的
    發(fā)表于 08-26 11:40

    沐曦方案亮相WAIC 2025

    以“智能時(shí)代 同球共濟(jì)”為主題的2025世界人工智能大會(huì)(WAIC)于7月26日在上海開幕,全球人工智能領(lǐng)域的技術(shù)創(chuàng)新與產(chǎn)業(yè)實(shí)踐成為焦點(diǎn)。沐曦集成電路(上海)股份有限公司(以下簡(jiǎn)稱“沐曦”)攜
    的頭像 發(fā)表于 08-01 11:58 ?7801次閱讀

    多摩川編碼器:為木工機(jī)械賦能智能化生產(chǎn)

    在木工行業(yè)蓬勃發(fā)展的今天,智能化生產(chǎn)已成為行業(yè)發(fā)展的必然趨勢(shì)。木工機(jī)械作為木材加工的核心設(shè)備,其智能化水平的高低直接影響著生產(chǎn)效率、產(chǎn)品質(zhì)量和企業(yè)的競(jìng)爭(zhēng)。而多摩川編碼器,憑借其卓越的
    的頭像 發(fā)表于 07-23 16:18 ?386次閱讀

    精準(zhǔn)定位 高效驅(qū)動(dòng)丨基于極海APM32E030的磁電式絕對(duì)值編碼器參考方案,加速工業(yè)智能化轉(zhuǎn)型

    編碼器作為工業(yè)自動(dòng)智能制造的核心組件,憑借高精度、實(shí)時(shí)反饋和智能化控制等特性,廣泛應(yīng)用于機(jī)器人、自動(dòng)控制、數(shù)控機(jī)床、電梯、新能源等領(lǐng)域
    發(fā)表于 05-13 13:46 ?983次閱讀
    精準(zhǔn)定位 高效驅(qū)動(dòng)丨基于極海APM32E030的磁電式絕對(duì)值<b class='flag-5'>編碼</b>器參考方案,加速工業(yè)<b class='flag-5'>智能化</b>轉(zhuǎn)型

    智能基建:RAKsmart如何賦能下一代AI開發(fā)工具

    當(dāng)今,AI模型的復(fù)雜與規(guī)模對(duì)提出了前所未有的要求。然而,傳統(tǒng)的基礎(chǔ)設(shè)施在靈活性、成本
    的頭像 發(fā)表于 05-07 09:40 ?350次閱讀

    工業(yè)4.0革命利器!明遠(yuǎn)智睿SSD2351核心板:低成本+高,破解產(chǎn)線智能化難題

    行業(yè)痛點(diǎn):傳統(tǒng)工業(yè)設(shè)備智能化改造面臨三大瓶頸——不足導(dǎo)致實(shí)時(shí)性差、接口資源有限難以擴(kuò)展多設(shè)備、進(jìn)口方案成本高昂且供貨不穩(wěn)定。 核心板方案
    發(fā)表于 03-21 14:22

    國(guó)產(chǎn)新標(biāo)桿!卓怡恒通EPC-S4450邊緣AI工控機(jī)開啟工業(yè)智能新紀(jì)元

    在工業(yè)4.0與數(shù)字轉(zhuǎn)型浪潮的推動(dòng)下,邊緣計(jì)算正加速重構(gòu)工業(yè)智能化版圖。國(guó)內(nèi)信創(chuàng)工業(yè)計(jì)算領(lǐng)域領(lǐng)軍企業(yè)卓怡恒通今日正式發(fā)布EPC-S4450邊緣AI工控機(jī),以"棧國(guó)產(chǎn)+AI
    的頭像 發(fā)表于 03-06 17:30 ?947次閱讀
    國(guó)產(chǎn)<b class='flag-5'>化</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新標(biāo)桿!卓怡恒通EPC-S4450邊緣AI工控機(jī)開啟工業(yè)<b class='flag-5'>智能</b>新紀(jì)元

    云 GPU 加速計(jì)算:突破傳統(tǒng)瓶頸的利刃

    ,猶如一把利刃,成功突破了傳統(tǒng)瓶頸。 傳統(tǒng)的 CPU 計(jì)算在面對(duì)大規(guī)模并行計(jì)算任務(wù)時(shí),往往顯得力不從心。CPU 核心數(shù)量有限,且設(shè)計(jì)側(cè)
    的頭像 發(fā)表于 02-17 10:36 ?500次閱讀

    單軸測(cè)徑儀也可以智能化

    關(guān)鍵字:藍(lán)鵬牌測(cè)徑儀,智能測(cè)徑儀,單軸智能測(cè)徑儀,測(cè)徑儀智能化,測(cè)徑儀智能測(cè)控,外徑智能測(cè)量,單
    發(fā)表于 12-31 13:55