chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

智能化編碼面臨的算力瓶頸 如何利用CPU解決全鏈路智能編碼?

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-09 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

智能化編碼面臨的算力瓶頸

圖中是一個視頻轉碼推流的一般性流程圖。主播將視頻上傳到上行CDN,然后再由視頻處理中心進行各種前處理,包括內容理解,審核,編輯,增強和超分,然后進行編碼,再推送到下行CDN,供觀眾觀看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

紅色框部分都是和AI相關的部分。智能化編碼中,AI所需算力已經超過編碼本身。1080p的數據超成4K,編碼只需要20幾個物理核,但是如果要超分,就需要一張GPU卡。一張GPU卡5000塊一個月,對比下來成本優(yōu)勢一目了然。

根據相關視頻企業(yè)公開的財報,視頻轉碼和帶寬的成本占到公司全年收入的10%左右。隨著AIGC的發(fā)展,未來肯定不局限于10%,因此成本問題是我們的痛點之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全鏈路智能化編碼的優(yōu)勢就在于成本節(jié)約,運維簡單。下面舉一個更具體的例子:

我們都知道轉碼方式有很多種,但CPU有兩個不可替代的優(yōu)勢:1.高靈活性;2.高復用性。CPU的升級幾乎沒有成本,只需升級一下軟件部分即可,以云為基礎,申請一個虛擬主機,無論是docker還是container都可以隨用隨放,十分自由靈活,成本很低。

由于超分部分對算力的要求非常高,需要通過GPU來輔助,但同時也會引發(fā)一些問題:客戶將高要求的AI負載遷移到GPU上,將編碼和前處理完全分離。這就像在一間屋子里解碼——發(fā)送到另一間屋子進行前處理——再轉回來編碼。這不僅讓流程變得冗長,也對運維造成了極大負擔,數據的反復調度也造成了一定時延的增加。

CPU全鏈路智能化編碼正是解決了這一痛點。

英特爾第四代至強可擴展處理器及AMX賦能智能化編碼

接下來會介紹英特爾第四代至強可擴展處理器及其內置的AI加速器AMX,以及如何利用AMX和英特爾成熟的軟件棧和工具鏈幫助視頻編解碼工作者,打造全鏈路智能化編碼。

據最新的統(tǒng)計數據,英特爾至強服務器在中國市場的數據中心的占有率保持在80%以上,可以說至強服務器是數據中心的基石。第四代至強一個重要的革新就是內置了數個硬件加速器,用于不同應用場景的性能加速,例如之前需要外置的PCIE插卡就已經內置在CPU內部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

從左往右第一個AMX適用于AI;QAT負責壓縮、解壓和加解密;DLB負責Load Balance,CDN負責負載均衡,自動dispatch到閑散的資源上;DSA負責內存拷貝,不需要CPU參與,異步拷貝不僅速度快,而且不占用CPU內存;IAA負責存內分析,更多和數據庫相關,IAA可以在不解壓數據的情況下分析數據。

AMX的全稱是Advanced Matrix eXensions,高級矩陣擴展指令集。它在AVX512的基礎之上做了進一步的擴展。AMX有兩個核心思想,一個是Tiles,一個是Timo。Tiles是物理上兩地寄存器的疊加,16個AVX512疊加在一塊。Timo是針對兩地Tiles的矩陣運算。最新的至強每一顆物力核上都有一個內置的AMX,充當AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多數加速卡一樣,AMX加速的是量化精度。目前第四代至強支持的是BF16和INT8,未來也會很快支持FP8和FP16。BF16的表達范圍和FP32一模一樣,只是精度比FP32小一點。目前絕大多數的場景,BF16已經足夠。對于訓練來說FP16足矣,而推理則只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩陣乘的呢?我們在做大的矩陣時可以把矩陣拆成16*64,然后一次性計算。如果算力不夠,可以用oneDNN和MLKDNN處理,而AMX加速矩陣乘計算,算力是前一代產品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

這張圖是至強服務器峰值計算能力的演進過程。從2019年開始的第二代至強可擴展處理器支持VNNI,最新發(fā)布的第四代至強可擴展處理器支持AMX,可以看到每個指令周期的計算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,軟件生態(tài)某種意義上說對開發(fā)者來說更為關鍵。這是一張英特爾 AMX的軟件生態(tài)圖,從下往上,從最底層的操作系統(tǒng)到虛擬化KVM、HyperV,再到核心AI計算庫都是英特爾開發(fā)的。在框架層面,主流的TF和PyTorch也都包含在內,除此之外英特爾還提供了豐富的推理工具。這些成熟的軟件生態(tài)使得我們的開發(fā)者可以專注于算法創(chuàng)新,而不用考慮如何部署等細節(jié),開箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力對將AI從GPU遷到CPU之上確實有很大的幫助,但如何保證精度呢?英特爾有一個工具叫做INC,內置了很多專門用于精度的校正算法。作為開發(fā)者,只需要做三件事:輸入模型、輸入數據集和輸入精度要求即可。INC會根據客戶的輸入進行tuning,直到有一個用戶滿意的算法。如果最終達不到設定的精度要求,還可以對某些層進行回滾,從而保證設定的精度可以達到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到視頻編解碼領域,我們知道視頻前處理是在FFmpeg解碼之后,對YUV或者RGB數據進行處理,處理結束后再送到編碼器x264或者x265編碼。由于整個pipeline中,數據的處理速度并不一致,因此為了讓整個過程的數據順滑地流動起來,就需要做一部分的改造,比如解碼后的raw data放入一個buffer隊列中,AI推理異步從這個隊列中取數據做推理,并把推理后的結果送到編碼器中,這需要一定量針對FFmpeg的開發(fā)工作。

幸運的是,英特爾已經幫用戶做好了。FFmpeg中有一個英特爾的OpenVINO后端,用戶直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2個后端,一個是Tensorflow,另外一個就是英特爾的OpenVINO。

總結:FFmpeg已經集成了OpenVINO作為AI 的后端推理引擎且英特爾有專門的團隊去維護,大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

這是一個和合作伙伴的實際案例。在視頻增強和目標檢測這兩個場景下,使用了英特爾第四代至強可擴展處理器AMX優(yōu)化的AI推理性能相對上一代平臺分別提升了1.86倍和1.95倍。與此同時,精度損失被控制在可接受的范圍,這也使得英特爾的客戶在CPU上實現了全鏈路智能化編碼,大幅降低了部署成本和運維成本。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20329

    瀏覽量

    254804
  • 編碼器
    +關注

    關注

    45

    文章

    4011

    瀏覽量

    143322
  • DSA
    DSA
    +關注

    關注

    0

    文章

    53

    瀏覽量

    15886
  • 硬件加速器
    +關注

    關注

    0

    文章

    43

    瀏覽量

    13548
  • GPU芯片
    +關注

    關注

    1

    文章

    307

    瀏覽量

    6553

原文標題:面對算力瓶頸,如何利用CPU解決全鏈路智能編碼?

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    鴻蒙編碼與鴻蒙安全:中小企業(yè)智能化的雙翼展翅

    鴻蒙編碼+鴻蒙安全,為中小企業(yè)智能化保駕護航
    的頭像 發(fā)表于 03-27 23:17 ?8773次閱讀
    鴻蒙<b class='flag-5'>編碼</b>與鴻蒙安全:中小企業(yè)<b class='flag-5'>智能化</b>的雙翼展翅

    MT6826S 磁性角度編碼器內部信號與 DSP 解原理

    ADC + 專用 DSP + CORDIC 解 + 多級校準補償架構。本文從 AMR 敏感單元、模擬信號、數字采樣、DSP 補償與角度解、輸出接口
    的頭像 發(fā)表于 03-23 16:35 ?1029次閱讀

    編碼器磁鋼–傳感單元–信號處理工作機制

    編碼器的磁鋼–傳感單元–信號處理,是 “物理磁場→電信號→數字量” 的精準轉換系統(tǒng),其協(xié)同性能直接決定了編碼器的核心競爭。隨著新能源
    的頭像 發(fā)表于 02-27 15:54 ?340次閱讀
    磁<b class='flag-5'>編碼</b>器磁鋼–傳感單元–信號處理<b class='flag-5'>鏈</b><b class='flag-5'>路</b>工作機制

    解碼未來:編碼器信號轉換模塊——工業(yè)智能化的“數字橋梁”

    在工業(yè)4.0的浪潮中,自動智能化已成為企業(yè)轉型升級的核心驅動力。然而,不同設備間的信號兼容性問題,卻像一道無形的屏障,阻礙著系統(tǒng)的高效協(xié)同。如何讓老舊設備與新型控制系統(tǒng)無縫對話?如何讓異構協(xié)議
    的頭像 發(fā)表于 02-06 08:46 ?238次閱讀
    解碼未來:<b class='flag-5'>編碼</b>器信號轉換模塊——工業(yè)<b class='flag-5'>智能化</b>的“數字橋梁”

    RFID倉儲管理系統(tǒng)+RFID電子標簽:重構智能倉儲數字核心

    在供應數字轉型的浪潮下,倉儲作為核心節(jié)點,正面臨多品類、小批量訂單激增與高效履約需求的雙重壓力。傳統(tǒng)倉儲依賴人工掃碼與紙質記錄的管理
    的頭像 發(fā)表于 01-07 16:51 ?738次閱讀

    錨定中央 “人工智能+” 部署!天數智棧產品,解鎖行業(yè)智能化新可能??

    緊扣政策導向,以“邊緣+存儲基座+場景機器人+家庭智能”四大產品矩陣,為“人工智能+”落地提供從“
    的頭像 發(fā)表于 12-11 17:54 ?2004次閱讀
    錨定中央 “人工<b class='flag-5'>智能</b>+” 部署!天數智<b class='flag-5'>算</b>以<b class='flag-5'>全</b>棧產品<b class='flag-5'>力</b>,解鎖行業(yè)<b class='flag-5'>智能化</b>新可能??

    錨定中央 “人工智能+” 部署!天數智棧產品,解鎖行業(yè)智能化新可能?

    隨著“人工智能+”行動的深入推進,天數智將繼續(xù)發(fā)揮自身在技術、產品創(chuàng)新和生態(tài)合作等方面的優(yōu)勢,不斷優(yōu)化產品與解決方案。持續(xù)為千行百業(yè)的智能化
    的頭像 發(fā)表于 12-04 17:42 ?1758次閱讀
    錨定中央 “人工<b class='flag-5'>智能</b>+” 部署!天數智<b class='flag-5'>算</b>以<b class='flag-5'>全</b>棧產品<b class='flag-5'>力</b>,解鎖行業(yè)<b class='flag-5'>智能化</b>新可能?

    CPU、GPU到NPU,美格智能持續(xù)優(yōu)化異構計算效能

    前言AI已成為數字經濟時代的核心生產,但全球AI產業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據行業(yè)統(tǒng)計,行業(yè)
    的頭像 發(fā)表于 11-21 16:05 ?1299次閱讀
    從<b class='flag-5'>CPU</b>、GPU到NPU,美格<b class='flag-5'>智能</b>持續(xù)優(yōu)化異構<b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    協(xié)同!艾為電子開啟端側AI音頻“精而優(yōu)”時代

    不同,邊緣設備更需要適配碎片場景“精而優(yōu)”的解決方案。中國數模龍頭艾為電子,憑借在ADC、Codec、DSP、自研算法、SmartPA等領域的
    的頭像 發(fā)表于 11-12 19:02 ?778次閱讀
    <b class='flag-5'>全</b><b class='flag-5'>鏈</b><b class='flag-5'>路</b>協(xié)同!艾為電子開啟端側AI音頻“精而優(yōu)”時代

    “汽車智能化” 和 “家電高端

    “帶輪子的超級計算機” 了!而這一切都離不開 7nm 級別的高芯片:? 智能座艙的 “大腦” 需求:現在新車流行的 7 屏聯動、4K 高清顯示、語音控制、人臉識別,都需要芯片有超強
    發(fā)表于 10-28 20:46

    從高清采集到抗擾傳輸:索尼4k模組FCB-CR8530與SDI編碼板驅動工業(yè)智能化發(fā)展

    隨著工業(yè)4.0 進入深度落地階段,生產流程的精細化管控、關鍵設備的毫米級檢測、多系統(tǒng)數據的實時協(xié)同,已成為工業(yè)企業(yè)提升核心競爭的關鍵訴求。而視覺技術作為工業(yè)智能化的 “眼睛”,正面臨著 “高清采集
    的頭像 發(fā)表于 09-19 11:55 ?832次閱讀

    突破傳統(tǒng)桎梏,PPEC Workbench 開啟電源智能化設計新路徑

    數據庫,接入器件商城,新硬件接入能快速推薦適配方案,極大加快產品落地速度。 二、 平臺優(yōu)勢:生命周期智能化閉環(huán) PPEC Workbench 電力電子智能化設計平臺重構了電源設計的
    發(fā)表于 08-26 11:40

    沐曦方案亮相WAIC 2025

    以“智能時代 同球共濟”為主題的2025世界人工智能大會(WAIC)于7月26日在上海開幕,全球人工智能領域的技術創(chuàng)新與產業(yè)實踐成為焦點。沐曦集成電路(上海)股份有限公司(以下簡稱“沐曦”)攜
    的頭像 發(fā)表于 08-01 11:58 ?8476次閱讀

    多摩川編碼器:為木工機械賦能智能化生產

    在木工行業(yè)蓬勃發(fā)展的今天,智能化生產已成為行業(yè)發(fā)展的必然趨勢。木工機械作為木材加工的核心設備,其智能化水平的高低直接影響著生產效率、產品質量和企業(yè)的競爭。而多摩川編碼器,憑借其卓越的
    的頭像 發(fā)表于 07-23 16:18 ?709次閱讀

    智能基建:RAKsmart如何賦能下一代AI開發(fā)工具

    當今,AI模型的復雜與規(guī)模提出了前所未有的要求。然而,傳統(tǒng)的基礎設施在靈活性、成本
    的頭像 發(fā)表于 05-07 09:40 ?612次閱讀