chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英特爾AVX-512VNNI技術(shù)解析

科技見聞網(wǎng) ? 來源:科技見聞網(wǎng) ? 作者:科技見聞網(wǎng) ? 2022-03-31 14:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英特爾AVX-512VNNI技術(shù)解析

高級矢量擴展指令集(AdvancedVector ExtensionsAVX)是x86架構(gòu)微處理器中的SIMD指令集。英特爾AVX-512顧名思義寄存器位寬是512b,可以支持16路32b單精度浮點數(shù)或64路8b整型數(shù)。

英特爾至強可擴展處理器通過英特爾深度學習加速(英特爾DLBoost)進一步提升了AI計算性能。英特爾深度學習加速包含英特爾AVX-512VNNI(VectorNeural Network Instructions),是對標準英特爾AVX-512指令集的擴展。

如何理解英特爾AVX-512技術(shù),還要從SIMD指令集說起。SIMD是單指令流多數(shù)據(jù)流操作(SingleInstruction Stream, Multiple Data Stream)的縮寫,相對應的是SISD單指令流單數(shù)據(jù)流(SingleInstruction Stream, Single Data Stream)。相較于傳統(tǒng)的單指令單數(shù)據(jù)指令,SIMD指令使得一條指令可以完成多組數(shù)據(jù)的操作。單指令單數(shù)據(jù)流和單指令多數(shù)據(jù)流區(qū)別如下圖所示:

英特爾AVX-512VNNI技術(shù)解析

英特爾AVX指令集的前世今生

英特爾AVX-512VNNI技術(shù)解析

英特爾最早發(fā)布的SIMD指令集是MMX指令集:

1996年,英特爾發(fā)布了基于新版P55C架構(gòu)的PentiumMMX系列處理器,其中引入了新的MMX指令集,開始支持SIMD。PentiumMMX系列處理器上新引入的MMX指令集開創(chuàng)了x86處理器支持SIMD操作的先河,該指令集定義了8個64-bit寬度的寄存器,每個寄存器的64-bit容量中可以放入八個8-bit長度的整數(shù)或四個16-bit長度整數(shù)或兩個32-bit整數(shù),CPU在識別到MMX指令集的新指令時會自動將寄存器中的數(shù)據(jù)進行分割計算,這樣一來,單個指令就成功操作了多個數(shù)據(jù),實現(xiàn)了SIMD。

英特爾AVX-512指令集實際上分成不同的擴展,用來實現(xiàn)不同的操作。具體的擴展如下:

AVX-512 Foundation

AVX-512 Conflict Detection Instructions (CD)

AVX-512 Exponential and Reciprocal Instructions (ER)

AVX-512 Prefetch Instructions (PF)

AVX-512 Vector Length Extensions (VL)

AVX-512 Byte and Word Instructions (BW)

AVX-512 Doubleword and Quadword Instructions (DQ)

AVX-512 Integer Fused Multiply Add (IFMA)

AVX-512 Vector Byte Manipulation Instructions (VBMI)

AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW)

AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS)

VPOPCNTDQ

VPCLMULQDQ

AVX-512 Vector Neural Network Instructions (VNNI)

AVX-512 Galois Field New Instructions (GFNI)

AVX-512 Vector AES instructions (VAES)

AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2)

AVX-512 Bit Algorithms (BITALG)

AVX-512 Bfloat16 Floating-Point Instructions (BF16)

AVX-512 Half-Precision Floating-Point Instructions (FP16)

通過以上這些指令集擴展,讓英特爾至強可擴展處理器家族在音視頻處理、游戲、科學計算、數(shù)據(jù)加密壓縮以及深度學習等場景中擁有了出色的表現(xiàn)。

英特爾AVX-512VNNI(VectorNeural Network Instructions)

英特爾AVX-512VNNI(VectorNeural NetworkInstructions)是英特爾深度學習加速一項重要的內(nèi)容,也是對標準英特爾AVX-512指令集的擴展??梢詫⑷龡l指令合并成一條指令執(zhí)行,更進一步的發(fā)揮新一代英特爾至強可擴展處理器的計算潛能,提升INT8模型的推理性能。目前第2代和第3代英特爾至強可擴展處理器均支持英特爾VNNI。

未使用VNNI的平臺需要vpmaddubsw、vpmaddwd和vpaddd指令才能完成INT8卷積運算中的乘累加:

英特爾AVX-512VNNI技術(shù)解析

而擁有VNNI的平臺上則可以使用一條指令vpdpbusd完成INT8卷積操作:

英特爾AVX-512VNNI技術(shù)解析

英特爾深度學習加速VNNI加速推薦系統(tǒng)中的矢量召回

下面介紹一個具體的使用場景:英特爾深度學習加速VNNI加速推薦系統(tǒng)中的矢量召回。

眾所周知,推薦系統(tǒng)需要解決的問題是:如何為既定用戶生成一個長度為K的推薦列表,并使該推薦列表盡量(高準確性)、盡快(低延遲)地滿足用戶的興趣和需求?常規(guī)的推薦系統(tǒng)包含兩部分:矢量召回(vectorrecall)和重排(ranking)。前者從龐大的推薦池里粗篩出當前用戶最可能感興趣的幾百或幾千條內(nèi)容,并將結(jié)果交由后者的排序模塊進一步排序,得到最終推薦結(jié)果。

英特爾AVX-512VNNI技術(shù)解析

矢量召回可以轉(zhuǎn)換成高緯度的矢量相似性搜索問題。HNSW(HierarchicalNavigable Small World)算法是基于圖結(jié)構(gòu)的ANN(ApproximateNearest Neighbor)矢量相似度搜索算法之一,也是速度最快精度最高的算法之一。

英特爾AVX-512VNNI技術(shù)解析

矢量原始數(shù)據(jù)的數(shù)據(jù)類型常常是FP32。對于很多業(yè)務(如圖片檢索),矢量數(shù)據(jù)是可以用INT8/INT16表示而且量化誤差對最終搜集結(jié)果影響有限。這時可以使用VNNI intrinsic 指令實現(xiàn)矢量INT8/INT16 的內(nèi)積計算。大量實驗表明QPS性能有較大的提升,而且召回率幾乎不變。QPS提升的原因一方面是 INT8/INT16訪問帶寬比 FP32少很多,另一方面距離計算部分由于使用 VNNI指令得以加速。

當數(shù)據(jù)集比較大時(如1億到10億數(shù)據(jù)量級范圍),傳統(tǒng)的做法是將數(shù)據(jù)集切片,變成幾個較小的數(shù)據(jù)集,每個數(shù)據(jù)集單獨獲取topK,最后再合并。由于增加了多個機器之間的通信,增加延遲的同時降低了QPS。在大數(shù)據(jù)集上使用HNSW方案的最佳實踐是:盡量不切片,在完整的數(shù)據(jù)集上建立索引和執(zhí)行搜索,可獲得最佳性能。當數(shù)據(jù)集過大,內(nèi)存空間不夠時,可以考慮使用英特爾傲騰持久內(nèi)存解決。

Super-FusedBERT技術(shù)解析

BERT介紹

BERT(BidirectionalEncoder Representations fromTransformers,基于變換器的雙向編碼器表示技術(shù))是2018年谷歌公司提出的NLP(Naturallanguageprocessing,自然語言處理)學科的新技術(shù)。谷歌正在利用BERT來更好地理解用戶搜索語句的語義。2020年的一項文獻調(diào)查得出結(jié)論:“在一年多一點的時間里,BERT已經(jīng)成為NLP實驗中無處不在的基線”,算上分析和改進模型的研究出版物超過150篇。

BERT的創(chuàng)新點在于它將雙向Transformer用于語言模型,之前的模型是從左向右輸入一個文本序列,或者將left-to-right和right-to-left的訓練結(jié)合起來。實驗的結(jié)果表明,雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻,BERT使用了一種新技術(shù)叫做MaskedLM(MLM),在這個技術(shù)出現(xiàn)之前是無法進行雙向語言模型訓練的。

英特爾AVX-512技術(shù)加速新浪廣告業(yè)務

通過使用英特爾AVX-512實現(xiàn)Super-FusedBert優(yōu)化方案

一、利用Intel MKL高性能數(shù)學庫

MKL是Intel發(fā)布的高性能數(shù)學庫,適用于科學計算,工程和金融領(lǐng)域。經(jīng)過多年的打磨,MKL已經(jīng)是x86平臺上性能最好的數(shù)學庫之一。借助MKL可以最大限度的發(fā)揮出Xeon處理器的硬件性能,幫助加速Bert模型的推理。

英特爾AVX-512VNNI技術(shù)解析

圖 MKL高性能數(shù)學庫

深度學習模型中存在大量矩陣乘法(GEMM)這種計算密集操作,可以直接使用MKL的cblas_sgemm接口。

此外,MKL還提供了一種新的GEMM接口,叫PackedAPI。這種API可以對輸入的矩陣進行預處理(Pack),進一步提高GEMM的效率。

英特爾AVX-512VNNI技術(shù)解析

圖 MKLPacked API性能曲線

對于Bert模型,在其推理時權(quán)重是固定的,因此可以對權(quán)重進行重排,使用MKL的PackedAPI進行模型推理加速。

二、利用Intel oneDNN開源深度學習加速庫

oneDNN是Intel開源的深度學習加速庫,同樣可以支持不同的計算設(shè)備,如CPU,GPU等。oneDNN抽象了以下幾個概念:

Primitive:一種DNN算子的底層原語,支持matmul,convolution等。

Memory:對Primitive使用的內(nèi)存的抽象,存在多種布局,不同的內(nèi)存布局也會影響

Primitive:的執(zhí)行效率。

Engine:底層計算設(shè)備抽象,可支持 CPU, GPU。

Stream:Engine中Primitive的隊列。

英特爾AVX-512VNNI技術(shù)解析

圖 oneDNN結(jié)構(gòu)

oneDNN中支持了大量常用的深度學習算子。Bert中使用的softmax,layernorm,gelu也都在oneDNN的Primitive中找到相應的實現(xiàn)。

三、使用AVX-512技術(shù)進行算子融合

在深度學習框架中,一個模型由多個算子組成,這些算子執(zhí)行都服從深度學習中調(diào)度器的調(diào)度。冗余的算子會增加調(diào)度開銷,進而影響執(zhí)行效率。并且算子實現(xiàn)中可能還有很多不必要的訪存和內(nèi)存分配。因此在針對推理的優(yōu)化中,減少算子數(shù)量非常必要。

英特爾AVX-512VNNI技術(shù)解析

圖 算子融合示意圖

除此之外,深度學習模型中,計算密集的算子(matmul,conv)后面會跟一個element-wise的操作(激活函數(shù)relu)。這些element-wise的操作可以在計算密集算子計算的過程中完成,而不必等到計算密集算子完全計算完后再進行。這種優(yōu)化也叫算子融合。

在Bert模型中,matmul,biasadd,gelu的組合可以使用oneDNN的matmulprimitive算子結(jié)合追加post_op來完成。

oneDNN的matmulprimitive可以進行多維tensor的乘法操作,并附加融合bias加法。

四、訪存優(yōu)化

由于CPU架構(gòu)的特點,越靠近CPU的存儲越快,體積越小。因此高效利用緩存對程序性能非常重要。

英特爾AVX-512VNNI技術(shù)解析

圖 CPUcache結(jié)構(gòu)示意圖

這就要求算子在實現(xiàn)的過程中能夠盡可能減少內(nèi)存占用,進而減少cache的換出,提高cache利用率。

在Bert的self-attention中,對于q、k、v的計算中存在轉(zhuǎn)置操作。通過下圖可以清楚的看到,每一個q、k、v在經(jīng)過一個線性層后,都會按照head進行split并轉(zhuǎn)置。在self-attention最后和v進行點積后,還需要一個轉(zhuǎn)置來擺放數(shù)據(jù)。

英特爾AVX-512VNNI技術(shù)解析

圖self-attention圖結(jié)構(gòu)

其實通過分析圖結(jié)構(gòu)的計算流程,我們可以將上面的轉(zhuǎn)置消除。如下圖,原來的數(shù)據(jù)是按紅色方框的方式存放,但是BatchMatmul需要用到的數(shù)據(jù)位于綠色方塊中。因此我們可以使用MKL的batch_sgemm接口,將參數(shù)stride指定為64*12。這樣就可以避免轉(zhuǎn)置帶來的內(nèi)存占用和訪存開銷。

英特爾AVX-512VNNI技術(shù)解析

圖消除self-attention轉(zhuǎn)置

性能優(yōu)化數(shù)據(jù)

在Intel第三代Xeon處理器IceLake8358P上,我們對Super-FusedBert進行了性能測試:

Bertbase model 參數(shù):

英特爾AVX-512VNNI技術(shù)解析

數(shù)據(jù)對比:

英特爾AVX-512VNNI技術(shù)解析

通過數(shù)據(jù)對比分析,經(jīng)過優(yōu)化后的Bert-base模型在第三代Xeon處理器IceLake8358P比優(yōu)化前節(jié)省了大約四分之三的時長,分別從40ms優(yōu)化到10.5ms、43ms優(yōu)化到9.2ms。

這種優(yōu)化對于滿足實時在線服務推理的延遲要求有著十分顯著的作用,有利于業(yè)務部門搭建基于Bert模型的業(yè)務,提高了集群中CPU利用率。

*實際性能受使用情況、配置和其他因素的差異影響。更多信息請見www.Intel.com/PerformanceIndex性能測試結(jié)果基于配置信息中顯示的日期進行測試,且可能并未反映所有公開可用的更新。

詳情請參閱配置信息披露。沒有任何產(chǎn)品或組件是絕對安全的。

英特爾技術(shù)可能需要啟用硬件、軟件或激活服務。

具體成本和結(jié)果可能不同。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10285

    瀏覽量

    179810
  • 微處理器
    +關(guān)注

    關(guān)注

    11

    文章

    2421

    瀏覽量

    85583
  • 指令集
    +關(guān)注

    關(guān)注

    0

    文章

    229

    瀏覽量

    24296
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    吉方工控亮相2025英特爾技術(shù)創(chuàng)新與產(chǎn)業(yè)生態(tài)大會

    2025年11月19日至20日,由英特爾公司主辦的年度重磅盛會——2025英特爾技術(shù)創(chuàng)新與產(chǎn)業(yè)生態(tài)大會(Intel Connection)暨英特爾行業(yè)解決方案大會(Edge Indus
    的頭像 發(fā)表于 11-24 16:57 ?545次閱讀

    創(chuàng)芯賦能智能生態(tài)!匯頂科技亮相2025英特爾技術(shù)創(chuàng)新與產(chǎn)業(yè)生態(tài)大會

    11月19–21日,2025英特爾技術(shù)創(chuàng)新與產(chǎn)業(yè)生態(tài)大會在重慶盛大啟幕。作為英特爾生態(tài)的重要合作伙伴,匯頂科技攜人機交互、指紋識別等多項PC端創(chuàng)新成果,為英特爾硬件生態(tài)注入澎湃“芯”動
    的頭像 發(fā)表于 11-21 15:00 ?5333次閱讀
    創(chuàng)芯賦能智能生態(tài)!匯頂科技亮相2025<b class='flag-5'>英特爾</b><b class='flag-5'>技術(shù)</b>創(chuàng)新與產(chǎn)業(yè)生態(tài)大會

    英特爾舉辦行業(yè)解決方案大會,共同打造機器人“芯”動脈

    具身智能和機器人應用提供強大算力支持。會上,英特爾攜手普聯(lián)技術(shù)、海石商用、海信醫(yī)療、阿丘科技等眾多的生態(tài)伙伴,共同分享了豐富的行業(yè)應用成果,攜手勾勒出端側(cè)AI領(lǐng)域的未來發(fā)展新藍圖。
    的頭像 發(fā)表于 11-19 21:51 ?6144次閱讀
    <b class='flag-5'>英特爾</b>舉辦行業(yè)解決方案大會,共同打造機器人“芯”動脈

    科通技術(shù)獲評英特爾首批尊享級合作伙伴

    近日,科通科技獲評為英特爾首批“尊享級合作聯(lián)盟成員”,即英特爾合作伙伴聯(lián)盟體系中的最高級別會員。這一身份認證不僅是對雙方十五年深度協(xié)同的認可,也是雙方在技術(shù)協(xié)同、產(chǎn)業(yè)賦能道路上的又一次深度綁定。
    的頭像 發(fā)表于 11-17 16:52 ?660次閱讀
    科通<b class='flag-5'>技術(shù)</b>獲評<b class='flag-5'>英特爾</b>首批尊享級合作伙伴

    英特爾先進封裝,新突破

    在半導體行業(yè)的激烈競爭中,先進封裝技術(shù)已成為各大廠商角逐的關(guān)鍵領(lǐng)域。英特爾作為行業(yè)的重要參與者,近日在電子元件技術(shù)大會(ECTC)上披露了多項芯片封裝技術(shù)突破,再次吸引了業(yè)界的目光。這
    的頭像 發(fā)表于 06-04 17:29 ?992次閱讀

    英特爾發(fā)布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業(yè)用戶和AI開發(fā)者的英特爾銳炫Pro GPU系列,發(fā)布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2025 年 5 月 19 日,北京 ——今日,在
    發(fā)表于 05-20 11:03 ?1716次閱讀

    英特爾持續(xù)推進核心制程和先進封裝技術(shù)創(chuàng)新,分享最新進展

    近日,在2025英特爾代工大會上,英特爾展示了多代核心制程和先進封裝技術(shù)的最新進展,這些突破不僅體現(xiàn)了英特爾技術(shù)開發(fā)領(lǐng)域的持續(xù)創(chuàng)新,也面向
    的頭像 發(fā)表于 05-09 11:42 ?777次閱讀
    <b class='flag-5'>英特爾</b>持續(xù)推進核心制程和先進封裝<b class='flag-5'>技術(shù)</b>創(chuàng)新,分享最新進展

    英特爾代工:明確重點廣合作,服務客戶鑄信任

    英特爾代工大會召開,宣布制程技術(shù)路線圖、先進封裝里程碑和生態(tài)系統(tǒng)合作。 今天,2025英特爾代工大會(Intel Foundry Direct Connect)開幕,英特爾分享了多代核
    的頭像 發(fā)表于 04-30 10:23 ?451次閱讀
    <b class='flag-5'>英特爾</b>代工:明確重點廣合作,服務客戶鑄信任

    英特爾新篇章:重視工程創(chuàng)新、文化塑造與客戶需求

    英特爾CEO陳立武強調(diào),要塑造由工程師思維驅(qū)動,聚焦客戶需求的創(chuàng)新文化。 ? 英特爾CEO陳立武今日在2025年英特爾Vision大會上,向廣大來自技術(shù)產(chǎn)業(yè)界的與會者發(fā)表演講,闡述了其
    發(fā)表于 04-01 14:02 ?359次閱讀
    <b class='flag-5'>英特爾</b>新篇章:重視工程創(chuàng)新、文化塑造與客戶需求

    為什么無法檢測到OpenVINO?工具套件中的英特爾?集成圖形處理單元?

    在 Ubuntu* Desktop 22.04 上安裝了 英特爾? Graphics Driver 版本并OpenVINO? 2023.1。 運行 python 代碼: python -c
    發(fā)表于 03-05 08:36

    請問OpenVINO?工具套件英特爾?Distribution是否與Windows? 10物聯(lián)網(wǎng)企業(yè)版兼容?

    無法在基于 Windows? 10 物聯(lián)網(wǎng)企業(yè)版的目標系統(tǒng)上使用 英特爾? Distribution OpenVINO? 2021* 版本推斷模型。
    發(fā)表于 03-05 08:32

    英特爾?獨立顯卡與OpenVINO?工具套件結(jié)合使用時,無法運行推理怎么解決?

    使用英特爾?獨立顯卡與OpenVINO?工具套件時無法運行推理
    發(fā)表于 03-05 06:56

    英特爾?NCS2運行演示時“無法在啟動后找到啟動設(shè)備”怎么解決?

    使用 英特爾? NCS2 運行 推斷管道演示腳本 。 在首次嘗試中成功運行演示應用程序。 從第二次嘗試開始遇到錯誤:E: [ncAPI] [ 150951] [security_barrie
    發(fā)表于 03-05 06:48

    英特爾任命王稚聰擔任中國區(qū)副董事長

    英特爾公司宣布,任命王稚聰先生擔任新設(shè)立的英特爾中國區(qū)副董事長一職。王稚聰將全面負責管理英特爾中國的業(yè)務運營,直接向英特爾公司高級副總裁、英特爾
    的頭像 發(fā)表于 03-03 10:54 ?972次閱讀

    英特爾代工或引入多家外部股東

    據(jù)臺灣媒體報道,英特爾代工業(yè)務可能迎來重大變革,計劃引入包括臺積電、高通、博通在內(nèi)的多家外部股東。此舉旨在提升美國本土先進半導體代工服務的競爭活力,進一步推動產(chǎn)業(yè)發(fā)展。 報道指出,高通和博通計劃
    的頭像 發(fā)表于 02-18 10:45 ?1064次閱讀