国产欧美在线日本在,欧美日韩国产在线人成网站,国产精品mature

前言概述

得益于近十年來(lái)在自有“飛槳”人工智能（Artificial Intelligence, AI）框架上的前瞻布局和大力投入，以及在語(yǔ)言與知識(shí)技術(shù)上積累的豐厚經(jīng)驗(yàn)與成果，百度已在自然語(yǔ)言處理（Natural Language Processing，以下簡(jiǎn)稱NLP）領(lǐng)域構(gòu)建起完整的產(chǎn)品體系與技術(shù)組合。ERNIE 3.0 作為其飛槳文心 · NLP 大模型的重要組成部分，也在各種 NLP 應(yīng)用場(chǎng)景，尤其是中文自然語(yǔ)言理解和生成任務(wù)中展現(xiàn)出卓越的性能。

隨著 NLP 逐漸進(jìn)入技術(shù)和產(chǎn)業(yè)結(jié)合的快車道，并在更多行業(yè)中實(shí)現(xiàn)商業(yè)化落地，用戶對(duì) ERNIE 3.0 也提出了更多細(xì)分需求，例如更高的處理效率和更廣泛的部署場(chǎng)景等。為此，百度不僅借助其創(chuàng)新技術(shù)優(yōu)勢(shì)，推出了輕量版 ERNIE-Tiny，也與合作伙伴英特爾攜手，提前引入即將發(fā)布的全新第四代英特爾至強(qiáng) 可擴(kuò)展處理器，作為 ERNIE-Tiny 未來(lái)的硬件承載基座。

為了讓 ERNIE-Tiny 在第四代英特爾至強(qiáng) 可擴(kuò)展處理器及其內(nèi)置的全新英特爾高級(jí)矩陣擴(kuò)展（Intel Advanced Matrix Extension，英特爾 AMX）技術(shù)的加速支持下實(shí)現(xiàn)更優(yōu)推理性能，雙方也攜手開(kāi)展了多項(xiàng)優(yōu)化工作。而來(lái)自對(duì)比測(cè)試的數(shù)據(jù)表明，相比通過(guò)英特爾 AVX-512_VNNI 技術(shù)來(lái)實(shí)現(xiàn)AI加速的、面向單路和雙路的第三代英特爾至強(qiáng) 可擴(kuò)展處理器，ERNIE-Tiny 在升級(jí)使用內(nèi)置英特爾 AMX 技術(shù)的第四代英特爾至強(qiáng) 可擴(kuò)展處理器后，其整體性能提升高達(dá) 2.66 倍1，取得了令人滿意的效果。

引言

“作為百度面向 NLP 領(lǐng)域的重要技術(shù)方案，基于輕量化技術(shù)的 ERNIE 3.0 輕量版可在搜索排序、推薦、信息抽取、地圖檢索、自然語(yǔ)言推斷等應(yīng)用場(chǎng)景中為用戶提供響應(yīng)迅速、質(zhì)量可靠的能力輸出。全新第四代英特爾至強(qiáng) 可擴(kuò)展處理器及英特爾 AMX 技術(shù)的引入，使得輕量版 ERNIE 3.0 在通用 CPU 平臺(tái)上也能獲得令人滿意的推理效能，從而能幫助更多用戶在其既有 IT 設(shè)施中更為方便地部署 ERNIE 3.0，從而進(jìn)一步普及其應(yīng)用范圍?！?/p>

方案背景：ERNIE 3.0 走向輕量化

為更多行業(yè)用戶提供 NLP 應(yīng)用助力

作為 AI 領(lǐng)域的重要分支，NLP 正獲得前所未有的市場(chǎng)關(guān)注與技術(shù)追蹤。有預(yù)測(cè)數(shù)據(jù)表明，到 2024 年全球 NLP 市場(chǎng)規(guī)模將達(dá) 264 億美元3，并將大幅緩解金融、醫(yī)療、法律等行業(yè)中人力密集型工作環(huán)節(jié)帶來(lái)的效率和成本壓力。例如在醫(yī)療健康領(lǐng)域，利用 NLP 應(yīng)用對(duì)醫(yī)療記錄開(kāi)展篩查有助于發(fā)現(xiàn)藥物的長(zhǎng)期不良反應(yīng)；在法律領(lǐng)域， NLP 應(yīng)用也在幫助人們從浩如煙海的記錄中梳理出案件的來(lái)龍去脈。

作為擁有強(qiáng)大互聯(lián)網(wǎng)基礎(chǔ)的領(lǐng)先 AI 公司，百度憑借其旗下飛槳文心 · NLP 大模型所具備的創(chuàng)新技術(shù)優(yōu)勢(shì)，在語(yǔ)言理解、語(yǔ)言生成等NLP場(chǎng)景中已獲取了明顯的市場(chǎng)優(yōu)勢(shì)，并在中國(guó) AI 公有云 NLP 領(lǐng)域連續(xù)多年取得市場(chǎng)份額第一4。如圖一所示，在大模型中，基于知識(shí)增強(qiáng)的多范式統(tǒng)一預(yù)訓(xùn)練框架 ERNIE 3.0 融合了自回歸網(wǎng)絡(luò)與自編碼網(wǎng)絡(luò)，并加入了大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合、持續(xù)學(xué)習(xí)等特性，在理解任務(wù)、生成任務(wù)、零樣本學(xué)習(xí)任務(wù)和常識(shí)推理任務(wù)上均有著優(yōu)秀的表現(xiàn)，在 14 種類型/45 個(gè) NLP 數(shù)據(jù)集取得了 SOTA（State Of The Art Model，當(dāng)前最佳模型）的結(jié)果。在中文領(lǐng)域，ERNIE 3.0 的表現(xiàn)則更為突出，不僅刷新了 54 個(gè)中文 NLP 任務(wù)基準(zhǔn)，并登頂 SuperGLUE 全球榜首，同時(shí)也因具備非常出色的語(yǔ)言理解能力，還可以完成寫小說(shuō)、歌詞、詩(shī)歌等的文學(xué)創(chuàng)作任務(wù)5。

圖一 ERNIE 3.0框架基本架構(gòu)

在 ERNIE 3.0 的實(shí)際落地應(yīng)用過(guò)程中，許多細(xì)分領(lǐng)域也根據(jù)自身業(yè)務(wù)特點(diǎn)，對(duì)它提出了特定化需求。眾所周知，模型中更多的層數(shù)、參數(shù)意味著更大的模型體積、更強(qiáng)的計(jì)算資源需求以及更長(zhǎng)的推理耗時(shí)，對(duì)于業(yè)務(wù)響應(yīng)速度和構(gòu)建成本敏感的用戶而言，無(wú)疑提高了引入和使用門檻。

借助模型輕量化技術(shù)對(duì) ERNIE 3.0 大模型進(jìn)行蒸餾壓縮，是助力 ERNIE 3.0 推廣到更多行業(yè)與場(chǎng)景的有效方法。為此，百度基于其“在線蒸餾”等創(chuàng)新技術(shù)方案，推出多個(gè) ERNIE 3.0 輕量化版本 ERNIE-Tiny，在保持模型平均精度的前提下實(shí)現(xiàn)了更短的運(yùn)算時(shí)間以及更少的算力需求。同時(shí)，ERNIE-Tiny 在推理時(shí)，也無(wú)需再為之配備昂貴的專用 AI 算力設(shè)備，在通用平臺(tái)，如 CPU 平臺(tái)上即可高效率完成推理作業(yè)。這無(wú)疑能讓用戶在既有公有云或數(shù)據(jù)中心的 IT 配置上即可使用該模型，而無(wú)需增添額外硬件或服務(wù)。

圖二 ERNIE-Tiny 模型精度-推理時(shí)延對(duì)比度6

與此同時(shí)，引入更強(qiáng)的通用計(jì)算平臺(tái)和優(yōu)化方案，也是助力 ERNIE-Tiny 獲得更優(yōu)效率的另一項(xiàng)重要手段。百度為此與英特爾開(kāi)展深度技術(shù)合作：一方面將全新第四代英特爾至強(qiáng) 可擴(kuò)展處理器引入 ERNIE-Tiny 的推理計(jì)算過(guò)程；另一方面，也推進(jìn)了多項(xiàng)優(yōu)化措施，例如通過(guò)英特爾 oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫(kù)（Intel oneAPI Deep Neural Network Library，英特爾 oneDNN）來(lái)調(diào)用英特爾 AMX指令等，以確保 ERNIE-Tiny 可以更為充分地利用這款處理器內(nèi)置的全新AI加速技術(shù)帶來(lái)的性能加速“紅利”。

解決方案：三項(xiàng)優(yōu)化方案

助 ERNIE-Tiny 盡釋新平臺(tái) AI 加速潛能

新一代英特爾至強(qiáng) 可擴(kuò)展處理器為 ERNIE 3.0 帶來(lái)更強(qiáng) AI 加速引擎

百度與英特爾攜手開(kāi)展的優(yōu)化方案，首先圍繞 ERNIE-Tiny 系列中 Medium 版展開(kāi)，這一輕量版本與基礎(chǔ)版 ERNIE 3.0 相比，其網(wǎng)絡(luò)層數(shù)從 12 層減少到了 6 層，以此可有效降低所需的算力資源并縮短推理時(shí)長(zhǎng)。

優(yōu)化方案中，英特爾為 ERNIE-Tiny Medium 版本（以下簡(jiǎn)稱 ERNIE-Tiny）提供了第四代英特爾至強(qiáng) 可擴(kuò)展處理器作為推理工作的算力輸出引擎。這一采用 Intel 7 制程工藝的新一代至強(qiáng) 可擴(kuò)展處理器，可憑借全新的性能核微架構(gòu)設(shè)計(jì)來(lái)提升處理速度，并在低時(shí)延和單線程性能上實(shí)現(xiàn)突破。

在整個(gè)芯片的架構(gòu)層面，第四代英特爾至強(qiáng) 可擴(kuò)展處理器通過(guò)使用嵌入式多芯片互連橋接（Embedded Multi-die Interconnect Bridge，EMIB）技術(shù)，可在保持既有單核優(yōu)勢(shì)的同時(shí)，大幅提升可擴(kuò)展性。同時(shí)，新處理器也提供了對(duì)先進(jìn)內(nèi)存和下一代 I/O 技術(shù)，包括 DDR5、PCIe 5.0、CXL 1.1 以及高帶寬內(nèi)存（High Bandwidth Memory，HBM）技術(shù)的支持，這些技術(shù)特性能為 ERNIE 3.0 這樣的 AI 模型所需的高強(qiáng)度工作負(fù)載提供更可靠的全局性能加速。

更重要的是，第四代英特爾至強(qiáng) 可擴(kuò)展處理器還增添了多種新的內(nèi)置加速引擎來(lái)助力用戶在不同應(yīng)用場(chǎng)景中提升性能，如英特爾加速器接口架構(gòu)指令集（英特爾 AIA）、英特爾數(shù)據(jù)流加速器（英特爾 DSA）和英特爾高級(jí)矩陣擴(kuò)展（英特爾 AMX）。其中，AMX 對(duì)于AI工作負(fù)載的加速尤為顯著。

基于全新處理器和內(nèi)置 AI 加速能力，雙方攜手為 ERNIE-Tiny 加入三項(xiàng)優(yōu)化方案

1) 全新 AI 加速引擎優(yōu)化提升處理效率

與英特爾在此前的至強(qiáng) 可擴(kuò)展處理器中提供的兩種 AI 加速能力，即英特爾 AVX-512_VNNI_INT8 與英特爾 AVX-512_VNNI_BF16 不同，英特爾 AMX 采用了全新的指令集與電路設(shè)計(jì)。在實(shí)際的工作負(fù)載中，英特爾 AMX 能同時(shí)支持 BF16 和 INT8 數(shù)據(jù)類型，其每個(gè)物理核在每個(gè)時(shí)鐘周期可實(shí)現(xiàn) 2,048 次 INT8 運(yùn)算和 1,024 次 BF16 運(yùn)算7，與上一代 AI 加速引擎相比，大幅提升了 AI 工作負(fù)載的效率，這顯然有助于提升 ERNIE-Tiny 在推理環(huán)節(jié)的性能表現(xiàn)。

2) 利用英特爾 oneDNN 實(shí)現(xiàn)對(duì)英特爾 AMX 指令的調(diào)用

為了讓英特爾 AMX 的加速能力能直接作用于 ERNIE-Tiny，百度與英特爾一同借助英特爾 oneDNN 來(lái)實(shí)現(xiàn)英特爾 AMX 指令的調(diào)用。作為開(kāi)源的、跨平臺(tái)的性能庫(kù)，英特爾 oneDNN 可有效助力用戶提升其 AI 應(yīng)用與框架在英特爾架構(gòu)平臺(tái)上的性能，而且它也已加入了對(duì)英特爾 AMX 的支持。

在本次合作中，雙方除攜手完成了英特爾 oneDNN 與飛槳開(kāi)源深度學(xué)習(xí)平臺(tái)（PaddlePaddle，https://www.paddlepaddle.org.cn/）的集成外，也根據(jù) ERNIE-Tiny 的實(shí)際運(yùn)行需求開(kāi)展了一系列增量工作，包括將 Linux 操作系統(tǒng)的內(nèi)核更新為支持英特爾 AMX 的版本等。

3) 內(nèi)存性能優(yōu)化

借助第四代英特爾至強(qiáng) 可擴(kuò)展處理器與英特爾 AMX 獲得計(jì)算性能的大幅提升之后，內(nèi)存性能的優(yōu)化自然也不可或缺，為此百度與英特爾也制定了針對(duì)性的優(yōu)化方案。雙方通過(guò)分析發(fā)現(xiàn)，ERNIE-Tiny 在推理過(guò)程中有許多串行操作，即每次運(yùn)算都會(huì)先讀數(shù)據(jù)再寫數(shù)據(jù)，然后下一次運(yùn)算也是如此，這會(huì)消耗大量操作時(shí)間。優(yōu)化方案則是將矩陣乘法與元素的運(yùn)算及激活融合在一起，即把連續(xù)的操作合并為一個(gè)大操作，可使內(nèi)存的運(yùn)行效率顯著提升。

同時(shí)，方案中針對(duì)多線程的優(yōu)化也被證明可助力 ERNIE 3.0 提升推理計(jì)算性能，與上一版本相比，方案進(jìn)一步優(yōu)化了多線程的效率，并提升了多核的擴(kuò)展性。

優(yōu)化方案驗(yàn)證：

第四代英特爾至強(qiáng) 可擴(kuò)展處理器

可大幅提升 ERNIE-Tiny 性能表現(xiàn)

為了驗(yàn)證第四代英特爾至強(qiáng) 可擴(kuò)展處理器與上述多項(xiàng)優(yōu)化方案對(duì) ERNIE-Tiny 性能提升的實(shí)際作用，英特爾協(xié)助百度推進(jìn)了性能對(duì)比測(cè)試。測(cè)試在第四代英特爾至強(qiáng) 可擴(kuò)展平臺(tái)與第三代英特爾至強(qiáng) 可擴(kuò)展平臺(tái)之間展開(kāi)。后者使用英特爾 AVX-512_VNNI 對(duì)模型進(jìn)行了 INT8 量化提速，而前者則啟用英特爾 AMX 技術(shù)進(jìn)行加速。

測(cè)試結(jié)果如圖四所示，ERNIE-Tiny 的性能（測(cè)試采用吞吐量 (Throughput) 作為測(cè)評(píng)指標(biāo)）獲得了顯著的提升，對(duì)比上一代英特爾至強(qiáng) 可擴(kuò)展平臺(tái)，其吞吐量提升到了它的 2.66 倍9。

圖四 ERNIE-Tiny 在不同處理器平臺(tái)上的性能對(duì)比10

如圖五所示，目前，各個(gè) ERNIE-Tiny 不僅已部署在零門檻 AI 開(kāi)發(fā)平臺(tái) EasyDL、全功能 AI 開(kāi)發(fā)平臺(tái) BML 和 ERNIEKit（旗艦版）產(chǎn)品中，它們也將與平臺(tái)和產(chǎn)品的其它能力一起協(xié)同，在基于第四代英特爾至強(qiáng) 可擴(kuò)展處理器的基礎(chǔ)設(shè)施上，為使用者提供文本分類、關(guān)系抽取、文本生成以及問(wèn)答等能力。同時(shí)，它們也將作為百度飛槳 PaddleNLP 自然語(yǔ)言處理開(kāi)發(fā)庫(kù)的核心模型，搭配訓(xùn)練-壓縮-推理端到端全流程應(yīng)用與豐富的產(chǎn)業(yè)實(shí)踐范例，全力加速 NLP 技術(shù)產(chǎn)業(yè)落地。

（如欲了解更多詳情，請(qǐng)?jiān)L問(wèn)：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0）

圖五 ERNIE-Tiny 對(duì)外能力輸出

未來(lái)展望

百度與英特爾本次協(xié)作優(yōu)化的成功，再一次證明各個(gè)行業(yè)用戶在通用的 CPU 平臺(tái)上也能同樣方便地部署高效能的 ERNIE-Tiny，用以應(yīng)對(duì)越來(lái)越多的 NLP 應(yīng)用需求。使用這一方案，用戶不必額外采購(gòu)昂貴的專用 AI 算力設(shè)備，這將大幅降低企業(yè)借助 NLP 能力提升業(yè)務(wù)效率的門檻，并加速更多 NLP 技術(shù)與應(yīng)用的商業(yè)落地過(guò)程。

面向未來(lái)，英特爾還將與百度一起在 NLP 領(lǐng)域開(kāi)展更多也更為深入的技術(shù)合作，讓新一代至強(qiáng) 可擴(kuò)展處理器及其內(nèi)置的更強(qiáng) AI 加速技術(shù)為更多 AI 應(yīng)用的落地與實(shí)踐提供更多助力。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20248

瀏覽量
252100
英特爾

英特爾

+關(guān)注

關(guān)注
61

文章
10301

瀏覽量
180390
百度

百度

+關(guān)注

關(guān)注
9

文章
2377

瀏覽量
94845

原文標(biāo)題：百度 ERNIE-Tiny 借力 AMX：性能升至 2.66 倍

文章出處：【微信號(hào)：英特爾中國(guó)，微信公眾號(hào)：英特爾中國(guó)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

百度ERNIE-Tiny借力AMX：性能升至2.66倍

評(píng)論