chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

AI服務器總體架構(gòu)和關(guān)鍵技術(shù)

智能計算芯世界 ? 來源:智能計算芯世界 ? 2024-01-11 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文來自“AI服務器白皮書(2023年)”,人工智能行業(yè)是對算力、算法和數(shù)據(jù)等數(shù)字資源進行創(chuàng)造、加工、整合,最終實現(xiàn)用機器替代人,為傳統(tǒng)行業(yè)智慧賦能。算力、算法、數(shù)據(jù)是人工智能的三大要素。人工智能產(chǎn)業(yè)鏈包括三層:基礎層、技術(shù)層和應用層。

(1)基礎層:人工智能產(chǎn)業(yè)的基礎,主要提供 AI 專有算力支持和開發(fā)環(huán)境的設備和服務,包括 AI 芯片、 系統(tǒng)開發(fā)框架、AI 服務器等基礎設施等;

(2)技術(shù)層:在 AI 算力的支持下,通過系統(tǒng)開發(fā)框架進行各場景數(shù)據(jù)的訓練和 學習,開發(fā)出計算機視覺、語音語義、知識圖譜等 AI 算法,并將其搭載于硬件設備上形成行業(yè)級解決方案;

(3)應用層:針對不同的行業(yè)和場景,進行人工智能技術(shù)的商業(yè)化落地。

AI 服務器是人工智能基礎層的核心物理設備,其面向深度學習神經(jīng)網(wǎng)絡需要的快速,低精度,浮點運算高度并行數(shù)值計算,搭載大量計算內(nèi)核和高帶寬內(nèi)存資源,用于支撐深度學習訓練和線上推理計算框架模型和應用,可以在多個節(jié)點之間高速互聯(lián)、高效地擴展的硬件平臺。有別于傳統(tǒng)服務器以 CPU 提供主要算力,人工智能服務器多采用異構(gòu)架構(gòu)進行加速計算,常采用CPU+GPU、CPU+FPGA、CPU+ASIC 等多種形式。通過搭配不同的異構(gòu)加速芯片,形成不同性能和可編程靈活性的人工智能算力硬件。目前廣泛使用的 AI 服務器是 CPU+GPU。

通過 AI 服務器構(gòu)成人工智能基礎層的智能算力集群,聯(lián)合智能模型平臺和數(shù)據(jù)基礎服務平臺,支撐技術(shù)層和應用層的人工智能應用場景落地。隨著大模型訓練對云端算力的持續(xù)增長需求,AI 服務器部署規(guī)模越來越大,持續(xù)增長的計算速度和計算效率需求,推動著 AI 服務器的人工智能行業(yè)技術(shù)迭代。

(一)AI 服務器總體架構(gòu)

隨著人工智能和大模型應用的持續(xù)演進和廣泛部署,“CPU+”架構(gòu)已成為人工智能服務器的設計藍本。

在這一架構(gòu)中,CPU繼續(xù)發(fā)揮其作為系統(tǒng)的中央處理單元的關(guān)鍵角色,負責任務的調(diào)度、系統(tǒng)管理和部分計算工作。然而,為了適應大模型和特定 AI 應用的計算密集性需求,服務器必須融合其他具有豐富計算核心的硬件加速器,能夠在短時間內(nèi)處理大量的數(shù)據(jù)和計算任務。

6ded33a4-b013-11ee-8b88-92fbcf53809c.png

以人工智能計算領域中廣泛使用的 GPU 計算部件為典型代表,詳細描述了在現(xiàn)代“CPU+”架構(gòu)中,人工智能加速部件與 CPU 的協(xié)同工作流程。在這種架構(gòu)中,待處理的數(shù)據(jù)首先從 CPU 內(nèi)存?zhèn)鬏數(shù)紾PU 的顯存。這一步通常涉及大數(shù)據(jù)量的遷移,因此高帶寬和低延遲的內(nèi)存接口如 PCIe 和 NVLink 成為了優(yōu)化的關(guān)鍵。一旦數(shù)據(jù)被載入顯存,CPU 便開始向 GPU 發(fā)送程序指令。這些指令利用 GPU 的并行性能,驅(qū)動其多達數(shù)千的計算核心去執(zhí)行。利用 GPU 的強大并行計算能力,顯存中的數(shù)據(jù)會被快速處理。例如,在深度學習中,GPU可以并行處理大規(guī)模的矩陣乘法和卷積操作。計算完成后,結(jié)果存儲在顯存中,并在需要時傳輸回 CPU 內(nèi)存。從“CPU+”這種架構(gòu)的應用可以明顯看出 CPU 的角色更偏向于指令協(xié)調(diào)和結(jié)果匯總,而實際上的高并行度計算任務則交給了 GPU 這類加速部件。這種分工策略符合 Amdahl 定律的觀點:系統(tǒng)的總體性能提升受制于其最慢部分。

因此,通過優(yōu)化可并行化的計算部分,將 CPU 和專門設計的硬件加速器如 GPU 結(jié)合,從而實現(xiàn)高效并行處理,滿足日益增長的計算需求。

(二)異構(gòu)計算加速計算芯片

異構(gòu)計算指的是在一個計算系統(tǒng)中使用多種不同類型的處理器或核心來執(zhí)行計算任務。這種方式旨在利用各種處理器的特定優(yōu)勢,以獲得更高的性能或能效。

傳統(tǒng)服務器系統(tǒng)內(nèi)處理器以 CPU(即中央處理單元)為主。CPU 有很強的通用性,需要處理各種不同的數(shù)據(jù)類型,通常負責執(zhí)行計算機和操作系統(tǒng)所需的命令和流程,因此其擅長無序超標量與復雜控制指令級的執(zhí)行。

本輪人工智能熱潮的理論基礎是人工神經(jīng)網(wǎng)絡,為了更好地訓練和使用深度神經(jīng)網(wǎng)絡,就需要對計算密集型大規(guī)模矩陣進行并行處理。CPU 的架構(gòu)決定了其難以適用于大規(guī)模的人工智能計算。而異構(gòu)計算加速器集成大量計算核心,簡化邏輯控制單元設計,提升系統(tǒng)的并行計算性能。

當前異構(gòu)計算加速器發(fā)展呈現(xiàn)多樣化。人工智能芯片按照技術(shù)架構(gòu)分類,可以劃分為圖像處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)等。

GPU:AI 算力的核心

6df954cc-b013-11ee-8b88-92fbcf53809c.png

CPU 作為中央處理核心,其硬件架構(gòu)中為了滿足高性能和低 延 遲 的 需 求 , 特 地 增 強 了 高 速 緩 存 ( Cache ) 和 控 制 單 元(Control)的比例。相較之下,算術(shù)邏輯單元(ALU)在整體構(gòu)造中所占的份額較小,這限制了 CPU 在大規(guī)模并行計算方面的表現(xiàn)。

GPU 的架構(gòu)以計算單元為核心,采用了高度精簡且高效的流水線設計,專為處理高度并行和線程化的計算任務而生,具有大規(guī)模并行計算的能力。

傳統(tǒng)的 GDDR 顯存模塊通常焊接在 GPU 的 PCB 板上,這種配置可能會限制數(shù)據(jù)傳輸?shù)乃俾屎涂偞鎯θ萘俊kS著技術(shù)的發(fā)展,這些限制逐漸成為了圖形處理性能的瓶頸。為了解決這個問題,HBM (High Bandwidth Memory) 技 術(shù) 應 運 而 生 。HBM 使用了 TSV(Through-Silicon Vias) 技術(shù),允許多個 DRAM 芯片垂直堆疊起來,從而實現(xiàn)更高的數(shù)據(jù)帶寬。HBM 與 GPU 核心的連接則是通過一個特殊的互連層實現(xiàn),這不僅進一步提高了數(shù)據(jù)傳輸速率,而且大大減少了 PCB 的使用面積。

盡管 HBM 在帶寬、體積和能效上都展現(xiàn)出了明顯的優(yōu)勢,但由于其生產(chǎn)成本相對較高,GDDR 仍然是消費級 GPU 市場的主流選擇。而在對性能和能效要求更高的數(shù)據(jù)中心環(huán)境中,HBM則得到了更廣泛的應用。

(1) NVIDIA GPU

2022 年春季 GTC 大會上,英偉達發(fā)布其新款 NVIDIA GraceHopper 超級芯片產(chǎn)品,Hopper H100 Tensor Core GPU。

Tensor Cores 是專門針對矩陣乘法和累加(MMA)數(shù)學運算的高性能計算核心,為 AI 和 HPC 應用提供了開創(chuàng)性的性能。當 TensorCores 在一個 NVIDIA GPU 的多個流多處理器(SM)中并行操作時,與標準的浮點數(shù)(FP)、整數(shù)(INT)和融合乘法-累加(FMA)運算相比,它們能夠大幅提高吞吐量和效率。

6daea012-b013-11ee-8b88-92fbcf53809c.png

(2)英特爾 Gaudi2 GPU

Gaudi2 深度學習加速器,以第一代 Gaudi 高性能架構(gòu)為基礎,以多方位性能與能效比提升,加速高性能大語言模型運行。具備:24 個可編程 Tensor 處理器核心(TPCs);21 個 100Gbps(RoCEv2)以太網(wǎng)接口;96GB HBM2E 內(nèi)存容量;2.4TB/秒的總內(nèi)存帶寬;48MB片上 SRAM。

Gaudi2 處理器提供 2.4T 的網(wǎng)絡帶寬,片上集成 24 x 100 GbpsRoCE V2 RDMA 網(wǎng)卡,可通過標準以太交換或直連路由實現(xiàn) Gaudi 芯片內(nèi)部通信;Gaudi2 的內(nèi)存子系統(tǒng)包括 96 GB 的 HBM2E 內(nèi)存,提供2.45 TB/秒的帶寬,此外還有 48 MB 的本地 SRAM,帶寬足以允許 MME、TPC、DMAs 和 RDMA NICs 并行操作;支持 FP32,TF32,BF16,FP16 和FP8。

通過在 GPT-3 模型上的測試,以及相關(guān) MLPerf 基準測試結(jié)果,為 Gaudi2 提供了卓越性能和高效可擴展性的有力驗證。

(3)海光 DCU

目前海光研發(fā)的 DCU 達 64 個內(nèi)核,每個內(nèi)核包含 4 個 SIMT 運算單元和 1 個標量整型運算單元,每個 SIMT 包含多個可配置浮點乘加運算單元,SIMT 的每個指令周期內(nèi)可以并行處理 64 個獨立的運算線程。這種多內(nèi)核多線程的 SIMT 架構(gòu),可以保證 DCU 每個時鐘周期完成 4096 次高精度浮點乘加運算。

6e18d00e-b013-11ee-8b88-92fbcf53809c.png

海光 DCU 具有生態(tài)友好、精度覆蓋、安全筑底,三大特點。目前海光 DCU 與 Hygon、Intel、AMD 等 CPU 平臺服務器整體兼容,與國內(nèi)外主流 OS 全面適配。同時,與絕大部分主流框架(包括 TensorFlow、Pytorch、PaddlePaddle等)和算法模型(包括機器學習、深度學習 CV 與 NLP、大模型等)全面適配,并進行了大規(guī)模部署和上百個大型應用場景的驗證。

(4)沐曦

MXC500 是沐曦第一代通用 GPU 計算卡產(chǎn)品,基于自研 IP 進行芯片設計,MXC500 采用通用 GPU 技術(shù)路線,通過內(nèi)置大量并行計算單元實現(xiàn)人工智能等領域上層應用的并行計算加速。一方面,GPU 架構(gòu)相比 CPU 等串行計算硬件能夠?qū)崿F(xiàn)大幅度的計算加速;另一方面,GPU 架構(gòu)相比包括 NPU、DSA 等的 ASIC 計算芯片具有更好的通用性,能夠適應廣泛的應用領域和計算場景,并能夠針對 AI 算法的進步實現(xiàn)快速的跟進創(chuàng)新。

MXC500 采用純自研通用 GPU 架構(gòu),如下圖,核心計算單元由8個DPC(Data Processing Cluster,數(shù)據(jù)處理組)組成,每個 DPC 包含大量 AP(Acceleration Processor,加速處理器),從而實現(xiàn)大規(guī)模并行計算加速。在 GPU 內(nèi)部,Command Engine 負責將并行計算任務以線程(thread)為單位分發(fā)到不同的 AP 中進行處理,核心計算單元與內(nèi)部的寄存器、L1 緩存、L2 緩存構(gòu)成高速的數(shù)據(jù)通路,并通過高速數(shù)據(jù)總線與 PCIe 單元、多卡互聯(lián)(采用私有協(xié)議 MetaXLink)、存儲控制器、DMA(直接內(nèi)存讀取,Direct MemoryAccess)等外圍電路模塊進行通信。

6e284642-b013-11ee-8b88-92fbcf53809c.png

MXC500 內(nèi)置 4 顆 HBM2e 顆粒,通過 2.5D 封裝技術(shù)與核心計算芯粒封裝到同一顆芯片內(nèi)部。HBM2e 總?cè)萘繛?64GB,帶寬高達1.55TB/s。MXC500 通過沐曦自研的私有化通信協(xié)議 MetaXLink實現(xiàn)多GPU之間的直接互聯(lián),能夠支持最多單機8卡全互聯(lián)的拓撲。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5099

    瀏覽量

    134455
  • 服務器
    +關(guān)注

    關(guān)注

    13

    文章

    10094

    瀏覽量

    90880
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38091

    瀏覽量

    296576
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49734

    瀏覽量

    261507

原文標題:GPU:AI服務器關(guān)鍵技術(shù)及核心

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RISC架構(gòu)服務器簡介

    RISC架構(gòu)服務器簡介RISC架構(gòu)服務器是指采用精簡指令系統(tǒng)計算結(jié)構(gòu)(RISC)的服務器,與IA架構(gòu)
    發(fā)表于 11-13 22:01

    CDMA原理與關(guān)鍵技術(shù)

    CDMA原理與關(guān)鍵技術(shù)
    發(fā)表于 08-16 20:25

    車載移動異構(gòu)無線網(wǎng)絡架構(gòu)關(guān)鍵技術(shù)是什么?

    車載移動異構(gòu)無線網(wǎng)絡架構(gòu)關(guān)鍵技術(shù)是什么?
    發(fā)表于 06-07 06:29

    什么是HarmonyOS?鴻蒙OS架構(gòu)關(guān)鍵技術(shù)是什么?

    什么是HarmonyOS?鴻蒙OS架構(gòu)關(guān)鍵技術(shù)是什么?
    發(fā)表于 09-23 09:02

    基于視頻服務器的視頻監(jiān)控系統(tǒng)的設計

          介紹了一種基于視頻服務器的視頻監(jiān)控系統(tǒng)的設計,著重介紹了視頻服務器、系統(tǒng)的總體設計和關(guān)鍵技術(shù),并給出了實現(xiàn)方法。
    發(fā)表于 09-03 10:10 ?18次下載

    淺析AI服務器與普通服務器的區(qū)別

    隨著大數(shù)據(jù)、云計算、人工智能等技術(shù)的成熟與在各行各業(yè)的應用,在人工智能時代,AI服務器這個新興名詞也頻繁的出現(xiàn)在人們的視線范圍內(nèi),有人預測在人工智能時代,AI
    的頭像 發(fā)表于 01-23 17:27 ?4780次閱讀

    一文解析AI服務器技術(shù) AI服務器和傳統(tǒng)通用服務器的區(qū)別

    AI服務器和傳統(tǒng)通用服務器在設計方案上主要區(qū)別在于對高性能計算資源、內(nèi)存和存儲、網(wǎng)絡連接(PCB)、電源管理等。AI服務器為應對
    發(fā)表于 04-14 10:41 ?1.3w次閱讀

    AI服務器與傳統(tǒng)服務器的區(qū)別是什么?

    AI 服務器確實是整個服務器市場的一部分,但它們是專門為基于云的 AI 模型訓練或推理而設計的。在規(guī)格方面,廣義的AI
    發(fā)表于 06-21 12:40 ?2950次閱讀

    AI服務器架構(gòu)的五大硬件拆解

    AI 服務器我們瞄準英偉達 DGX A100 和 DGX H100 兩款具有標桿性產(chǎn)品力的產(chǎn)品進行分析,鑒于 H100 發(fā)布時間較短、資料詳盡度不夠,我們首先從 DGX A100 出發(fā)來觀測具有產(chǎn)品力的 AI
    發(fā)表于 08-11 09:24 ?7672次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>服務器</b><b class='flag-5'>架構(gòu)</b>的五大硬件拆解

    物理服務器ai發(fā)展的應用

    物理服務器AI發(fā)展中扮演著重要的角色。傳統(tǒng)的以CPU為計算部件的服務器架構(gòu)已難以滿足人工智能的新需求,因此,"CPU+ GPU/FPGA/ASIC"的異構(gòu)計算
    的頭像 發(fā)表于 12-22 09:19 ?853次閱讀

    ai服務器是什么架構(gòu)類型

    AI服務器,即人工智能服務器,是專門為人工智能應用設計的高性能計算服務器AI服務器
    的頭像 發(fā)表于 07-02 09:51 ?2974次閱讀

    AI服務器的特點和關(guān)鍵技術(shù)

    AI服務器,即人工智能服務器,是一種專門設計用于運行和加速人工智能(AI)算法與模型的硬件設備。隨著人工智能技術(shù)的快速發(fā)展和普及,
    的頭像 發(fā)表于 07-17 16:34 ?5082次閱讀

    什么是AI服務器?AI服務器的優(yōu)勢是什么?

    AI服務器是一種專門為人工智能應用設計的服務器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來滿足高吞吐量互聯(lián)的需求,為自然語言處
    的頭像 發(fā)表于 09-21 11:43 ?2851次閱讀

    GPU服務器AI網(wǎng)絡架構(gòu)設計

    眾所周知,在大型模型訓練中,通常采用每臺服務器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務器AI網(wǎng)絡架構(gòu)(上篇)》中,我們對GP
    的頭像 發(fā)表于 11-05 16:20 ?1962次閱讀
    GPU<b class='flag-5'>服務器</b><b class='flag-5'>AI</b>網(wǎng)絡<b class='flag-5'>架構(gòu)</b>設計

    RAKsmart服務器如何賦能AI開發(fā)與部署

    AI開發(fā)與部署的復雜性不僅體現(xiàn)在算法設計層面,更依賴于底層基礎設施的支撐能力。RAKsmart服務器憑借其高性能硬件架構(gòu)、靈活的資源調(diào)度能力以及面向AI場景的深度優(yōu)化,正在成為企業(yè)突破
    的頭像 發(fā)表于 04-30 09:22 ?594次閱讀