chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2025-09-23 14:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 模型復(fù)雜性的指數(shù)級(jí)增長(zhǎng)驅(qū)動(dòng)參數(shù)規(guī)模從數(shù)百萬(wàn)迅速擴(kuò)展到數(shù)萬(wàn)億,對(duì)計(jì)算資源提出了前所未有的需求,必須依賴大規(guī)模 GPU 集群才能滿足?;旌蠈<遥∕oE)架構(gòu)的廣泛應(yīng)用以及測(cè)試時(shí)擴(kuò)展(test-time scaling)在推理階段的引入,進(jìn)一步加劇了計(jì)算負(fù)載。為實(shí)現(xiàn)高效的推理部署,AI 系統(tǒng)已發(fā)展出大規(guī)模并行化策略,包括張量并行、流水線并行和專家并行等技術(shù)。這些需求推動(dòng)了支持內(nèi)存語(yǔ)義的縱向擴(kuò)展(Scale-up)計(jì)算網(wǎng)絡(luò)向更大的 GPU 域演進(jìn),構(gòu)建統(tǒng)一的計(jì)算與內(nèi)存資源池,實(shí)現(xiàn)高效協(xié)同。

本文詳細(xì)闡述了NVIDIA NVLink Fusion如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長(zhǎng)的需求。

ac1a8cd6-8e2d-11f0-8c8f-92fbcf53809c.png

圖 1:模型規(guī)模與復(fù)雜性的提升推動(dòng)了 scale-up 域的擴(kuò)展

NVLink 如何持續(xù)演進(jìn)以滿足不斷增長(zhǎng)的 scale-up 需求

NVIDIA 于 2016 年首次推出 NVLink,旨在克服 PCIe 在高性能計(jì)算和人工智能工作負(fù)載中的局限性。該技術(shù)實(shí)現(xiàn)了更快的 GPU 間通信,并構(gòu)建了統(tǒng)一的內(nèi)存空間。

2018年,NVIDIA 推出了 NVLink Switch 技術(shù),實(shí)現(xiàn)了在 8 個(gè) GPU 的網(wǎng)絡(luò)拓?fù)渲忻繉?duì) GPU 之間高達(dá) 300 GB/s 的 all-to-all 帶寬,為多 GPU 計(jì)算時(shí)代的 scale-up 網(wǎng)絡(luò)奠定了基礎(chǔ)。隨后,在第三代 NVLink Switch 中引入了 NVIDIA 可擴(kuò)展分層聚合與歸約協(xié)議(SHARP)技術(shù),進(jìn)一步提升了性能,有效優(yōu)化了帶寬性能并降低了集合操作的延遲。

隨著 2024 年第五代 NVLink 的發(fā)布,進(jìn)一步增強(qiáng)的 NVLink Switch 支持 72 個(gè) GPU 實(shí)現(xiàn)全互聯(lián)通信,通信速率達(dá) 1800 GB/s,聚合總帶寬高達(dá) 130 TB/s,較第一代產(chǎn)品提升了 800 倍。

盡管 NVIDIA 已大規(guī)模部署 NVLink 近十年,但仍在不斷突破技術(shù)極限,對(duì)未來(lái)三代的 NVLink 產(chǎn)品,會(huì)保持每年推出一代的節(jié)奏。這一迭代策略推動(dòng)了持續(xù)的技術(shù)進(jìn)步,有效滿足了 AI 模型在復(fù)雜性和計(jì)算需求方面的指數(shù)級(jí)增長(zhǎng)。

NVLink 的性能取決于硬件和通信庫(kù),尤其是 NVIDIA 集群通信庫(kù)(NCCL)。

NCCL 作為一個(gè)開(kāi)源庫(kù),專為加速單節(jié)點(diǎn)和多節(jié)點(diǎn)拓?fù)渲?GPU 之間的通信而設(shè)計(jì),能夠?qū)崿F(xiàn)接近理論帶寬的 GPU 到 GPU 通信性能。它無(wú)縫支持橫向和縱向擴(kuò)展,具備自動(dòng)拓?fù)涓兄c優(yōu)化能力。NCCL 已集成到所有主流深度學(xué)習(xí)框架中,歷經(jīng) 10 年的開(kāi)發(fā)與 10 年的生產(chǎn)環(huán)境部署,技術(shù)成熟且廣泛應(yīng)用。

ac93a968-8e2d-11f0-8c8f-92fbcf53809c.png

圖 2:NCCL 支持縱向擴(kuò)展和橫向擴(kuò)展,在所有主流框架中均受支持

最大化 AI 工廠收入

NVIDIA 在 NVLink 硬件和軟件庫(kù)方面積累了豐富的經(jīng)驗(yàn),配合大規(guī)模的計(jì)算域,能夠有效滿足當(dāng)前 AI 推理計(jì)算的需求。其中,72-GPU 機(jī)架架構(gòu)在多種應(yīng)用場(chǎng)景中實(shí)現(xiàn)了卓越的推理性能,發(fā)揮了關(guān)鍵作用。在評(píng)估大語(yǔ)言模型(LLM)推理性能時(shí),前沿帕累托(Frontier Pareto)曲線清晰地展現(xiàn)了每瓦吞吐量與延遲之間的權(quán)衡關(guān)系。

AI 工廠的生產(chǎn)和收入目標(biāo)是最大化曲線下的面積。影響該曲線動(dòng)態(tài)的因素眾多,包括原始算力、內(nèi)存容量與吞吐量,以及 scale-up 技術(shù),通過(guò)高速通信優(yōu)化實(shí)現(xiàn)張量并行、流水線并行和專家并行等技術(shù)。

在檢查各類 scale-up 配置的性能時(shí),我們發(fā)現(xiàn)存在顯著差異,即使是使用相同的 NVLink 速度。

在 4 個(gè) GPU 的 NVLink mesh 拓?fù)洌o(wú)交換機(jī))中,由于每對(duì) GPU 之間只能分到有限帶寬,曲線會(huì)呈現(xiàn)下降趨勢(shì)。

采用 NVLink Switch 的 8 GPU 網(wǎng)絡(luò)拓?fù)淠茱@著提升性能,因?yàn)槊繉?duì) GPU 之間均實(shí)現(xiàn)完全帶寬。

通過(guò) NVLink Switch 擴(kuò)展至 72 個(gè) GPU 的域,可最大限度地提升性能和收益。

NVLink Fusion 實(shí)現(xiàn)對(duì)NVLink scale-up 技術(shù)的定制化使用

NVIDIA 推出了 NVLink Fusion,使超大規(guī)模數(shù)據(jù)中心能夠采用經(jīng)過(guò)生產(chǎn)驗(yàn)證的 NVLink scale-up 技術(shù)。該技術(shù)可讓定制芯片(包括 CPU 和 XPU)與 NVIDIA 的 NVLink scale-up 網(wǎng)絡(luò)技術(shù)以及機(jī)架級(jí)擴(kuò)展架構(gòu)相集成,從而實(shí)現(xiàn)半定制化的 AI 基礎(chǔ)設(shè)施部署。

NVLink scale-up 技術(shù)涵蓋 NVLink SERDES、NVLink chiplets、NVLink 交換機(jī)以及機(jī)架級(jí)擴(kuò)展架構(gòu)的整體方案。高密度機(jī)架級(jí)擴(kuò)展架構(gòu)包括 NVLink spine、銅纜系統(tǒng)、創(chuàng)新的機(jī)械結(jié)構(gòu)、先進(jìn)的供電與液冷技術(shù),以及供應(yīng)鏈就緒的完整生態(tài)系統(tǒng)。

NVLink Fusion 為定制 CPU、定制 XPU 或兩者的組合配置提供了靈活的解決方案。作為模塊化開(kāi)放計(jì)算項(xiàng)目(OCP)MGX 機(jī)架架構(gòu)的一部分,NVLink Fusion 可與任何網(wǎng)卡(NIC)、數(shù)據(jù)處理器(DPU)或橫向擴(kuò)展交換機(jī)集成,使客戶能夠根據(jù)需求靈活構(gòu)建理想的系統(tǒng)。

對(duì)于自定義 XPU 配置,NVLink 通過(guò)通用芯?;ミB(Universal Chiplet Interconnect Express, UCIe)IP 與接口實(shí)現(xiàn)集成。NVIDIA 提供支持 UCIe 的 NVLink 橋接芯片,既能實(shí)現(xiàn)極高性能,又便于集成,使客戶能夠像 NVIDIA 一樣充分利用 NVLink 的功能。UCIe 作為一項(xiàng)開(kāi)放標(biāo)準(zhǔn),采用該接口進(jìn)行 NVLink 集成可讓客戶為其 XPU 靈活選擇當(dāng)前或未來(lái)平臺(tái)的多種方案。

對(duì)于自定義 CPU 配置,建議集成 NVIDIA NVLink-C2C IP,以連接 NVIDIA GPU,從而實(shí)現(xiàn)最佳性能。采用定制 CPU 與 NVIDIA GPU 的系統(tǒng)可平滑訪問(wèn) CUDA 平臺(tái)的數(shù)百個(gè) NVIDIA CUDA-X 庫(kù),充分發(fā)揮加速計(jì)算的高性能優(yōu)勢(shì)。

由廣泛的生產(chǎn)就緒合作伙伴生態(tài)系統(tǒng)提供有力支持

NVLink Fusion 擁有一個(gè)強(qiáng)大的芯片生態(tài)系統(tǒng),涵蓋定制芯片、CPU 以及 IP 技術(shù)合作伙伴,不僅確保了廣泛的技術(shù)支持和快速的設(shè)計(jì)實(shí)現(xiàn),還持續(xù)推動(dòng)著技術(shù)創(chuàng)新。

對(duì)于機(jī)架產(chǎn)品,用戶可受益于我們的系統(tǒng)合作伙伴網(wǎng)絡(luò)以及數(shù)據(jù)中心基礎(chǔ)設(shè)施組件供應(yīng)商。這些合作伙伴和供應(yīng)商已實(shí)現(xiàn) NVIDIA Blackwell NVL72 系統(tǒng)的大規(guī)模生產(chǎn)。通過(guò)整合生態(tài)系統(tǒng)與供應(yīng)鏈資源,用戶能夠加快產(chǎn)品上市速度,并顯著縮短機(jī)架級(jí)擴(kuò)展系統(tǒng),以及 scale-up 網(wǎng)絡(luò)的生產(chǎn)部署時(shí)間。

提升 AI 推理性能

NVLink 代表了滿足 AI 推理時(shí)代計(jì)算需求的重大飛躍。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技術(shù)領(lǐng)域長(zhǎng)達(dá)十年的深厚積累,結(jié)合 OCP MGX 機(jī)架架構(gòu)及生態(tài)系統(tǒng)開(kāi)放的生產(chǎn)部署標(biāo)準(zhǔn),為超大規(guī)模數(shù)據(jù)中心提供了卓越的性能與全面的定制化選項(xiàng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5430

    瀏覽量

    108201
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    36973

    瀏覽量

    289790
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3607

    瀏覽量

    51410

原文標(biāo)題:借助 NVIDIA NVLink 和 NVLink Fusion 擴(kuò)展 AI 推理性能和靈活性

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    英特爾FPGA 助力Microsoft Azure機(jī)器學(xué)習(xí)提供AI推理性能

    Machine Learning SDK 相集成以供預(yù)覽??蛻艨梢允褂?Azure 大規(guī)模部署的英特爾? FPGA(現(xiàn)場(chǎng)可編程邏輯門(mén)陣列)技術(shù),為其模型提供行業(yè)領(lǐng)先的人工智能 (AI推理性能。
    的頭像 發(fā)表于 05-16 17:25 ?6774次閱讀

    NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢(shì),首次在Arm服務(wù)器上取得佳績(jī)

    最新MLPerf基準(zhǔn)測(cè)試表明,NVIDIA已將其在AI推理性能和能效方面的高標(biāo)準(zhǔn)擴(kuò)展到Arm以及x86計(jì)算機(jī)。
    發(fā)表于 09-23 14:18 ?2854次閱讀
    <b class='flag-5'>NVIDIA</b>擴(kuò)大<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>領(lǐng)先優(yōu)勢(shì),首次在Arm服務(wù)器上取得佳績(jī)

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進(jìn)一步擴(kuò)大了在MLPerf基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì),實(shí)現(xiàn)了比CPU快237倍的AI推理性能,助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。
    發(fā)表于 10-22 14:07 ?978次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    。 **英偉達(dá)Blackwell架構(gòu)在數(shù)據(jù)中心方面的應(yīng)用有哪些?** 1. **AI **大模型訓(xùn)練 Blackwell 架構(gòu)的 GPU 針對(duì)當(dāng)前火爆的 AI 大模型進(jìn)行了優(yōu)化,能夠顯著提升訓(xùn)練和
    發(fā)表于 05-13 17:16

    NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

    的BERT、GNMT 和Jasper 等AI模型開(kāi)源優(yōu)化幫助開(kāi)發(fā)者實(shí)現(xiàn)頂尖推理性能。NVIDIA的客戶和合作伙伴中包括有會(huì)話式AI領(lǐng)域的一流公司,比如Kensho、微軟、Nuance、
    發(fā)表于 11-08 19:44

    求助,為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能?

    生成兩個(gè) IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類似模型,以不同的 fps (27fps 和 6fps) 運(yùn)行 更多樣化的權(quán)重是否會(huì)影響 Myriad X 上的推理性能
    發(fā)表于 08-15 07:00

    如何提高YOLOv4模型的推理性能?

    使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。 將 權(quán)重轉(zhuǎn)換為 ONNX 文件,然后轉(zhuǎn)換為中間表示 (IR)。 無(wú)法確定如何獲得更好的推理性能。
    發(fā)表于 08-15 06:58

    英特爾FPGA為人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供預(yù)覽。客戶可以使用 Azure 大規(guī)模部署的英特爾 FPGA(現(xiàn)場(chǎng)可編程邏輯門(mén)陣列)技術(shù),為其模型提供行業(yè)領(lǐng)先的人工智能 (AI) 推理性能。 “作為一家整體
    發(fā)表于 05-20 00:10 ?3306次閱讀

    NVIDIA A100 GPU推理性能237倍碾壓CPU

    )的12個(gè)提交者增加了近一倍。 結(jié)果顯示,今年5月NVIDIANvidia)發(fā)布的安培(Ampere)架構(gòu)A100 Tensor Core GPU,在云端推理的基準(zhǔn)測(cè)試性能是最先進(jìn)I
    的頭像 發(fā)表于 10-23 17:40 ?4901次閱讀
    <b class='flag-5'>NVIDIA</b> A100 GPU<b class='flag-5'>推理性能</b>237倍碾壓CPU

    NVIDIA發(fā)布最新Orin芯片提升邊緣AI標(biāo)桿

    在首次參加行業(yè) MLPerf 基準(zhǔn)測(cè)試時(shí),基于 NVIDIA Ampere 架構(gòu)的低功耗系統(tǒng)級(jí)芯片 NVIDIA Orin 就創(chuàng)造了新的AI推理性能紀(jì)錄,并在邊緣
    的頭像 發(fā)表于 04-08 10:14 ?5298次閱讀
    <b class='flag-5'>NVIDIA</b>發(fā)布最新Orin芯片<b class='flag-5'>提升</b>邊緣<b class='flag-5'>AI</b>標(biāo)桿

    Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過(guò)一個(gè)名為T(mén)ensorRT LLM的新開(kāi)源軟件庫(kù),將其H100、A100和L4 GPU的大型語(yǔ)言模型(LLM)推理性能提高了一倍。 正如對(duì)相同硬件一輪又一輪改進(jìn)
    的頭像 發(fā)表于 10-23 16:10 ?1201次閱讀

    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    。 中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院賽西實(shí)驗(yàn)室依據(jù)國(guó)家標(biāo)準(zhǔn)《人工智能服務(wù)器系統(tǒng)性能測(cè)試規(guī)范》(征求意見(jiàn)稿)相關(guān)要求,使用AISBench?2.0測(cè)試工具,完成了第五代英特爾至強(qiáng)可擴(kuò)展處理器的AI大模型
    的頭像 發(fā)表于 09-06 15:33 ?1129次閱讀
    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1047次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    NVIDIA推出NVLink Fusion技術(shù)

    NVIDIA 發(fā)布 NVIDIA NVLink Fusion,這款全新芯片將助力行業(yè)用戶通過(guò)全球領(lǐng)先且廣泛采用的計(jì)算互連架構(gòu) —— NVIDIA
    的頭像 發(fā)表于 05-22 09:59 ?601次閱讀

    利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國(guó)黑客松競(jìng)賽中,我們見(jiàn)證了開(kāi)發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊(duì)伍中,有 5 支隊(duì)伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲(chǔ)和安全
    的頭像 發(fā)表于 09-23 15:25 ?459次閱讀