?? ??在2023年投資者會議上,Nvidia展示了其全新的GPU發(fā)展藍圖?[1]。與以往兩年一次的更新節(jié)奏不同,這次的路線圖將演進周期縮短至一年。預計在2024年,Nvidia將推出H200和B100 GPU;到2025年,X100 GPU也將面世。其AI芯片規(guī)劃的戰(zhàn)略核心是“One Architecture”統(tǒng)一架構,支持在任何地方進行模型訓練和部署,無論是數(shù)據(jù)中心還是邊緣設備,無論是x86架構還是Arm架構。其解決方案適用于超大規(guī)模數(shù)據(jù)中心的訓練任務,也可以滿足企業(yè)級用戶的邊緣計算需求。
AI芯片從兩年一次的更新周期轉(zhuǎn)變?yōu)橐荒暌淮蔚母轮芷?,反映了?a target="_blank">產(chǎn)品開發(fā)速度的加快和對市場變化的快速響應。其AI芯片布局涵蓋了訓練和推理兩個人工智能關鍵應用,訓練推理融合,并側(cè)重推理。同時支持x86和Arm兩種不同硬件生態(tài)。在市場定位方面,同時面向超大規(guī)模云計算和企業(yè)級用戶,以滿足不同需求。Nvidia旨在通過統(tǒng)一的架構、廣泛的硬件支持、快速的產(chǎn)品更新周期以及面向不同市場提供全面的差異化的AI解決方案,從而在人工智能領域保持技術和市場的領先地位。Nvidia是一個同時擁有 GPU、CPU和DPU的計算芯片和系統(tǒng)公司。Nvidia通過NVLink、NVSwitch和NVLink C2C技術將CPU、GPU進行靈活連接組合形成統(tǒng)一的硬件架構,并于CUDA一起形成完整的軟硬件生態(tài)。

在AI計算芯片架構方面,注重訓練和推理功能的整合,側(cè)重推理。圍繞GPU打造ARM和X86兩條技術路線。在Nvidia的AI路線圖中,并沒有顯示提及Grace CPU的技術路線,而是將其納入Grace+GPU的SuperChip超級芯片路標中。
Nvidia Grace CPU會跟隨GPU的演進節(jié)奏并與其組合成新一代超級芯片;而其自身也可能根據(jù)市場競爭的需求組合成CPU超級芯片,實現(xiàn)“二打一”的差異化競爭力。從需求角度來看,CPU的技術演進速度并不像GPU那樣緊迫,并且CPU對于成本更加敏感。CPU只需按照“摩爾”或“系統(tǒng)摩爾”,以每兩年性能翻倍的速度進行演進即可。而GPU算力需要不到一年就要實現(xiàn)性能翻倍,保持每年大約2.5倍的速率增長。這種差異催生了超級芯片和超節(jié)點的出現(xiàn)。
Nvidia將延用SuperChip超級芯片架構,NVLink-C2C和NVLink互聯(lián)技術在Nvidia未來的AI芯片架構中將持續(xù)發(fā)揮關鍵作用。其利用NVLink-C2C互聯(lián)技術構建GH200、GB200和GX200超級芯片。更進一步,通過NVLink互聯(lián)技術,兩顆GH200、GB200和GX200可以背靠背連接,形成GH200NVL、GB200NVL和GX200NVL模組。Nvidia可以通過NVLink網(wǎng)絡組成超節(jié)點,通過InfiniBand或Ethernet網(wǎng)絡組成更大規(guī)模的AI集群。
在交換芯片方面,仍然堅持InfiniBand和Ethernet兩條開放路線,瞄準不同市場,前者瞄準AI Factory,后者瞄準AIGC Cloud。但其并未給出NVLink和NVSwitch自有生態(tài)的明確計劃。224G代際的速度提升,可能率先NVLink和NVSwitch上落地。以InfiniBand為基礎的Quantum系列和以Ethernet基礎的Spectrum-X系列持續(xù)升級。預計到2024年,將商用基于100G SerDes的800G接口的交換芯片;而到2025年,將迎來基于200G SerDes的1.6T接口的交換芯片。其中800G對應51.2T交換容量的Spectrum-4芯片,而1.6T則對應下一代Spectrum-5,其交換容量可能高達102.4T。從演進速度上看,224G代際略有提速,但從長時間周期上看,其仍然遵循著SerDes速率大約3到4年翻倍、交換芯片容量大約2年翻倍的規(guī)律。雖然有提到2024年Quantum將會升級到800G,但目前我們只能看到2021年發(fā)布的基于7nm工藝,400G接口的25.6T Quantum-2交換芯片。路線圖中并未包含NVSwitch 4.0和NVLink 5.0的相關計劃。有預測指出Nvidia可能會首先在NVSwitch和NVLink中應用224G SerDes技術。NVLink和NVSwitch作為Nvidia自有生態(tài),不會受到標準生態(tài)的掣肘,在推出時間和技術路線選擇上更靈活,從而實現(xiàn)差異化競爭力。
SmartNIC智能網(wǎng)卡/DPU數(shù)據(jù)處理引擎的下一跳ConnectX-8/BlueField-4目標速率為 800G,與1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路標仍不明晰,NVLink5.0和NVSwitch4.0可能提前發(fā)力。Nvidia ConnectX系列SmartNIC智能網(wǎng)卡與InfiniBand技術相結(jié)合,可以在基于NVLink網(wǎng)絡的超節(jié)點基礎上構建更大規(guī)模的AI集群。而BlueField DPU則主要面向云數(shù)據(jù)中心場景,與Ethernet技術結(jié)合,提供更強大的網(wǎng)絡基礎設施能力。相較于NVLink總線域網(wǎng)絡,InfiniBand和Ethernet屬于傳統(tǒng)網(wǎng)絡技術,兩種網(wǎng)絡帶寬比例大約為1比9。例如,H00 GPU用于連接SmartNIC和DPU的PCIE帶寬為128GB/s,考慮到PCIE到Ethernet的轉(zhuǎn)換,其最大可以支持400G InfiniBand或者Ethernet接口,而NVLink雙向帶寬為900GB/s或者3.6Tbps,因此傳統(tǒng)網(wǎng)絡和總線域網(wǎng)絡的帶寬比為1比9。雖然SmartNIC和DPU的速率增長需求沒有總線域網(wǎng)絡的增速快,但它們與大容量交換芯片需要保持同步的演進速度。它們也受到由IBTA (InfiniBand)?和IEEE802.3 (Ethernet)?定義互通標準的產(chǎn)業(yè)生態(tài)成熟度的制約。
互聯(lián)技術在未來的計算系統(tǒng)的擴展中起到至關重要的作用。Nvidia同步布局的還有LinkX系列光電互聯(lián)技術。包括傳統(tǒng)帶oDSP引擎的可插拔光互聯(lián)?(Pluggable Optics),線性直驅(qū)光互聯(lián)LPO (Linear Pluggable Optics),傳統(tǒng)DAC電纜、重驅(qū)動電纜?(Redrived Active Copper Cable)、芯片出光?(Co-Packaged Optics)?等一系列光電互聯(lián)技術。隨著超節(jié)點和集群網(wǎng)絡的規(guī)模不斷擴大,互聯(lián)技術將在未來的AI計算系統(tǒng)中發(fā)揮至關重要的作用,需要解決帶寬、時延、功耗、可靠性、成本等一系列難題。
對Nvidia而言,來自Google、Meta、AMD、Microsoft和Amazon等公司的競爭壓力正在加大。這些公司在軟件和硬件方面都在積極發(fā)展,試圖挑戰(zhàn)Nvidia在該領域的主導地位,這或許是Nvidia提出相對激進技術路線圖的原因。Nvidia為了保持其市場地位和利潤率,采取了一種大膽且風險重重的多管齊下的策略。他們的目標是超越傳統(tǒng)的競爭對手如Intel和AMD,成為科技巨頭,與Google、Microsoft、Amazon、Meta和Apple等公司并駕齊驅(qū)。Nvidia的計劃包括推出H200、B100和“X100”GPU,以及進行每年度更新的AI GPU。此外,他們還計劃推出HBM3E高速存儲器、PCIE 6.0和PCIE 7.0、以及NVLink、224G SerDes、1.6T接口等先進技術,如果計劃成功,Nvidia將超越所有潛在的競爭對手?[2]。
盡管硬件和芯片領域的創(chuàng)新不斷突破,但其發(fā)展仍然受到第一性原理的限制,存在天然物理邊界的約束。通過深入了解工藝制程、先進封裝、內(nèi)存和互聯(lián)等多個技術路線,可以推斷出未來Nvidia可能采用的技術路徑。盡管基于第一性原理的推演成功率高,但仍需考慮非技術因素的影響。例如,通過供應鏈控制,在一定時間內(nèi)壟斷核心部件或技術的產(chǎn)能,如HBM、TSMC CoWoS先進封裝工藝等,可以影響技術演進的節(jié)奏。根據(jù)Nvidia 2023年Q4財報,該公司季度收入達到76.4億美元,同比增長53%,創(chuàng)下歷史新高。全年收入更是增長61%,達到269.1億美元的紀錄。數(shù)據(jù)中心業(yè)務在第四季度貢獻了32.6億美元的收入,同比增長71%,環(huán)比增長11%。財年全年數(shù)據(jù)中心收入增長58%,達到創(chuàng)紀錄的106.1億美元?[3]。因此Nvidia擁有足夠大的現(xiàn)金流可以在短時間內(nèi)對供應鏈,甚至產(chǎn)業(yè)鏈施加影響。另外,也存在一些黑天鵝事件也可能產(chǎn)生影響,比如以色列和哈馬斯的戰(zhàn)爭就導致了Nvidia取消了原定于10月15日和16日舉行的AI SUMMIT [4]。業(yè)界原本預期,Nvidia將于峰會中展示下一代B100 GPU芯片?[5]。值得注意的是,Nvidia的網(wǎng)絡部門前身Mellanox正位于以色列。
為了避免陷入不可知論,本文的分析主要基于物理規(guī)律的第一性原理,而不考慮經(jīng)濟手段(例如控制供應鏈)和其他可能出現(xiàn)的黑天鵝事件(例如戰(zhàn)爭)等不確定性因素。當然,這些因素有可能在技術鏈條的某個環(huán)節(jié)產(chǎn)生重大影響,導致技術或者產(chǎn)品演進節(jié)奏的放緩,或者導致整個技術體系進行一定的微調(diào),但不會對整個技術演進趨勢產(chǎn)生顛覆式的影響??紤]到這些潛在的變化,本文的分析將盡量采取一種客觀且全面的方式來評估這些可能的技術路徑。我們將以“如果 A 那么 X;如果 B 那么 Y;…”的形式進行思考和分析,旨在涵蓋所有可能影響技術發(fā)展的因素,以便提供更準確、更全面的分析結(jié)果。此外,本文分析是基于兩到三年各個關鍵技術的路標假設,即2025年之前。當相應的前提條件變化,相應的結(jié)論也應該作適當?shù)恼{(diào)整,但是整體的分析思路是普適的。
Nvidia的AI布局
Nvidia在人工智能領域的布局堪稱全面,其以系統(tǒng)和網(wǎng)絡、硬件和軟件為三大支柱,構建起了深厚的技術護城河?[6]。有分析稱Nvidia的H100顯卡有高達90%的毛利率。Nvidia通過扶持像Coreweave這樣的GPU云服務商,利用供貨合同讓他們從銀行獲取資金,然后購買更多的H100顯卡,鎖定未來的顯卡需求量。這種模式已經(jīng)超出傳統(tǒng)硬件公司的商業(yè)模式,套用馬克思在資本論中所述“金銀天然不是貨幣,貨幣天然是金銀。”,有人提出了“貨幣天然不是H100,但H100天然是貨幣”的說法?[7]。這一切的背后在于對于對未來奇點臨近的預期?[8],在于旺盛的需求,同時更在于其深厚的技術護城河。
Nvidia 2019年3月發(fā)起對Mellanox的收購?[9],并且于2020年4月完成收購?[10],經(jīng)過這次收購Nvidia獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力。面向GPU互聯(lián),自研NVLink互聯(lián)和NVLink網(wǎng)絡來實現(xiàn)GPU算力Scale Up擴展,相比于基于InfiniBand網(wǎng)絡和基于Ethernet的RoCE網(wǎng)絡形成差異化競爭力。NVLink自2014年推出以來,已經(jīng)歷了四個代際的演進,從最初的2014年20G NVLink 1.0,2018年25G NVLink2.0,2020年50G NVLink 3.0?到2022年的100G NVLink 4.0,預計到2024年,NVLink將進一步發(fā)展至200G NVLink 5.0。在應用場景上,NVLink 1.0至3.0主要針對PCIE板內(nèi)和機框內(nèi)互聯(lián)的需求,通過SerDes提速在與PCIE互聯(lián)的競爭中獲取顯著的帶寬優(yōu)勢。值得注意的是,除了NVLink1.0采用了20G特殊速率點以外,NVLink2.0~4.0皆采用了與Ethernet相同或者相近的頻點,這樣做的好處是可以復用成熟的Ethernet互聯(lián)生態(tài),也為未來實現(xiàn)連接盒子或機框組成超節(jié)點埋下伏筆。NVSwitch 1.0、2.0、3.0分別與NVLink2.0、3.0、4.0配合,形成了NVLink總線域網(wǎng)絡的基礎。NVLink4.0配合NVSwitch3.0組成了超節(jié)點網(wǎng)絡的基礎,這一變化的外部特征是NVSwitch脫離計算單板而單獨成為網(wǎng)絡設備,而NVLink則從板級互聯(lián)技術升級成為設備間互聯(lián)技術。

在計算芯片領域,Nvidia于2020年9月發(fā)起ARM收購,期望構建人工智能時代頂級的計算公司?[11],這一收購提案因為面臨重大監(jiān)管挑戰(zhàn)阻礙了交易的進行,于2022年2月終止?[12]。但是,在同年3月其發(fā)布了基于ARM的Grace CPU Superchip超級芯片?[13]。成為同時擁有CPU、GPU和DPU的計算芯片和系統(tǒng)公司。
從業(yè)務視角看,Nvidia在系統(tǒng)和網(wǎng)絡、硬件、軟件三個方面占據(jù)了主導地位?[6]。系統(tǒng)和網(wǎng)絡、硬件、軟件這三個方面是人工智能價值鏈中許多大型參與者無法有效或快速復制的重要部分,這意味著Nvidia在整個生態(tài)系統(tǒng)中占據(jù)著主導地位。要擊敗Nvidia就像攻擊一個多頭蛇怪。必須同時切斷所有三個頭才有可能有機會,因為它的每個“頭”都已經(jīng)是各自領域的領導者,并且Nvidia正在努力改進和擴大其護城河。在一批人工智能硬件挑戰(zhàn)者的失敗中,可以看到,他們都提供了一種與Nvidia GPU相當或略好的硬件,但未能提供支持該硬件的軟件生態(tài)和解決可擴展問題的方案。而Nvidia成功地做到了這一切,并成功抵擋住了一次沖擊。這就是為什么Nvidia的戰(zhàn)略像是一個三頭水蛇怪,后來者必須同時擊敗他們在系統(tǒng)和網(wǎng)絡、硬件以及軟件方面的技術和生態(tài)護城河。目前,進入Nvidia平臺似乎能夠占據(jù)先機。OpenAI、微軟和Nvidia顯然處于領先地位。盡管Google和Amazon也在努力建立自己的生態(tài)系統(tǒng),但Nvidia提供了更完整的硬件、軟件和系統(tǒng)解決方案,使其成為最具吸引力的選擇。要贏得先機,就必須進入其硬件、軟件和系統(tǒng)級業(yè)務生態(tài)。然而,這也意味著進一步被鎖定,未來更難撼動其地位。從Google和Amazon等公司的角度來看,如果不選擇接入Nvidia的生態(tài)系統(tǒng),可能會失去先機;而如果選擇接入,則可能意味著失去未來。

Nvidia布局了兩種類型網(wǎng)絡,一種是傳統(tǒng)InfiniBand和Ethernet網(wǎng)絡,另一種是NVLink總線域網(wǎng)絡。在傳統(tǒng)網(wǎng)絡中,Ethernet面向AIGC Cloud多AI訓練和推理等云服務,而InfiniBand面向AI Factory,滿足大模型訓練和推理的應用需求。在交換芯片布局方面,有基于開放Ethernet增強的Spectrum-X交換芯片和基于InfiniBand的封閉高性能的Quantum交換芯片。當前Ultra Ethernet Consortium (UEC)?正在嘗試定義基于Ethernet的開放、互操作、高性能的全棧架構,以滿足不斷增長的AI和HPC網(wǎng)絡需求?[14],旨在與Nvidia的網(wǎng)絡技術相抗衡。UEC的目標是構建一個類似于InfiniBand的開放協(xié)議生態(tài),從技術層面可以理解為將Ethernet進行增強以達到InfiniBand網(wǎng)絡的性能,或者說是實現(xiàn)一種InfiniBand化的Ethernet。從某種意義上說UEC在重走InfiniBand道路。總線域網(wǎng)絡NVLink的主要特征是要在超節(jié)點范圍內(nèi)實現(xiàn)內(nèi)存語義級通信和總線域網(wǎng)絡內(nèi)部的內(nèi)存共享,它本質(zhì)上是一個Load-Store網(wǎng)絡,是傳統(tǒng)總線網(wǎng)絡規(guī)模擴大以后的自然演進。從NVLink接口的演進歷程可以看出,其1.0~3.0版本明顯是對標PCIE的,而4.0版本實際上對標InfiniBand和Ethernet的應用場景,但其主要目標還是實現(xiàn)GPU的Scale Up擴展。

從原始需求的角度來看,NVLink網(wǎng)絡在演進過程中需要引入傳統(tǒng)網(wǎng)絡的一些基本能力,例如編址尋址、路由、均衡、調(diào)度、擁塞控制、管理控制和測量等。同時,NVLink還需要保留總線網(wǎng)絡基本特征,如低時延、高可靠性、內(nèi)存統(tǒng)一編址共享以及內(nèi)存語義通信。這些特征是當前InfiniBand或Ethernet網(wǎng)絡所不具備的或者說欠缺的。與InfiniBand和Ethernet傳統(tǒng)網(wǎng)絡相比,NVLink總線域網(wǎng)絡的功能定位和設計理念存在著本質(zhì)上的區(qū)別。我們很難說NVLink網(wǎng)絡和傳統(tǒng)InfiniBand網(wǎng)絡或者增強Ethernet網(wǎng)絡最終會殊途同歸。

Nvidia在AI集群競爭態(tài)勢中展現(xiàn)出了全面布局,涵蓋了計算(芯片、超級芯片)和網(wǎng)絡(超節(jié)點、集群)領域。在計算芯片方面,Nvidia擁有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局;在超節(jié)點網(wǎng)絡層面,Nvidia提供了NVLink和InfiniBand兩種定制化網(wǎng)絡選項;在集群網(wǎng)絡方面,Nvidia有基于Ethernet的交換芯片和DPU芯片布局。AMD緊隨其后,更專注于CPU和GPU計算芯片,并采用基于先進封裝的Chiplet芯粒技術。
與Nvidia不同的是,AMD當前沒有超級芯片的概念,而是采用了先進封裝將CPU和GPU Die合封在一起。AMD使用私有的Infinity Fabric Link內(nèi)存一致接口進行GPU、CPU、GPU和CPU間的互聯(lián),而GPU和CPU之間的互聯(lián)仍然保留傳統(tǒng)的PCIE連接方式。此外,AMD計劃推出XSwitch交換芯片,下一代MI450加速器將利用新的互連結(jié)構,其目的顯然是與Nvidia的NVSwitch競爭?[15]。
BRCM則專注于網(wǎng)絡領域,在超節(jié)點網(wǎng)絡有對標InfiniBand的Jericho3-AI+Ramon的DDC方案;在集群網(wǎng)絡領域有基于Ethernet的Tomahawk系列和Trident系列交換芯片。近期BRCM推出其新的軟件可編程交換Trident 5-X12集成了NetGNT神經(jīng)網(wǎng)絡引擎實時識別網(wǎng)絡流量信息,并調(diào)用擁塞控制技術來避免網(wǎng)絡性能下降,提高網(wǎng)絡效率和性能?[16]。Cerebras/Telsa Dojo則“劍走偏鋒”,走依賴“晶圓級先進封裝”的深度定制硬件路線。
作者:陸玉春
審核編輯:黃飛
電子發(fā)燒友App




















評論