99久久无码,日韩精品欧美一区二区三区

傳統(tǒng)數(shù)據(jù)中心過(guò)去主要用于數(shù)據(jù)的存儲(chǔ)、檢索與處理。但在生成式 AI 與代理式 AI 時(shí)代，這些設(shè)施已演變?yōu)?AI Token 工廠。隨著 AI 推理成為其核心工作負(fù)載，它們的主要產(chǎn)出已轉(zhuǎn)變?yōu)橐?Token 形式制造的智能。

這一轉(zhuǎn)變也需要對(duì)包括總體擁有成本 (TCO) 在內(nèi)的 AI 基礎(chǔ)設(shè)施的經(jīng)濟(jì)效益評(píng)估的方式相應(yīng)地進(jìn)行調(diào)整。然而，在評(píng)估 AI 基礎(chǔ)設(shè)施時(shí)，企業(yè)仍過(guò)于關(guān)注芯片峰值規(guī)格、計(jì)算成本，或每美元所能獲得的浮點(diǎn)運(yùn)算性能，即每美元 FLOPS。

關(guān)鍵區(qū)別在于：

算力成本是企業(yè)為 AI 基礎(chǔ)設(shè)施所支付的費(fèi)用，無(wú)論是從云服務(wù)提供商租用，還是在本地自建部署。

每美元 FLOPS衡量的是企業(yè)每投入一美元所獲得的原始算力，但原始算力并不等同于現(xiàn)實(shí)世界中的 Token 產(chǎn)出。

每 Token 成本指的是企業(yè)生成并交付每一個(gè) Token 的綜合成本，通常以每百萬(wàn) Token 成本來(lái)表示。

前兩者僅是投入指標(biāo)。但當(dāng)業(yè)務(wù)圍繞產(chǎn)出運(yùn)轉(zhuǎn)時(shí)，只針對(duì)投入優(yōu)化，本質(zhì)上是一種根本性的錯(cuò)配。

每 Token 成本決定了企業(yè)能否實(shí)現(xiàn) AI 的規(guī)?；Ｋ俏ㄒ荒軌蛑苯泳C合反映硬件性能、軟件優(yōu)化、生態(tài)系統(tǒng)支持以及實(shí)際利用率的 TCO 指標(biāo)，而 NVIDIA 在這一指標(biāo)上實(shí)現(xiàn)了行業(yè)最低的每 Token 成本。

能夠降低每 Token 成本的因素有哪些？

要理解如何優(yōu)化每 Token 成本，首先需要了解用于計(jì)算“每百萬(wàn) Token 成本”的計(jì)算公式。

在這個(gè)公式中，許多評(píng)估 AI 基礎(chǔ)設(shè)施的企業(yè)往往只關(guān)注分子項(xiàng)，即每 GPU 每小時(shí)成本。對(duì)于云部署而言，這對(duì)應(yīng)支付給云服務(wù)提供商的小時(shí)費(fèi)用；而對(duì)于本地部署，則是通過(guò)攤銷自有基礎(chǔ)設(shè)施得到的等效小時(shí)成本。然而，降低每 Token 成本的關(guān)鍵在于分母，即最大化實(shí)際交付的 Token 產(chǎn)出。

這個(gè)分母?jìng)鬟f了兩層商業(yè)含義：

最小化每 Token 成本：當(dāng) Token 產(chǎn)出增加被代入公式時(shí)，將降低每 Token 成本，從而提升每一次交互服務(wù)的利潤(rùn)空間。

最大化收入：每秒交付更多 Token，也意味著每兆瓦產(chǎn)出更多的 Token，這將帶來(lái)更高的智能供給能力，使 AI 驅(qū)動(dòng)的產(chǎn)品與服務(wù)能夠在相同基礎(chǔ)設(shè)施投入下創(chuàng)造更高收入。

因此，如果只關(guān)注分子，就會(huì)忽視真正決定分母的因素?？梢詫⑵淅斫鉃橐粋€(gè)“推理冰山”：分子位于水面之上，直觀可見(jiàn)且易于橫向比較；而分母則隱藏在水面之下，那才是決定實(shí)際 Token 產(chǎn)出的關(guān)鍵因素。對(duì) AI 基礎(chǔ)設(shè)施的準(zhǔn)確評(píng)估，應(yīng)從探究水面之下的部分開(kāi)始。

表層問(wèn)題：

每 GPU 小時(shí)的成本是多少？

峰值 PetaFLOPS 性能和高帶寬內(nèi)存容量是多少？

每美元可獲得多少 FLOPS？

深度成本分析：

每百萬(wàn) Token 的成本是多少？尤其是針對(duì)大規(guī)?；旌蠈＜?(MoE) 推理模型 (當(dāng)前部署最廣泛的一類 AI 模型)，其每百萬(wàn) Token 成本是多少？

每兆瓦可交付多少 Token 產(chǎn)出？尤其是對(duì)本地部署而言，由于在土地、電力與基礎(chǔ)設(shè)施上的資本投入較大，最大化每兆瓦所產(chǎn)生的智能產(chǎn)出至關(guān)重要。

縱向擴(kuò)展 (scale-up) 互連是否能夠支撐 MoE 模型所需的“all-to-all”通信模式？

是否支持 FP4 精度？推理?xiàng)Ｊ欠衲軌蛟诒３?a target="_blank">高精度的同時(shí)充分利用 FP4？

推理運(yùn)行時(shí)是否支持投機(jī)解碼或多 Token 預(yù)測(cè)，以提升用戶交互體驗(yàn)？

服務(wù)層是否支持解耦服務(wù)、KV 感知路由、KV 緩存卸載以及其他優(yōu)化？

平臺(tái)是否支持代理式 AI 的獨(dú)特工作負(fù)載需求，包括超低延遲、高吞吐以及長(zhǎng)輸入序列長(zhǎng)度等？

平臺(tái)是否支持從訓(xùn)練、后訓(xùn)練到大規(guī)模推理的完整生命周期，并覆蓋所有模型架構(gòu)，從而實(shí)現(xiàn)基礎(chǔ)設(shè)施可互換性與高利用率？

這些算法、硬件與軟件化中的每一項(xiàng)優(yōu)化都必須有效并且是可以相互集成的，否則分母項(xiàng)將無(wú)法成立。一塊看似“更便宜”的 GPU，如果其每秒 Token 產(chǎn)出數(shù)量明顯更低，反而會(huì)導(dǎo)致更高的每 Token 成本。能夠做到全棧真正優(yōu)化的 AI 基礎(chǔ)設(shè)施，才能夠確保每項(xiàng)優(yōu)化都相互增強(qiáng)，從而持續(xù)提升整體效率。

為什么每 Token 成本比每美元 FLOPS 更重要？

以下 DeepSeek-R1 AI 模型的數(shù)據(jù)展示了理論指標(biāo)與實(shí)際商業(yè)結(jié)果之間的差異。

僅從算力成本來(lái)看，NVIDIA Blackwell 平臺(tái)的成本似乎約為 NVIDIA Hopper 的 2 倍，但算力成本并不能說(shuō)明這項(xiàng)投入究竟能帶來(lái)多少實(shí)際產(chǎn)出。如果僅以每美元 FLOPS 進(jìn)行分析，相較于 NVIDIA Hopper 架構(gòu)，NVIDIA Blackwell 僅有約 2 倍優(yōu)勢(shì)。然而，實(shí)際結(jié)果卻呈現(xiàn)出數(shù)量級(jí)差異：Blackwell 每瓦的 Token 產(chǎn)出量是 Hopper 的 50 倍以上，每百萬(wàn) Token 的成本降低至其 1/35 左右。

指標(biāo)	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	Blackwell 相較 Hopper
GPU 每小時(shí)成本 (美元)	$1.41	$2.65	2x
每美元 FLOPS (PFLOPS)	2.8	5.6	2x
每 GPU 每秒 Token 產(chǎn)出	90	6,000	65x
每兆瓦 Token 產(chǎn)出	54K	2.8M	50x
每百萬(wàn) Token 成本 (美元)	$4.20	$0.12	降為 1/35

注：數(shù)據(jù)來(lái)源于 NVIDIA 分析報(bào)道及SemiAnalysis InferenceX v2基準(zhǔn)測(cè)試。

這一懸殊差異表明，相較于上一代 Hopper，NVIDIA Blackwell 在商業(yè)價(jià)值上實(shí)現(xiàn)了巨大的躍遷，其提升幅度遠(yuǎn)超系統(tǒng)成本的增加。

如何選擇合適的 AI 基礎(chǔ)設(shè)施？

僅憑算力成本或每美元理論 FLOPS 來(lái)比較 AI 基礎(chǔ)設(shè)施，不僅是不充分的，也無(wú)法真實(shí)反映推理經(jīng)濟(jì)學(xué)。正如數(shù)據(jù)所展示的，要準(zhǔn)確評(píng)估 AI 基礎(chǔ)設(shè)施的營(yíng)收潛力與盈利能力，需將衡量維度從輸入指標(biāo)轉(zhuǎn)向每 Token 成本和實(shí)際 Token 產(chǎn)出量。

NVIDIA 通過(guò)在計(jì)算、網(wǎng)絡(luò)、內(nèi)存、存儲(chǔ)、軟件以及合作伙伴技術(shù)上的極致協(xié)同設(shè)計(jì)，實(shí)現(xiàn)了業(yè)內(nèi)最低的 Token 成本與最高的 Token 吞吐量。此外，諸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平臺(tái)構(gòu)建的開(kāi)源推理軟件的持續(xù)優(yōu)化，意味著在現(xiàn)有 NVIDIA 基礎(chǔ)設(shè)施部署后，Token 產(chǎn)出仍可不斷提升，每 Token 成本會(huì)持續(xù)下降。領(lǐng)先的云服務(wù)提供商與 NVIDIA 云合作伙伴，已在規(guī)?；渴鹬谐浞煮w現(xiàn)這一優(yōu)勢(shì)。包括CoreWeave、Nebius、Nscale與Together AI在內(nèi)的合作伙伴，已部署 NVIDIA Blackwell 基礎(chǔ)設(shè)施，并對(duì)其技術(shù)棧進(jìn)行了優(yōu)化，為企業(yè)提供當(dāng)前最低的 Token 成本，同時(shí)充分發(fā)揮 NVIDIA 在硬件、軟件與生態(tài)系統(tǒng)協(xié)同設(shè)計(jì)方面的全部?jī)?yōu)勢(shì)，使每一次 AI 交互的處理都建立在這一完整體系之上。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴