chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能夠降低每Token成本的因素有哪些

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 2026-04-27 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

傳統(tǒng)數(shù)據(jù)中心過(guò)去主要用于數(shù)據(jù)的存儲(chǔ)、檢索與處理。但在生成式 AI 與代理式 AI 時(shí)代,這些設(shè)施已演變?yōu)?AI Token 工廠。隨著 AI 推理成為其核心工作負(fù)載,它們的主要產(chǎn)出已轉(zhuǎn)變?yōu)橐?Token 形式制造的智能。

這一轉(zhuǎn)變也需要對(duì)包括總體擁有成本 (TCO) 在內(nèi)的 AI 基礎(chǔ)設(shè)施的經(jīng)濟(jì)效益評(píng)估的方式相應(yīng)地進(jìn)行調(diào)整。然而,在評(píng)估 AI 基礎(chǔ)設(shè)施時(shí),企業(yè)仍過(guò)于關(guān)注芯片峰值規(guī)格、計(jì)算成本,或每美元所能獲得的浮點(diǎn)運(yùn)算性能,即每美元 FLOPS。

關(guān)鍵區(qū)別在于:

算力成本是企業(yè)為 AI 基礎(chǔ)設(shè)施所支付的費(fèi)用,無(wú)論是從云服務(wù)提供商租用,還是在本地自建部署。

每美元 FLOPS衡量的是企業(yè)每投入一美元所獲得的原始算力,但原始算力并不等同于現(xiàn)實(shí)世界中的 Token 產(chǎn)出。

每 Token 成本指的是企業(yè)生成并交付每一個(gè) Token 的綜合成本,通常以每百萬(wàn) Token 成本來(lái)表示。

前兩者僅是投入指標(biāo)。但當(dāng)業(yè)務(wù)圍繞產(chǎn)出運(yùn)轉(zhuǎn)時(shí),只針對(duì)投入優(yōu)化,本質(zhì)上是一種根本性的錯(cuò)配。

每 Token 成本決定了企業(yè)能否實(shí)現(xiàn) AI 的規(guī)?;K俏ㄒ荒軌蛑苯泳C合反映硬件性能、軟件優(yōu)化、生態(tài)系統(tǒng)支持以及實(shí)際利用率的 TCO 指標(biāo),而 NVIDIA 在這一指標(biāo)上實(shí)現(xiàn)了行業(yè)最低的每 Token 成本。

能夠降低每 Token 成本的因素有哪些?

要理解如何優(yōu)化每 Token 成本,首先需要了解用于計(jì)算“每百萬(wàn) Token 成本”的計(jì)算公式。

inference-equation-token-5115300-scaled.png

在這個(gè)公式中,許多評(píng)估 AI 基礎(chǔ)設(shè)施的企業(yè)往往只關(guān)注分子項(xiàng),即每 GPU 每小時(shí)成本。對(duì)于云部署而言,這對(duì)應(yīng)支付給云服務(wù)提供商的小時(shí)費(fèi)用;而對(duì)于本地部署,則是通過(guò)攤銷自有基礎(chǔ)設(shè)施得到的等效小時(shí)成本。然而,降低每 Token 成本的關(guān)鍵在于分母,即最大化實(shí)際交付的 Token 產(chǎn)出。

這個(gè)分母?jìng)鬟f了兩層商業(yè)含義:

最小化每 Token 成本:當(dāng) Token 產(chǎn)出增加被代入公式時(shí),將降低每 Token 成本,從而提升每一次交互服務(wù)的利潤(rùn)空間。

最大化收入:每秒交付更多 Token,也意味著每兆瓦產(chǎn)出更多的 Token,這將帶來(lái)更高的智能供給能力,使 AI 驅(qū)動(dòng)的產(chǎn)品與服務(wù)能夠在相同基礎(chǔ)設(shè)施投入下創(chuàng)造更高收入。

因此,如果只關(guān)注分子,就會(huì)忽視真正決定分母的因素??梢詫⑵淅斫鉃橐粋€(gè)“推理冰山”:分子位于水面之上,直觀可見(jiàn)且易于橫向比較;而分母則隱藏在水面之下,那才是決定實(shí)際 Token 產(chǎn)出的關(guān)鍵因素。對(duì) AI 基礎(chǔ)設(shè)施的準(zhǔn)確評(píng)估,應(yīng)從探究水面之下的部分開(kāi)始。

Inference-Iceberg-5115325_004-1-scaled.jpg

表層問(wèn)題:

每 GPU 小時(shí)的成本是多少?

峰值 PetaFLOPS 性能和高帶寬內(nèi)存容量是多少?

每美元可獲得多少 FLOPS?

深度成本分析:

每百萬(wàn) Token 的成本是多少?尤其是針對(duì)大規(guī)?;旌蠈<?(MoE) 推理模型 (當(dāng)前部署最廣泛的一類 AI 模型),其每百萬(wàn) Token 成本是多少?

每兆瓦可交付多少 Token 產(chǎn)出?尤其是對(duì)本地部署而言,由于在土地、電力與基礎(chǔ)設(shè)施上的資本投入較大,最大化每兆瓦所產(chǎn)生的智能產(chǎn)出至關(guān)重要。

縱向擴(kuò)展 (scale-up) 互連是否能夠支撐 MoE 模型所需的“all-to-all”通信模式?

是否支持 FP4 精度?推理?xiàng)J欠衲軌蛟诒3?a target="_blank">高精度的同時(shí)充分利用 FP4?

推理運(yùn)行時(shí)是否支持投機(jī)解碼或多 Token 預(yù)測(cè),以提升用戶交互體驗(yàn)?

服務(wù)層是否支持解耦服務(wù)、KV 感知路由、KV 緩存卸載以及其他優(yōu)化?

平臺(tái)是否支持代理式 AI 的獨(dú)特工作負(fù)載需求,包括超低延遲、高吞吐以及長(zhǎng)輸入序列長(zhǎng)度等?

平臺(tái)是否支持從訓(xùn)練、后訓(xùn)練到大規(guī)模推理的完整生命周期,并覆蓋所有模型架構(gòu),從而實(shí)現(xiàn)基礎(chǔ)設(shè)施可互換性與高利用率?

這些算法、硬件與軟件化中的每一項(xiàng)優(yōu)化都必須有效并且是可以相互集成的,否則分母項(xiàng)將無(wú)法成立。一塊看似“更便宜”的 GPU,如果其每秒 Token 產(chǎn)出數(shù)量明顯更低,反而會(huì)導(dǎo)致更高的每 Token 成本。能夠做到全棧真正優(yōu)化的 AI 基礎(chǔ)設(shè)施,才能夠確保每項(xiàng)優(yōu)化都相互增強(qiáng),從而持續(xù)提升整體效率。

為什么每 Token 成本比每美元 FLOPS 更重要?

以下 DeepSeek-R1 AI 模型的數(shù)據(jù)展示了理論指標(biāo)與實(shí)際商業(yè)結(jié)果之間的差異。

僅從算力成本來(lái)看,NVIDIA Blackwell 平臺(tái)的成本似乎約為 NVIDIA Hopper 的 2 倍,但算力成本并不能說(shuō)明這項(xiàng)投入究竟能帶來(lái)多少實(shí)際產(chǎn)出。如果僅以每美元 FLOPS 進(jìn)行分析,相較于 NVIDIA Hopper 架構(gòu),NVIDIA Blackwell 僅有約 2 倍優(yōu)勢(shì)。然而,實(shí)際結(jié)果卻呈現(xiàn)出數(shù)量級(jí)差異:Blackwell 每瓦的 Token 產(chǎn)出量是 Hopper 的 50 倍以上,每百萬(wàn) Token 的成本降低至其 1/35 左右。

指標(biāo) NVIDIA Hopper
(HGX H200)
NVIDIA Blackwell (GB300 NVL72) Blackwell 相較 Hopper
GPU 每小時(shí)成本
(美元)
$1.41 $2.65 2x
每美元 FLOPS (PFLOPS) 2.8 5.6 2x
每 GPU 每秒 Token 產(chǎn)出 90 6,000 65x
每兆瓦 Token 產(chǎn)出 54K 2.8M 50x
每百萬(wàn) Token 成本
(美元)
$4.20 $0.12 降為 1/35

注:數(shù)據(jù)來(lái)源于 NVIDIA 分析報(bào)道及SemiAnalysis InferenceX v2基準(zhǔn)測(cè)試。

這一懸殊差異表明,相較于上一代 Hopper,NVIDIA Blackwell 在商業(yè)價(jià)值上實(shí)現(xiàn)了巨大的躍遷,其提升幅度遠(yuǎn)超系統(tǒng)成本的增加。

如何選擇合適的 AI 基礎(chǔ)設(shè)施?

僅憑算力成本或每美元理論 FLOPS 來(lái)比較 AI 基礎(chǔ)設(shè)施,不僅是不充分的,也無(wú)法真實(shí)反映推理經(jīng)濟(jì)學(xué)。正如數(shù)據(jù)所展示的,要準(zhǔn)確評(píng)估 AI 基礎(chǔ)設(shè)施的營(yíng)收潛力與盈利能力,需將衡量維度從輸入指標(biāo)轉(zhuǎn)向每 Token 成本和實(shí)際 Token 產(chǎn)出量。

NVIDIA 通過(guò)在計(jì)算、網(wǎng)絡(luò)、內(nèi)存、存儲(chǔ)、軟件以及合作伙伴技術(shù)上的極致協(xié)同設(shè)計(jì),實(shí)現(xiàn)了業(yè)內(nèi)最低的 Token 成本與最高的 Token 吞吐量。此外,諸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平臺(tái)構(gòu)建的開(kāi)源推理軟件的持續(xù)優(yōu)化,意味著在現(xiàn)有 NVIDIA 基礎(chǔ)設(shè)施部署后,Token 產(chǎn)出仍可不斷提升,每 Token 成本會(huì)持續(xù)下降。 領(lǐng)先的云服務(wù)提供商與 NVIDIA 云合作伙伴,已在規(guī)?;渴鹬谐浞煮w現(xiàn)這一優(yōu)勢(shì)。包括CoreWeave、Nebius、Nscale與Together AI在內(nèi)的合作伙伴,已部署 NVIDIA Blackwell 基礎(chǔ)設(shè)施,并對(duì)其技術(shù)棧進(jìn)行了優(yōu)化,為企業(yè)提供當(dāng)前最低的 Token 成本,同時(shí)充分發(fā)揮 NVIDIA 在硬件、軟件與生態(tài)系統(tǒng)協(xié)同設(shè)計(jì)方面的全部?jī)?yōu)勢(shì),使每一次 AI 交互的處理都建立在這一完整體系之上。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5694

    瀏覽量

    110118
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5773

    瀏覽量

    75208
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41153

    瀏覽量

    302609

原文標(biāo)題:重新思考 AI TCO:為何每 Token 成本才是唯一重要的指標(biāo)

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Token工廠加速兌現(xiàn)!迅策攜手國(guó)家級(jí)數(shù)據(jù)交易所,深化垂類Token開(kāi)發(fā)

    當(dāng)中國(guó)日均Token消耗突破140萬(wàn)億,當(dāng)OpenAI每分鐘處理150億Token,當(dāng)中國(guó)兩年增長(zhǎng)1400倍——Token,這個(gè)兩年前還陌生的技術(shù)術(shù)語(yǔ),正在成為AI時(shí)代的"新千瓦時(shí)"。 深圳2026
    的頭像 發(fā)表于 04-13 16:26 ?171次閱讀
    <b class='flag-5'>Token</b>工廠加速兌現(xiàn)!迅策攜手國(guó)家級(jí)數(shù)據(jù)交易所,深化垂類<b class='flag-5'>Token</b>開(kāi)發(fā)

    芯盾時(shí)代助企業(yè)破解智能體Token失控難題

    2026年,隨著OpenClaw等自主智能體(Agent)技術(shù)的爆發(fā),企業(yè)AI應(yīng)用正經(jīng)歷從“對(duì)話問(wèn)答”到“自主執(zhí)行”的躍遷。為了占得智能體應(yīng)用先機(jī),企業(yè)紛紛給員工下發(fā)Token額度、鼓勵(lì)全員“養(yǎng)龍蝦”。一時(shí)之間,Token成為企業(yè)在AI戰(zhàn)場(chǎng)上的“戰(zhàn)略物資”,
    的頭像 發(fā)表于 03-28 13:40 ?1052次閱讀

    Token中文新譯名:「符元」——一文七個(gè)維度講清Token的本質(zhì)定義

    拒絕“智元”走私語(yǔ)義,七維拆解 Token 物理本質(zhì),定義 AI 時(shí)代唯一真名:「符元」。
    的頭像 發(fā)表于 03-27 15:23 ?770次閱讀
    <b class='flag-5'>Token</b>中文新譯名:「符元」——一文七個(gè)維度講清<b class='flag-5'>Token</b>的本質(zhì)定義

    數(shù)字電力帝國(guó)崛起:Token成為中國(guó)能源出口新載體

    成本碾壓下的突圍:Token出海改寫全球AI服務(wù)格局
    的頭像 發(fā)表于 03-06 16:30 ?1364次閱讀
    數(shù)字電力帝國(guó)崛起:<b class='flag-5'>Token</b>成為中國(guó)能源出口新載體

    NVIDIA Blackwell平臺(tái)助力企業(yè)實(shí)現(xiàn)token成本的大幅降低

    一次醫(yī)療領(lǐng)域的診斷洞察、一次互動(dòng)游戲中角色的對(duì)話、一次來(lái)自客服代理的自主解決方案——這些由 AI 驅(qū)動(dòng)的交互,皆基于同一智能單元:一個(gè) token。
    的頭像 發(fā)表于 03-02 14:48 ?623次閱讀

    影響三防漆流速的因素有哪些?

    三防漆作為一種特殊配方的涂料,主要用于保護(hù)電路板及相關(guān)設(shè)備免受潮濕、腐蝕等環(huán)境因素的侵蝕。在實(shí)際應(yīng)用中,三防漆消泡困難是常見(jiàn)問(wèn)題之一,氣泡若未能及時(shí)消除,固化后會(huì)影響涂層致密性和防護(hù)效果?,F(xiàn)在讓我們
    的頭像 發(fā)表于 12-20 16:57 ?324次閱讀
    影響三防漆流速的<b class='flag-5'>因素有</b>哪些?

    貼片電阻的阻抗與什么因素有關(guān)?

    貼片電阻的阻抗(即交流電路中的綜合阻抗,包含電阻、電感與電容的復(fù)合效應(yīng))受多種因素影響,這些因素可分為材料特性、幾何結(jié)構(gòu)、封裝設(shè)計(jì)、環(huán)境條件及制造工藝五大類。以下是具體分析: 一、材料特性:阻抗
    的頭像 發(fā)表于 11-27 15:46 ?657次閱讀
    貼片電阻的阻抗與什么<b class='flag-5'>因素有</b>關(guān)?

    精密平臺(tái)中重復(fù)精度的影響因素有哪些

    σ等。 雅科貝思VRG系列平臺(tái) 重復(fù)定位精度受多種復(fù)雜因素影響,既有運(yùn)動(dòng)臺(tái)自身因素,比如背隙、摩擦力、線纜擾動(dòng)力、伺服抖動(dòng)、剛度等,也有環(huán)境因素,比如溫度漂移、地基振動(dòng)、環(huán)境噪聲等。我們幾乎不太可能給出每一種
    的頭像 發(fā)表于 10-15 11:24 ?968次閱讀
    精密平臺(tái)中重復(fù)精度的影響<b class='flag-5'>因素有</b>哪些

    影響電能質(zhì)量在線監(jiān)測(cè)裝置校準(zhǔn)周期的環(huán)境因素有哪些?

    影響電能質(zhì)量在線監(jiān)測(cè)裝置校準(zhǔn)周期的環(huán)境因素,核心是 加速設(shè)備元器件老化、破壞電路穩(wěn)定性、導(dǎo)致測(cè)量精度漂移 的外部條件。這些因素會(huì)使裝置偏離初始校準(zhǔn)狀態(tài)的速度加快,因此需根據(jù)環(huán)境惡劣程度縮短校準(zhǔn)周期
    的頭像 發(fā)表于 09-19 14:42 ?715次閱讀

    決定自動(dòng)駕駛攝像頭質(zhì)量的因素有哪些?

    和一條數(shù)據(jù)鏈路拼湊在一起,最后要得到的卻是算法能穩(wěn)定用、工程能長(zhǎng)期維護(hù)的“可信圖像”,那決定自動(dòng)駕駛攝像頭質(zhì)量的因素有哪些? 攝像頭質(zhì)量的評(píng)價(jià)因素 討論攝像頭能力時(shí),我們不僅要看物理量化指標(biāo),也要看這些指標(biāo)在真實(shí)世
    的頭像 發(fā)表于 09-14 10:59 ?1343次閱讀
    決定自動(dòng)駕駛攝像頭質(zhì)量的<b class='flag-5'>因素有</b>哪些?

    網(wǎng)線傳輸距離和哪些因素有關(guān)

    網(wǎng)線的傳輸距離受多種因素影響,這些因素共同決定了信號(hào)在傳輸過(guò)程中的衰減、干擾和時(shí)延,進(jìn)而限制了有效傳輸距離。以下是主要影響因素的詳細(xì)分析: 1. 網(wǎng)線類型與規(guī)格 不同類別的網(wǎng)線在導(dǎo)體材質(zhì)、絞距
    的頭像 發(fā)表于 08-25 10:22 ?3510次閱讀
    網(wǎng)線傳輸距離和哪些<b class='flag-5'>因素有</b>關(guān)

    降低失效成本,高精度CT檢測(cè)新能源汽車功率模塊

    降低失效成本,高精度CT檢測(cè)新能源汽車功率模塊
    的頭像 發(fā)表于 08-08 15:56 ?857次閱讀
    <b class='flag-5'>降低</b>失效<b class='flag-5'>成本</b>,高精度CT檢測(cè)新能源汽車功率模塊

    影響三防漆消泡的因素有哪些

    三防漆在涂覆過(guò)程中若存在氣泡,會(huì)導(dǎo)致涂層出現(xiàn)針孔、空洞等缺陷,降低防護(hù)性能。消泡效果受材料特性、工藝操作及環(huán)境條件等多方面影響,下面就讓我們來(lái)了解一下影響三防漆消泡的因素,以及如何改善這種情況吧
    的頭像 發(fā)表于 07-18 18:10 ?898次閱讀
    影響三防漆消泡的<b class='flag-5'>因素有</b>哪些

    電纜的阻燃程度跟什么因素有關(guān)系

    電纜的阻燃程度主要與材料配方、結(jié)構(gòu)設(shè)計(jì)、制造工藝、阻燃等級(jí)標(biāo)準(zhǔn)以及外部使用環(huán)境等因素密切相關(guān)。以下是具體分析: 一、材料配方 絕緣材料: 交聯(lián)聚乙烯(XLPE):基礎(chǔ)絕緣材料,需通過(guò)添加阻燃劑(如
    的頭像 發(fā)表于 07-16 09:59 ?872次閱讀

    樹(shù)莓派設(shè)備物聯(lián)網(wǎng)解決方案,將錄音設(shè)備的項(xiàng)目成本降低 90%!

    基于RaspberryPi設(shè)備的物聯(lián)網(wǎng)(IoT)解決方案將“終止開(kāi)關(guān)”(killswitch)成本降低了90%在RaspberryPi設(shè)備上采用新的AWSIoT解決方案,GreenCustard顯著
    的頭像 發(fā)表于 06-05 15:42 ?1059次閱讀
    樹(shù)莓派設(shè)備物聯(lián)網(wǎng)解決方案,將錄音設(shè)備的項(xiàng)目<b class='flag-5'>成本</b><b class='flag-5'>降低</b> 90%!