本文作者 王朝暉
是德科技網(wǎng)絡(luò)與解決方案部門資深AI 網(wǎng)絡(luò)架構(gòu)師
不管你是不是技術(shù)相關(guān)從業(yè)者,都已經(jīng)被AI熱潮席卷。你的手機(jī)app一定會(huì)被推送各種AI文章和相關(guān)熱詞,“大語言模型”,“ChatGPT/DeepSeek/千問/豆包…”,“推理模型”,“token”,“AI agent”,“Openclaw(小龍蝦)”…
如今AI已經(jīng)開始大規(guī)模落地,正在改變各行各業(yè),甚至將重塑整個(gè)世界。它并非只是一款巧妙的應(yīng)用程序,也不是某個(gè)單一的模型,而是如同電力和互聯(lián)網(wǎng)一樣,成為必不可少的基礎(chǔ)設(shè)施。AI 依托真實(shí)的能源、硬件和基礎(chǔ)架構(gòu),正在大規(guī)模地生產(chǎn)智能,給各行各業(yè)賦予AI能力。毫不夸張地說,每家公司都正在應(yīng)用 AI, 每個(gè)國(guó)家或地區(qū)都正在發(fā)展 AI。
人工智能的3個(gè)發(fā)展階段
在英偉達(dá)GTC 2026上,黃仁勛對(duì)當(dāng)前AI的發(fā)展做了3個(gè)階段的精辟總結(jié):
第一階段(2023年)
ChatGPT,開啟生成式AI大模型時(shí)代。
大量生成式大語言模型涌現(xiàn),ChatGPT,Grok,Gemini,Claud,以及國(guó)內(nèi)的DeepSeek,Kimi,千問…它雖然是基本的“對(duì)話機(jī)器人”形態(tài),但可以理解人類自然語言,甚至語音,視頻等非結(jié)構(gòu)化數(shù)據(jù),給出真人對(duì)話般的合理答案。AI科學(xué)家們相信scaling law,給與大模型更多的數(shù)據(jù)以及算力,讓它使用更多的參數(shù),就能訓(xùn)練出更大更好的模型版本。
第二階段(2024年)
ChatGPT o1以及DeepSeek R1模型,開啟了AI推理時(shí)代。
當(dāng)“訓(xùn)練”大模型的scaling law開始遇到瓶頸,AI科學(xué)家們看到大模型“推理”能力的潛力。推理能力使AI能夠自我反思、規(guī)劃、分解問題。將AI無法直接理解的問題拆解為可處理的步驟。為此,輸入上下文的token量和用于思考的輸出token量大幅增加,計(jì)算量也隨之顯著提升。
第三階段(2025年)
Claud Code以及OpenClaw,開啟AI Agent時(shí)代。
AI agent 不再是一個(gè)問答機(jī)器人,它已經(jīng)可以替人類完成各種任務(wù)。用戶不再只能詢問AI“是什么、在哪里、怎么做”,而是可以讓它“創(chuàng)建、執(zhí)行、構(gòu)建”,讓它主動(dòng)使用工具、讀取文件、分解問題、付諸行動(dòng)。AI Agent為了給用戶提供周到、主動(dòng)的服務(wù),它記錄了大量用戶歷史信息并放入上下文,再提交給大語言模型進(jìn)行處理,這會(huì)消耗大量token。
據(jù)估算,AI從感知,到生成,到推理,再到如今真正能夠完成工作,推理所需的計(jì)算量增長(zhǎng)了約10,000倍,token使用量增長(zhǎng)了約100倍。
傳統(tǒng)的數(shù)據(jù)中心,它存儲(chǔ)了大量文件和數(shù)據(jù),并利用CPU算力對(duì)數(shù)據(jù)進(jìn)行處理,然后提供各種客戶應(yīng)用服務(wù)。而目前各國(guó)大力發(fā)展的“智算中心”或者“AI工廠”,則是主要使用GPU算力,使用各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),對(duì)大模型進(jìn)行訓(xùn)練和推理,最終生產(chǎn)token,來支持各類AI應(yīng)用和智能體。
關(guān)鍵問題:如何評(píng)估 AI推理基礎(chǔ)設(shè)施的性能?
根據(jù)規(guī)模最大的AII模型聚合網(wǎng)管平臺(tái)OpenRouter統(tǒng)計(jì)報(bào)告,當(dāng)前2026年,相對(duì)與2023年,單次LLM請(qǐng)求的token長(zhǎng)度變長(zhǎng)3-4倍,而調(diào)用次數(shù)則增長(zhǎng)為10倍。(來源:https://openrouter.ai/state-of-ai)。預(yù)計(jì)未來智能算力(通常用token來衡量),將會(huì)成為像水電煤氣一樣不可缺少的基礎(chǔ)設(shè)施。
同時(shí),即使是最智能的AI應(yīng)用和Agent,如果它響應(yīng)緩慢,或者不能在高訪問壓力下穩(wěn)定提供服務(wù),也將無法被作為基礎(chǔ)設(shè)施來使用。所以下一個(gè)關(guān)鍵問題是,如何評(píng)估這些AI工廠,準(zhǔn)確說是AI推理引擎的性能、效率以及可靠性?
它能否在不斷增長(zhǎng)的各種數(shù)據(jù)類型輸入,大量用戶并發(fā),長(zhǎng)時(shí)間、多輪次任務(wù)中,依然保證性能不下降?這里有一些指標(biāo)需要關(guān)注:
針對(duì)用戶側(cè)的使用體驗(yàn):
?提示詞的處理速率(prompt rate)
?首token時(shí)間、尾token時(shí)間(time to firstlast token)
?Token的產(chǎn)生速率(token rate)
?用戶并發(fā)數(shù)量
針對(duì)推理引擎本身的統(tǒng)計(jì)指標(biāo):
?GPU使用率
?高速內(nèi)存使用率
?KV-cache的使用情況
?Prefill和decode的時(shí)間
Keysight推出Keysight AI Inference Builder (KAI 推理構(gòu)建器) 來解決以上問題,并把這些重要的指標(biāo)實(shí)時(shí)統(tǒng)計(jì)并采集,最終展示在同一個(gè)統(tǒng)計(jì)面板中,為AI云服務(wù)提供商、硬件供應(yīng)商和應(yīng)用開發(fā)人員提供了一個(gè)可擴(kuò)展的測(cè)試解決方案,用于測(cè)量、驗(yàn)證和優(yōu)化實(shí)際環(huán)境中的推理性能。
AI推理的軟件棧和技術(shù)難點(diǎn)
人工智能推理的硬件和軟件技術(shù)棧,包括加速計(jì)算層(例如,GPU、TPU、ASIC)、高速內(nèi)存和存儲(chǔ)、網(wǎng)絡(luò)連接以及與之配套的整個(gè)軟件棧 從LLM、推理引擎、服務(wù)和編排層等等。

從宏觀角度來看,人工智能在生成回答之前,會(huì)經(jīng)歷以下主要的推理階段:
?分詞(tokenization):將人類語言用戶提示分解成離散的詞匯索引,并將其轉(zhuǎn)換為 LLM 可以進(jìn)一步處理的固定寬度整數(shù)張量(tensor)。此步驟由分詞器(例如 BPE 或 WordPiece)執(zhí)行。
?預(yù)填充(prefill):模型通過一次大規(guī)模的架構(gòu)迭代來處理整個(gè)上下文,計(jì)算初始鍵值緩存,并以此為基礎(chǔ)理解用戶的請(qǐng)求意圖。由于并行處理,此階段表現(xiàn)為計(jì)算密集行為。
?解碼(decode):每個(gè)輸出token標(biāo)記以自回歸的方式逐個(gè)生成,模型會(huì)反復(fù)從內(nèi)存中獲取并更新鍵值緩存,以保持上下文。由于GPU和內(nèi)存之間需要傳輸大量數(shù)據(jù),因此該階段主要表現(xiàn)為內(nèi)存密集行為。
?逆分詞(Detokenization):將輸出token標(biāo)記轉(zhuǎn)換回字符序列,使用相同的標(biāo)記器,詞匯表將最高概率的輸出索引翻譯成人類語言。
?最終輸出:后處理過濾器或安全防護(hù)措施處理生成的字符串,比如禁止內(nèi)容(PII、毒性或幻覺觸發(fā)因素),并將響應(yīng)流式傳輸給客戶端。
正因?yàn)槿斯ぶ悄芡评砹鞒痰膹?fù)雜性,而且涉及的環(huán)節(jié)眾多,下面舉例一些典型的性能瓶頸:
GPU計(jì)算瓶頸
雖然GPU計(jì)算瓶頸在AI訓(xùn)練中非常常見,但在推理過程中也存在,因此業(yè)界針對(duì)推理階段,甚至定制開發(fā)了的TPU,LPU。特別是預(yù)填充階段,需要針對(duì)提示信息詞的并行處理,因此計(jì)算量巨大。特別是長(zhǎng)上下文提示詞、長(zhǎng)文件導(dǎo)入以及RAG的場(chǎng)景,都會(huì)導(dǎo)致GPU高負(fù)載運(yùn)行。
在這種情況下,從客戶端角度來看,最明顯的影響是首token響應(yīng)時(shí)間(Time to First Token,簡(jiǎn)稱TTFT)顯著延長(zhǎng)。而在推理服務(wù)器端統(tǒng)計(jì)數(shù)據(jù),例如tensor core張量核心和流式多處理器(SM)核心的利用率偏高,則是此類瓶頸的主要指標(biāo)。
內(nèi)存帶寬限制
AI推理面臨的最突出挑戰(zhàn)之一就是內(nèi)存帶寬,也稱為內(nèi)存墻。這一限制在解碼階段(decode)尤為突出,因?yàn)樵诮獯a階段,token詞元以自回歸的方式順序生成,這涉及到內(nèi)存和GPU之間的大量數(shù)據(jù)傳輸,例如模型權(quán)重和提示詞上下文。高帶寬內(nèi)存(HBM)的瓶頸在長(zhǎng)時(shí)間或復(fù)雜的應(yīng)答生成任務(wù),以及高并發(fā)期間尤為突出。
用戶體驗(yàn)到的結(jié)果是整體響應(yīng)速度緩慢,因?yàn)閠oken的生成速度變慢。在服務(wù)器端,會(huì)注意到每個(gè)輸出詞元的生成時(shí)間(TPOT)較高,同時(shí)GPU利用率不足,從而導(dǎo)致資源利用率低下。
內(nèi)存容量
在高并發(fā)、長(zhǎng)時(shí)間長(zhǎng)上下文會(huì)話或多輪對(duì)話期間,內(nèi)存使用會(huì)不斷增加,以致成為瓶頸。AI客戶端會(huì)注意到響應(yīng)時(shí)間過長(zhǎng)、請(qǐng)求失敗,甚至由于內(nèi)存泄漏或崩潰導(dǎo)致系統(tǒng)無響應(yīng)。在AI服務(wù)器端,緩存利用率將接近100%,隊(duì)列長(zhǎng)度將顯著增加,而GPU則再次處于低使用率狀態(tài)。
Keysight AI Inference Builder (KAI 推理構(gòu)建器)如何解決問題?

首先,Keysight AI Inference Builder (KAI 推理構(gòu)建器)會(huì)部署 test agent來模擬大量用戶,他們將按照用戶配置,發(fā)送特定種類的提示詞進(jìn)行問題輸入,并等待AI推理引擎進(jìn)行回復(fù),從而來統(tǒng)計(jì)用戶側(cè)的體驗(yàn)類指標(biāo)。
同時(shí),Keysight AI Inference Builder (KAI 推理構(gòu)建器)可以集成AI推理引擎本身的遙測(cè)統(tǒng)計(jì)數(shù)據(jù),接入這些統(tǒng)計(jì)數(shù)據(jù)并實(shí)時(shí)放入同的統(tǒng)計(jì)面板,進(jìn)行展示。用戶可以從中分析得出性能瓶頸的原因。
Keysight AI Inference Builder (KAI 推理構(gòu)建器) 通過將提示詞進(jìn)行如下預(yù)分類以及子分類,并可以配置分類提示詞的比重,來模擬各種真實(shí)使用場(chǎng)景:
Law Firms 律師事務(wù)所
?Contract review (long-context, high prefill, memory growth)
合同審查(長(zhǎng)上下文,高預(yù)填充,內(nèi)存增長(zhǎng))
?Historical case research (retrieval latency + decode)
歷史案例研究(檢索延遲+解碼)
Quantitative Finance 量化金融
?Multi-document financial modeling (High prefill+High decode)
多文檔金融建模(高預(yù)填充+高解碼)
?Real-time strategy simulation (latency-sensitive, concurrency-heavy)
實(shí)時(shí)策略模擬(對(duì)延遲敏感,高度并發(fā))
Healthcare 醫(yī)療保健
?Patient record summarization (context-heavy)
患者記錄摘要(上下文密集型)
?Clinical reasoning chains (multi-hop, memory-persistent)
臨床推理鏈(多跳,記憶持久)
Academia 學(xué)術(shù)界
?Literature synthesis (High decode)
文獻(xiàn)綜述(高解碼)
?Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)
迭代推理和引用擴(kuò)展(多跳,KV 緩存密集型)
KAI IB的研究不僅限于行業(yè)垂直建模,它還構(gòu)建了針對(duì)特定功能的提示詞組合,旨在探測(cè)推理引擎的特定組件。這些包括:
?GPU + HBM stress profiles
GPU + HBM 壓力配置文件
?Model architecture sensitivity profiles
模型架構(gòu)敏感性配置文件
?Memory and KV-cache targeted prompts
針對(duì)內(nèi)存和 KV 緩存的提示詞
?Networking and fabric stress prompts
針對(duì)網(wǎng)絡(luò)壓力的提示詞
Keysight AI Inference Builder (KAI 推理構(gòu)建器) 提供了一個(gè)統(tǒng)一的統(tǒng)計(jì)界面,將提示詞回復(fù)生成的指標(biāo)與實(shí)時(shí)AI推理引擎的遙測(cè)數(shù)據(jù)關(guān)聯(lián)起來。一方面,它跟蹤工作負(fù)載特性、提示類型、并發(fā)性、突發(fā)模式、TTFT、TPOT 和令牌生成速率。另一方面,它接入AI推理引擎自身的統(tǒng)計(jì)數(shù)據(jù),例如 GPU 利用率、內(nèi)存消耗、緩存增長(zhǎng)、隊(duì)列延遲、網(wǎng)絡(luò)壓力和token速率。

因?yàn)檫@些數(shù)據(jù)集是時(shí)間對(duì)齊的,團(tuán)隊(duì)可以直接將特定的提示類型映射到其精確的基礎(chǔ)設(shè)施影響上。Prefill峰值可以與 GPU 使用率相關(guān)聯(lián);Decode可變性可以追溯到內(nèi)存帶寬;尾部延遲可以與隊(duì)列深度或并發(fā)量相關(guān)聯(lián)。
Keysight AI Inference Builder(KAI 推理構(gòu)建器)打破了傳統(tǒng)的基準(zhǔn)測(cè)試模式,通過貼近真實(shí)的性能測(cè)試,成為基礎(chǔ)設(shè)施顧問。NVIDIA DSX AIR的AI仿真工廠方案,也推薦使用Keysight AI Inference Builder(KAI 推理構(gòu)建器)進(jìn)行建模和測(cè)試。
NVIDIA DSX AIR提供了一個(gè)AI工廠的數(shù)字孿生,團(tuán)隊(duì)可以在物理部署之前設(shè)計(jì)、建模和驗(yàn)證其 AI 基礎(chǔ)設(shè)施。Keysight AI Inference Builder (KAI 推理構(gòu)建器) 則通過引入逼真的工作負(fù)載模擬和分析功能來完善這一環(huán)境,使模擬的基礎(chǔ)設(shè)施能夠在類似生產(chǎn)的流量條件下得到驗(yàn)證。
AI已經(jīng)進(jìn)入“推理性能”時(shí)代
AI 已經(jīng)從簡(jiǎn)單的生成階段,進(jìn)化到了深度思考與執(zhí)行任務(wù)的“推理性能”時(shí)代。通過 Keysight AI Inference Builder (KAI 推理構(gòu)建器),企業(yè)不僅能夠看清復(fù)雜的軟硬件堆棧瓶頸,更能在數(shù)字孿生世界中提前驗(yàn)證真實(shí)業(yè)務(wù)負(fù)載。當(dāng)智算中心成為新時(shí)代的基礎(chǔ)設(shè)施,精準(zhǔn)的性能評(píng)估便是通往高效智能的加速器!
關(guān)于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司,我們提供先進(jìn)的設(shè)計(jì)、仿真和測(cè)試解決方案,旨在幫助工程師在整個(gè)產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時(shí)控制好風(fēng)險(xiǎn)。我們的客戶遍及全球通信、工業(yè)自動(dòng)化、航空航天與國(guó)防、汽車、半導(dǎo)體和通用電子等市場(chǎng)。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個(gè)安全互聯(lián)的世界。
-
AI
+關(guān)注
關(guān)注
91文章
41471瀏覽量
302793 -
人工智能
+關(guān)注
關(guān)注
1821文章
50392瀏覽量
267164 -
ChatGPT
+關(guān)注
關(guān)注
31文章
1604瀏覽量
10404
原文標(biāo)題:當(dāng)Token使用量暴漲,LLM推理性能如何評(píng)估?
文章出處:【微信號(hào):是德科技KEYSIGHT,微信公眾號(hào):是德科技KEYSIGHT】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
[完結(jié)15章]Java轉(zhuǎn) AI高薪領(lǐng)域必備-從0到1打通生產(chǎn)級(jí)AI Agent開發(fā)
是德科技推出全新AI推理仿真平臺(tái)
云天勵(lì)飛中標(biāo)湛江市AI滲透支撐新質(zhì)生產(chǎn)力基礎(chǔ)設(shè)施建設(shè)項(xiàng)目
國(guó)內(nèi)首個(gè)國(guó)產(chǎn)AI推理千卡集群落地,采用云天勵(lì)飛全自研AI推理芯片
為何CPU是AI基礎(chǔ)設(shè)施的核心
從英偉達(dá)電話會(huì)看Agentic AI推理與FPGA價(jià)值
是德科技如何評(píng)估AI推理基礎(chǔ)設(shè)施的性能
評(píng)論