看国产美女一级毛片,日本最新免费二区婷婷95视频

本文作者王朝暉

是德科技網(wǎng)絡(luò)與解決方案部門資深AI 網(wǎng)絡(luò)架構(gòu)師

不管你是不是技術(shù)相關(guān)從業(yè)者，都已經(jīng)被AI熱潮席卷。你的手機(jī)app一定會(huì)被推送各種AI文章和相關(guān)熱詞，“大語言模型”，“ChatGPT/DeepSeek/千問/豆包…”，“推理模型”，“token”，“AI agent”，“Openclaw（小龍蝦）”…

如今AI已經(jīng)開始大規(guī)模落地，正在改變各行各業(yè)，甚至將重塑整個(gè)世界。它并非只是一款巧妙的應(yīng)用程序，也不是某個(gè)單一的模型，而是如同電力和互聯(lián)網(wǎng)一樣，成為必不可少的基礎(chǔ)設(shè)施。AI 依托真實(shí)的能源、硬件和基礎(chǔ)架構(gòu)，正在大規(guī)模地生產(chǎn)智能，給各行各業(yè)賦予AI能力。毫不夸張地說，每家公司都正在應(yīng)用 AI，每個(gè)國(guó)家或地區(qū)都正在發(fā)展 AI。

人工智能的3個(gè)發(fā)展階段

在英偉達(dá)GTC 2026上，黃仁勛對(duì)當(dāng)前AI的發(fā)展做了3個(gè)階段的精辟總結(jié)：

第一階段（2023年）

ChatGPT，開啟生成式AI大模型時(shí)代。

大量生成式大語言模型涌現(xiàn)，ChatGPT，Grok，Gemini，Claud，以及國(guó)內(nèi)的DeepSeek，Kimi，千問…它雖然是基本的“對(duì)話機(jī)器人”形態(tài)，但可以理解人類自然語言，甚至語音，視頻等非結(jié)構(gòu)化數(shù)據(jù)，給出真人對(duì)話般的合理答案。AI科學(xué)家們相信scaling law，給與大模型更多的數(shù)據(jù)以及算力，讓它使用更多的參數(shù)，就能訓(xùn)練出更大更好的模型版本。

第二階段（2024年）

ChatGPT o1以及DeepSeek R1模型，開啟了AI推理時(shí)代。

當(dāng)“訓(xùn)練”大模型的scaling law開始遇到瓶頸，AI科學(xué)家們看到大模型“推理”能力的潛力。推理能力使AI能夠自我反思、規(guī)劃、分解問題。將AI無法直接理解的問題拆解為可處理的步驟。為此，輸入上下文的token量和用于思考的輸出token量大幅增加，計(jì)算量也隨之顯著提升。

第三階段（2025年）

Claud Code以及OpenClaw，開啟AI Agent時(shí)代。

AI agent 不再是一個(gè)問答機(jī)器人，它已經(jīng)可以替人類完成各種任務(wù)。用戶不再只能詢問AI“是什么、在哪里、怎么做”，而是可以讓它“創(chuàng)建、執(zhí)行、構(gòu)建”，讓它主動(dòng)使用工具、讀取文件、分解問題、付諸行動(dòng)。AI Agent為了給用戶提供周到、主動(dòng)的服務(wù)，它記錄了大量用戶歷史信息并放入上下文，再提交給大語言模型進(jìn)行處理，這會(huì)消耗大量token。

據(jù)估算，AI從感知，到生成，到推理，再到如今真正能夠完成工作，推理所需的計(jì)算量增長(zhǎng)了約10,000倍，token使用量增長(zhǎng)了約100倍。

傳統(tǒng)的數(shù)據(jù)中心，它存儲(chǔ)了大量文件和數(shù)據(jù)，并利用CPU算力對(duì)數(shù)據(jù)進(jìn)行處理，然后提供各種客戶應(yīng)用服務(wù)。而目前各國(guó)大力發(fā)展的“智算中心”或者“AI工廠”，則是主要使用GPU算力，使用各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，對(duì)大模型進(jìn)行訓(xùn)練和推理，最終生產(chǎn)token，來支持各類AI應(yīng)用和智能體。

關(guān)鍵問題：如何評(píng)估 AI推理基礎(chǔ)設(shè)施的性能？

根據(jù)規(guī)模最大的AII模型聚合網(wǎng)管平臺(tái)OpenRouter統(tǒng)計(jì)報(bào)告，當(dāng)前2026年，相對(duì)與2023年，單次LLM請(qǐng)求的token長(zhǎng)度變長(zhǎng)3-4倍，而調(diào)用次數(shù)則增長(zhǎng)為10倍。（來源：https://openrouter.ai/state-of-ai）。預(yù)計(jì)未來智能算力（通常用token來衡量），將會(huì)成為像水電煤氣一樣不可缺少的基礎(chǔ)設(shè)施。

同時(shí)，即使是最智能的AI應(yīng)用和Agent，如果它響應(yīng)緩慢，或者不能在高訪問壓力下穩(wěn)定提供服務(wù)，也將無法被作為基礎(chǔ)設(shè)施來使用。所以下一個(gè)關(guān)鍵問題是，如何評(píng)估這些AI工廠，準(zhǔn)確說是AI推理引擎的性能、效率以及可靠性？

它能否在不斷增長(zhǎng)的各種數(shù)據(jù)類型輸入，大量用戶并發(fā)，長(zhǎng)時(shí)間、多輪次任務(wù)中，依然保證性能不下降？這里有一些指標(biāo)需要關(guān)注：

針對(duì)用戶側(cè)的使用體驗(yàn)：

?提示詞的處理速率（prompt rate）

?首token時(shí)間、尾token時(shí)間（time to firstlast token）

?Token的產(chǎn)生速率（token rate）

?用戶并發(fā)數(shù)量

針對(duì)推理引擎本身的統(tǒng)計(jì)指標(biāo)：

?GPU使用率

?高速內(nèi)存使用率

?KV-cache的使用情況

?Prefill和decode的時(shí)間

Keysight推出Keysight AI Inference Builder (KAI 推理構(gòu)建器) 來解決以上問題，并把這些重要的指標(biāo)實(shí)時(shí)統(tǒng)計(jì)并采集，最終展示在同一個(gè)統(tǒng)計(jì)面板中，為AI云服務(wù)提供商、硬件供應(yīng)商和應(yīng)用開發(fā)人員提供了一個(gè)可擴(kuò)展的測(cè)試解決方案，用于測(cè)量、驗(yàn)證和優(yōu)化實(shí)際環(huán)境中的推理性能。

AI推理的軟件棧和技術(shù)難點(diǎn)

人工智能推理的硬件和軟件技術(shù)棧，包括加速計(jì)算層（例如，GPU、TPU、ASIC）、高速內(nèi)存和存儲(chǔ)、網(wǎng)絡(luò)連接以及與之配套的整個(gè)軟件棧從LLM、推理引擎、服務(wù)和編排層等等。

從宏觀角度來看，人工智能在生成回答之前，會(huì)經(jīng)歷以下主要的推理階段：

?分詞（tokenization）：將人類語言用戶提示分解成離散的詞匯索引，并將其轉(zhuǎn)換為 LLM 可以進(jìn)一步處理的固定寬度整數(shù)張量（tensor）。此步驟由分詞器（例如 BPE 或 WordPiece）執(zhí)行。

?預(yù)填充（prefill）：模型通過一次大規(guī)模的架構(gòu)迭代來處理整個(gè)上下文，計(jì)算初始鍵值緩存，并以此為基礎(chǔ)理解用戶的請(qǐng)求意圖。由于并行處理，此階段表現(xiàn)為計(jì)算密集行為。

?解碼（decode）：每個(gè)輸出token標(biāo)記以自回歸的方式逐個(gè)生成，模型會(huì)反復(fù)從內(nèi)存中獲取并更新鍵值緩存，以保持上下文。由于GPU和內(nèi)存之間需要傳輸大量數(shù)據(jù)，因此該階段主要表現(xiàn)為內(nèi)存密集行為。

?逆分詞（Detokenization）：將輸出token標(biāo)記轉(zhuǎn)換回字符序列，使用相同的標(biāo)記器，詞匯表將最高概率的輸出索引翻譯成人類語言。

?最終輸出：后處理過濾器或安全防護(hù)措施處理生成的字符串，比如禁止內(nèi)容（PII、毒性或幻覺觸發(fā)因素），并將響應(yīng)流式傳輸給客戶端。

正因?yàn)槿斯ぶ悄芡评砹鞒痰膹?fù)雜性，而且涉及的環(huán)節(jié)眾多，下面舉例一些典型的性能瓶頸：

GPU計(jì)算瓶頸

雖然GPU計(jì)算瓶頸在AI訓(xùn)練中非常常見，但在推理過程中也存在，因此業(yè)界針對(duì)推理階段，甚至定制開發(fā)了的TPU，LPU。特別是預(yù)填充階段，需要針對(duì)提示信息詞的并行處理，因此計(jì)算量巨大。特別是長(zhǎng)上下文提示詞、長(zhǎng)文件導(dǎo)入以及RAG的場(chǎng)景，都會(huì)導(dǎo)致GPU高負(fù)載運(yùn)行。

在這種情況下，從客戶端角度來看，最明顯的影響是首token響應(yīng)時(shí)間（Time to First Token，簡(jiǎn)稱TTFT）顯著延長(zhǎng)。而在推理服務(wù)器端統(tǒng)計(jì)數(shù)據(jù)，例如tensor core張量核心和流式多處理器（SM）核心的利用率偏高，則是此類瓶頸的主要指標(biāo)。

內(nèi)存帶寬限制

AI推理面臨的最突出挑戰(zhàn)之一就是內(nèi)存帶寬，也稱為內(nèi)存墻。這一限制在解碼階段（decode）尤為突出，因?yàn)樵诮獯a階段，token詞元以自回歸的方式順序生成，這涉及到內(nèi)存和GPU之間的大量數(shù)據(jù)傳輸，例如模型權(quán)重和提示詞上下文。高帶寬內(nèi)存（HBM）的瓶頸在長(zhǎng)時(shí)間或復(fù)雜的應(yīng)答生成任務(wù)，以及高并發(fā)期間尤為突出。

用戶體驗(yàn)到的結(jié)果是整體響應(yīng)速度緩慢，因?yàn)閠oken的生成速度變慢。在服務(wù)器端，會(huì)注意到每個(gè)輸出詞元的生成時(shí)間（TPOT）較高，同時(shí)GPU利用率不足，從而導(dǎo)致資源利用率低下。

內(nèi)存容量

在高并發(fā)、長(zhǎng)時(shí)間長(zhǎng)上下文會(huì)話或多輪對(duì)話期間，內(nèi)存使用會(huì)不斷增加，以致成為瓶頸。AI客戶端會(huì)注意到響應(yīng)時(shí)間過長(zhǎng)、請(qǐng)求失敗，甚至由于內(nèi)存泄漏或崩潰導(dǎo)致系統(tǒng)無響應(yīng)。在AI服務(wù)器端，緩存利用率將接近100%，隊(duì)列長(zhǎng)度將顯著增加，而GPU則再次處于低使用率狀態(tài)。

Keysight AI Inference Builder (KAI 推理構(gòu)建器)如何解決問題？

首先，Keysight AI Inference Builder (KAI 推理構(gòu)建器)會(huì)部署 test agent來模擬大量用戶，他們將按照用戶配置，發(fā)送特定種類的提示詞進(jìn)行問題輸入，并等待AI推理引擎進(jìn)行回復(fù)，從而來統(tǒng)計(jì)用戶側(cè)的體驗(yàn)類指標(biāo)。

同時(shí)，Keysight AI Inference Builder (KAI 推理構(gòu)建器)可以集成AI推理引擎本身的遙測(cè)統(tǒng)計(jì)數(shù)據(jù)，接入這些統(tǒng)計(jì)數(shù)據(jù)并實(shí)時(shí)放入同的統(tǒng)計(jì)面板，進(jìn)行展示。用戶可以從中分析得出性能瓶頸的原因。

Keysight AI Inference Builder (KAI 推理構(gòu)建器) 通過將提示詞進(jìn)行如下預(yù)分類以及子分類，并可以配置分類提示詞的比重，來模擬各種真實(shí)使用場(chǎng)景：

Law Firms 律師事務(wù)所

?Contract review (long-context, high prefill, memory growth)

合同審查（長(zhǎng)上下文，高預(yù)填充，內(nèi)存增長(zhǎng)）

?Historical case research (retrieval latency + decode)

歷史案例研究（檢索延遲+解碼）

Quantitative Finance 量化金融

?Multi-document financial modeling (High prefill+High decode)

多文檔金融建模（高預(yù)填充+高解碼）

?Real-time strategy simulation (latency-sensitive, concurrency-heavy)

實(shí)時(shí)策略模擬（對(duì)延遲敏感，高度并發(fā)）

Healthcare 醫(yī)療保健

?Patient record summarization (context-heavy)

患者記錄摘要（上下文密集型）

?Clinical reasoning chains (multi-hop, memory-persistent)

臨床推理鏈（多跳，記憶持久）

Academia 學(xué)術(shù)界

?Literature synthesis (High decode)

文獻(xiàn)綜述（高解碼）

?Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)

迭代推理和引用擴(kuò)展（多跳，KV 緩存密集型）

KAI IB的研究不僅限于行業(yè)垂直建模，它還構(gòu)建了針對(duì)特定功能的提示詞組合，旨在探測(cè)推理引擎的特定組件。這些包括：

?GPU + HBM stress profiles

GPU + HBM 壓力配置文件

?Model architecture sensitivity profiles

模型架構(gòu)敏感性配置文件

?Memory and KV-cache targeted prompts

針對(duì)內(nèi)存和 KV 緩存的提示詞

?Networking and fabric stress prompts

針對(duì)網(wǎng)絡(luò)壓力的提示詞

Keysight AI Inference Builder (KAI 推理構(gòu)建器) 提供了一個(gè)統(tǒng)一的統(tǒng)計(jì)界面，將提示詞回復(fù)生成的指標(biāo)與實(shí)時(shí)AI推理引擎的遙測(cè)數(shù)據(jù)關(guān)聯(lián)起來。一方面，它跟蹤工作負(fù)載特性、提示類型、并發(fā)性、突發(fā)模式、TTFT、TPOT 和令牌生成速率。另一方面，它接入AI推理引擎自身的統(tǒng)計(jì)數(shù)據(jù)，例如 GPU 利用率、內(nèi)存消耗、緩存增長(zhǎng)、隊(duì)列延遲、網(wǎng)絡(luò)壓力和token速率。

因?yàn)檫@些數(shù)據(jù)集是時(shí)間對(duì)齊的，團(tuán)隊(duì)可以直接將特定的提示類型映射到其精確的基礎(chǔ)設(shè)施影響上。Prefill峰值可以與 GPU 使用率相關(guān)聯(lián)；Decode可變性可以追溯到內(nèi)存帶寬；尾部延遲可以與隊(duì)列深度或并發(fā)量相關(guān)聯(lián)。

Keysight AI Inference Builder(KAI 推理構(gòu)建器)打破了傳統(tǒng)的基準(zhǔn)測(cè)試模式，通過貼近真實(shí)的性能測(cè)試，成為基礎(chǔ)設(shè)施顧問。NVIDIA DSX AIR的AI仿真工廠方案，也推薦使用Keysight AI Inference Builder(KAI 推理構(gòu)建器)進(jìn)行建模和測(cè)試。

NVIDIA DSX AIR提供了一個(gè)AI工廠的數(shù)字孿生，團(tuán)隊(duì)可以在物理部署之前設(shè)計(jì)、建模和驗(yàn)證其 AI 基礎(chǔ)設(shè)施。Keysight AI Inference Builder (KAI 推理構(gòu)建器) 則通過引入逼真的工作負(fù)載模擬和分析功能來完善這一環(huán)境，使模擬的基礎(chǔ)設(shè)施能夠在類似生產(chǎn)的流量條件下得到驗(yàn)證。

AI已經(jīng)進(jìn)入“推理性能”時(shí)代

AI 已經(jīng)從簡(jiǎn)單的生成階段，進(jìn)化到了深度思考與執(zhí)行任務(wù)的“推理性能”時(shí)代。通過 Keysight AI Inference Builder (KAI 推理構(gòu)建器)，企業(yè)不僅能夠看清復(fù)雜的軟硬件堆棧瓶頸，更能在數(shù)字孿生世界中提前驗(yàn)證真實(shí)業(yè)務(wù)負(fù)載。當(dāng)智算中心成為新時(shí)代的基礎(chǔ)設(shè)施，精準(zhǔn)的性能評(píng)估便是通往高效智能的加速器！

關(guān)于是德科技

是德科技（NYSE：KEYS）啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司，我們提供先進(jìn)的設(shè)計(jì)、仿真和測(cè)試解決方案，旨在幫助工程師在整個(gè)產(chǎn)品生命周期中更快地完成開發(fā)和部署，同時(shí)控制好風(fēng)險(xiǎn)。我們的客戶遍及全球通信、工業(yè)自動(dòng)化、航空航天與國(guó)防、汽車、半導(dǎo)體和通用電子等市場(chǎng)。我們與客戶攜手，加速創(chuàng)新，創(chuàng)造一個(gè)安全互聯(lián)的世界。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
91

文章
41471

瀏覽量
302793
人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50392

瀏覽量
267164
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
31

文章
1604

瀏覽量
10404

原文標(biāo)題：當(dāng)Token使用量暴漲，LLM推理性能如何評(píng)估？

文章出處：【微信號(hào)：是德科技KEYSIGHT，微信公眾號(hào)：是德科技KEYSIGHT】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

是德科技如何評(píng)估AI推理基礎(chǔ)設(shè)施的性能

評(píng)論