在线a免费观看影院,9966欧美激情在线播放,A级欧美五套内

作者：Alex Pim，Imagination 軟件架構Fellow

在Imagination，我們致力于加速大語言模型在日常設備上的運行。在本系列關于大語言模型性能與加速的兩篇博客的首篇中，我們將介紹關鍵性能指標：首次生成Token時間（TTFT）與Token間延遲（ITL）。在下一篇文章中，我們將分享如何在Imagination GPU上實現(xiàn)高效的Llama.cpp推理。

若您看過谷歌的“AI概覽”或體驗過Word里的詞匯預測功能，那便是LLM在發(fā)揮作用。它們基于Transformer網(wǎng)絡構建，而Transformer使用注意力機制（attention）來聚焦輸入中最相關的部分——就像你在觀看一場足球比賽時，會本能地盯著帶球的球員，而不是場上另外21位球員。LLM的神奇之處在于，通過對概率的建模，它們能夠捕捉到某種程度上的人類思維模式，因此在各種應用中都具有巨大的價值。

挑戰(zhàn)在于這一切都需要強大的計算能力。LLM依賴大規(guī)模矩陣運算，這類運算要求高但高度并行——換言之，正是GPU的完美用武之地。

閱讀白皮書《AI處理器的真正本質》可了解GPU為何能完美勝任高度并行任務。

正因如此，包括基于PowerVR架構的Imagination GPU在內的圖形處理器，在提升模型運行速度與效率方面發(fā)揮著關鍵作用——尤其在功耗與性能至關重要的移動及邊緣設備領域。

加速大語言模型推理

大語言模型（LLMs）通過提取先前Token的上下文窗口來生成文本，并預測序列中的下一個Token。當首次提交提示時，模型必須處理上下文窗口中的所有Token，這可能需要大量計算資源。模型生成的每個新Token都會附加到上下文窗口中的先前Token之后：這是一種自回歸模型。

隨著每個新生成的token，推理速度將逐漸變慢。

為提升效率，框架常采用鍵值緩存機制，將先前處理過的token的中間結果存儲其中。這種方法避免了冗余計算，顯著加速了推理過程，使大語言模型即使在普通硬件上也能實際應用。同時，當新token生成時，該機制能使執(zhí)行時間保持近似恒定。

由于KV緩存機制，大語言模型通常以兩種截然不同的模式運行：

預填充模式：模型處理整個token序列并初始化緩存。該階段涉及大規(guī)模矩陣乘法運算，通常受限于GPU的計算吞吐量。

解碼模式：復用緩存結果生成后續(xù)token。由于跳過前期計算，該模式速度顯著提升。其依賴矩陣-向量乘法運算，通常受限于GPU內存帶寬（用于流式傳輸權重和激活值）。

兩種模式在用戶體驗和硬件資源消耗方面存在差異，因此應分別采用專屬性能指標進行評估。

LLM性能指標

討論LLM部署性能時，主要涉及兩項指標：

首次token生成時間（TTFT）——預填充模式下執(zhí)行計算任務所需時間

Token間延遲（ITL）——解碼模式下執(zhí)行計算任務所需時間

首次生成token時間(Time to First Token)

TTFT指標指大語言模型生成首個輸出token所需的時間，此時模型必須已處理完全部用戶輸入提示（即預填充階段完成）。

“首次生成Token的時間（Time to First Token）在大語言模型應用于汽車場景或交互式應用中通常非常重要；因為人類已經習慣了以自己的說話速度被‘聽見’。如果一個數(shù)字助手或應用程序的響應速度達不到人與人交流時的反應速度，那么用戶的整體‘體驗’就會開始下降。”

試想若在谷歌搜索時輸入問題卻需等待數(shù)十秒才能獲得答案——這在當今標準下相當令人沮喪（盡管我們中有些人曾經歷過從磁帶加載電腦游戲的漫長等待）。

因此無論是數(shù)據(jù)中心部署還是邊緣計算場景，GPU供應商面臨的核心挑戰(zhàn)在于：即使在功耗受限或網(wǎng)絡延遲高的環(huán)境下，仍需為用戶提供迅捷的首次響應。

具體而言，大型語言模型（如Llama-3.2-3b）要生成輸入查詢的首個token，需處理大量矩陣乘法運算（下表所示），其中參數(shù)N代表用戶輸入token數(shù)量（此例為13）。以用戶提示詞“建站只需10步：”為例：

M: 1024, K: 3072, N: 13

M: 128, K: 32, N: 13

M: 3072, K: 3072, N: 13

M: 3072, K: 8192, N: 13

M: 32, K: 128, N: 13

M: 8192, K: 3072, N: 13

表1 - LLAMA-3.2-3B型號典型GEMM M、K和N尺寸

llama.cpp中的矩陣乘法運算執(zhí)行如下矩陣乘法：

CT= A * BT

這意味著矩陣C (NxM)的計算方式為A(M*K) * B(N*K)。值得注意的是，C和B均為轉置矩陣，這意味著轉置矩陣的元素相對于原始矩陣沿對角線方向進行了交換。

在LLM預填充階段所需的矩陣乘法運算中，存在若干較大維度的矩陣操作——這正是PowerVR GPU大顯身手的環(huán)節(jié)！這些矩陣乘法運算具有獨立性且交互需求極低，與GPU的SIMT架構所具備的超大規(guī)模并行特性高度契合。

模型生成首個輸出token前需執(zhí)行多次上述矩陣乘法迭代，而矩陣運算耗時直接決定了用戶等待模型開始輸出所需的時間。

Token間延遲(Inter-Token Latency)

衡量大語言模型性能的第二個指標是“Token間延遲（Inter-Token Latency）”，其含義非常直接：即模型生成一個新Token所需的時間，或者說模型在逐個生成輸出時，兩個Token之間的間隔時間。

這個過程與處理用戶輸入提示（prompt）的過程略有不同，因為它涉及的是矩陣-向量（matrix-vector）乘法，而不是矩陣-矩陣（matrix-matrix）乘法；并且由于上一節(jié)提到的K-V緩存技術，這一階段的計算強度大幅降低。

在生成（或解碼）階段，數(shù)學操作是一系列矩陣-向量乘法，其中M、K、N中的N始終為1，而上一輪生成的Token（對應的向量）會作為單一輸入向量，進入下一層的一組矩陣-向量乘法中。

加速矩陣-向量乘法可以在GPU上實現(xiàn)，但由于其計算量相對較低，在GPU上反而容易受到內存帶寬的限制，這也是為什么LLM的decode階段通?？梢栽趦却鎺捪拗戚^小的CPU上執(zhí)行。

普遍認為，在LLM的解碼階段，GPU較難發(fā)揮顯著優(yōu)勢；然而，如果部署芯片（SoC）的主CPU負載較高，將解碼階段卸載到GPU仍然具有價值。

M: 128, K: 32, N: 1

M: 1024, K: 3072, N: 1

M: 3072, K: 3072, N: 1

M: 3072, K: 8192, N: 1

M: 32, K: 128, N: 1

M: 8192, K: 3072, N: 1

表2 - LLAMA-3.2-3B模型典型GEMV計算

結語

至此，我們關于在PowerVR GPU等邊緣設備上加速大型語言模型推理的兩篇博客系列已完成第一部分。我們介紹了“首次生成token時間”和“Token間延遲”的概念，以及它們如何應用于大語言模型計算的兩個主要階段。

在第二部分中，我們將剖析Imagination公司為適配PowerVR GPU架構對Llama.cpp應用程序所做的代碼修改——涵蓋Vulkan接口與默認OpenCL實現(xiàn)兩種方案。最后將重點分析我們自主優(yōu)化的OpenCL內核，這些內核專為釋放PowerVR GPU的高利用率而設計，在采用F16量化權重格式時，能顯著提升矩陣乘矩陣與矩陣-向量乘法運算的性能表現(xiàn)。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴