chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PowerVR上的LLM加速:LLM性能解析

穎脈Imgtec ? 2025-12-10 08:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Alex Pim,Imagination 軟件架構(gòu)Fellow

Imagination,我們致力于加速大語言模型在日常設(shè)備上的運行。在本系列關(guān)于大語言模型性能與加速的兩篇博客的首篇中,我們將介紹關(guān)鍵性能指標:首次生成Token時間(TTFT)與Token間延遲(ITL)。在下一篇文章中,我們將分享如何在Imagination GPU上實現(xiàn)高效的Llama.cpp推理。

若您看過谷歌的“AI概覽”或體驗過Word里的詞匯預(yù)測功能,那便是LLM在發(fā)揮作用。它們基于Transformer網(wǎng)絡(luò)構(gòu)建,而Transformer使用注意力機制(attention)來聚焦輸入中最相關(guān)的部分——就像你在觀看一場足球比賽時,會本能地盯著帶球的球員,而不是場上另外21位球員。LLM的神奇之處在于,通過對概率的建模,它們能夠捕捉到某種程度上的人類思維模式,因此在各種應(yīng)用中都具有巨大的價值。

挑戰(zhàn)在于這一切都需要強大的計算能力。LLM依賴大規(guī)模矩陣運算,這類運算要求高但高度并行——換言之,正是GPU的完美用武之地。

閱讀白皮書《AI處理器的真正本質(zhì)》可了解GPU為何能完美勝任高度并行任務(wù)。

正因如此,包括基于PowerVR架構(gòu)的Imagination GPU在內(nèi)的圖形處理器,在提升模型運行速度與效率方面發(fā)揮著關(guān)鍵作用——尤其在功耗與性能至關(guān)重要的移動及邊緣設(shè)備領(lǐng)域。


加速大語言模型推理

大語言模型(LLMs)通過提取先前Token的上下文窗口來生成文本,并預(yù)測序列中的下一個Token。當首次提交提示時,模型必須處理上下文窗口中的所有Token,這可能需要大量計算資源。模型生成的每個新Token都會附加到上下文窗口中的先前Token之后:這是一種自回歸模型。

ff3f76be-d55f-11f0-8ce9-92fbcf53809c.png

隨著每個新生成的token,推理速度將逐漸變慢。

為提升效率,框架常采用鍵值緩存機制,將先前處理過的token的中間結(jié)果存儲其中。這種方法避免了冗余計算,顯著加速了推理過程,使大語言模型即使在普通硬件上也能實際應(yīng)用。同時,當新token生成時,該機制能使執(zhí)行時間保持近似恒定。

ff4e02f6-d55f-11f0-8ce9-92fbcf53809c.png

由于KV緩存機制,大語言模型通常以兩種截然不同的模式運行:

預(yù)填充模式:模型處理整個token序列并初始化緩存。該階段涉及大規(guī)模矩陣乘法運算,通常受限于GPU的計算吞吐量。

解碼模式:復(fù)用緩存結(jié)果生成后續(xù)token。由于跳過前期計算,該模式速度顯著提升。其依賴矩陣-向量乘法運算,通常受限于GPU內(nèi)存帶寬(用于流式傳輸權(quán)重和激活值)。

兩種模式在用戶體驗和硬件資源消耗方面存在差異,因此應(yīng)分別采用專屬性能指標進行評估。


LLM性能指標

討論LLM部署性能時,主要涉及兩項指標:

首次token生成時間(TTFT)——預(yù)填充模式下執(zhí)行計算任務(wù)所需時間

Token間延遲(ITL)——解碼模式下執(zhí)行計算任務(wù)所需時間


首次生成token時間(Time to First Token)

TTFT指標指大語言模型生成首個輸出token所需的時間,此時模型必須已處理完全部用戶輸入提示(即預(yù)填充階段完成)。

“首次生成Token的時間(Time to First Token)在大語言模型應(yīng)用于汽車場景或交互式應(yīng)用中通常非常重要;因為人類已經(jīng)習(xí)慣了以自己的說話速度被‘聽見’。如果一個數(shù)字助手或應(yīng)用程序的響應(yīng)速度達不到人與人交流時的反應(yīng)速度,那么用戶的整體‘體驗’就會開始下降?!?/span>

試想若在谷歌搜索時輸入問題卻需等待數(shù)十秒才能獲得答案——這在當今標準下相當令人沮喪(盡管我們中有些人曾經(jīng)歷過從磁帶加載電腦游戲的漫長等待)。

因此無論是數(shù)據(jù)中心部署還是邊緣計算場景,GPU供應(yīng)商面臨的核心挑戰(zhàn)在于:即使在功耗受限或網(wǎng)絡(luò)延遲高的環(huán)境下,仍需為用戶提供迅捷的首次響應(yīng)。

具體而言,大型語言模型(如Llama-3.2-3b)要生成輸入查詢的首個token,需處理大量矩陣乘法運算(下表所示),其中參數(shù)N代表用戶輸入token數(shù)量(此例為13)。以用戶提示詞“建站只需10步:”為例:

M: 1024, K: 3072, N: 13

M: 128, K: 32, N: 13

M: 3072, K: 3072, N: 13

M: 3072, K: 8192, N: 13

M: 32, K: 128, N: 13

M: 8192, K: 3072, N: 13

表1 - LLAMA-3.2-3B型號典型GEMM M、K和N尺寸

llama.cpp中的矩陣乘法運算執(zhí)行如下矩陣乘法:

CT= A * BT

這意味著矩陣C (NxM)的計算方式為A(M*K) * B(N*K)。值得注意的是,C和B均為轉(zhuǎn)置矩陣,這意味著轉(zhuǎn)置矩陣的元素相對于原始矩陣沿對角線方向進行了交換。

在LLM預(yù)填充階段所需的矩陣乘法運算中,存在若干較大維度的矩陣操作——這正是PowerVR GPU大顯身手的環(huán)節(jié)!這些矩陣乘法運算具有獨立性且交互需求極低,與GPU的SIMT架構(gòu)所具備的超大規(guī)模并行特性高度契合。

模型生成首個輸出token前需執(zhí)行多次上述矩陣乘法迭代,而矩陣運算耗時直接決定了用戶等待模型開始輸出所需的時間。


Token間延遲(Inter-Token Latency)

衡量大語言模型性能的第二個指標是“Token間延遲(Inter-Token Latency)”,其含義非常直接:即模型生成一個新Token所需的時間,或者說模型在逐個生成輸出時,兩個Token之間的間隔時間。

這個過程與處理用戶輸入提示(prompt)的過程略有不同,因為它涉及的是矩陣-向量(matrix-vector)乘法,而不是矩陣-矩陣(matrix-matrix)乘法;并且由于上一節(jié)提到的K-V緩存技術(shù),這一階段的計算強度大幅降低。

在生成(或解碼)階段,數(shù)學(xué)操作是一系列矩陣-向量乘法,其中M、K、N中的N始終為1,而上一輪生成的Token(對應(yīng)的向量)會作為單一輸入向量,進入下一層的一組矩陣-向量乘法中。

加速矩陣-向量乘法可以在GPU上實現(xiàn),但由于其計算量相對較低,在GPU上反而容易受到內(nèi)存帶寬的限制,這也是為什么LLM的decode階段通??梢栽趦?nèi)存帶寬限制較小的CPU上執(zhí)行。

普遍認為,在LLM的解碼階段,GPU較難發(fā)揮顯著優(yōu)勢;然而,如果部署芯片(SoC)的主CPU負載較高,將解碼階段卸載到GPU仍然具有價值。

M: 128, K: 32, N: 1

M: 1024, K: 3072, N: 1

M: 3072, K: 3072, N: 1

M: 3072, K: 8192, N: 1

M: 32, K: 128, N: 1

M: 8192, K: 3072, N: 1

表2 - LLAMA-3.2-3B模型典型GEMV計算


結(jié)語

至此,我們關(guān)于在PowerVR GPU等邊緣設(shè)備上加速大型語言模型推理的兩篇博客系列已完成第一部分。我們介紹了“首次生成token時間”和“Token間延遲”的概念,以及它們?nèi)绾螒?yīng)用于大語言模型計算的兩個主要階段。

在第二部分中,我們將剖析Imagination公司為適配PowerVR GPU架構(gòu)對Llama.cpp應(yīng)用程序所做的代碼修改——涵蓋Vulkan接口與默認OpenCL實現(xiàn)兩種方案。最后將重點分析我們自主優(yōu)化的OpenCL內(nèi)核,這些內(nèi)核專為釋放PowerVR GPU的高利用率而設(shè)計,在采用F16量化權(quán)重格式時,能顯著提升矩陣乘矩陣與矩陣-向量乘法運算的性能表現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    38161

    瀏覽量

    296839
  • powervr
    +關(guān)注

    關(guān)注

    0

    文章

    99

    瀏覽量

    31505
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    341

    瀏覽量

    1258
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    對比解碼在LLM的應(yīng)用

    為了改進LLM的推理能力,University of California聯(lián)合Meta AI實驗室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實驗表明,所提方法能有效改進LLM的推理能力。讓我們走進
    發(fā)表于 09-21 11:37 ?1136次閱讀
    對比解碼在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的應(yīng)用

    低比特量化技術(shù)如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一,本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能,以及新版 OpenVINO 對于低比
    的頭像 發(fā)表于 12-08 15:26 ?2189次閱讀
    低比特量化技術(shù)如何幫助<b class='flag-5'>LLM</b>提升<b class='flag-5'>性能</b>

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器運行 LLM
    的頭像 發(fā)表于 12-03 17:05 ?1948次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?1760次閱讀

    無法在OVMS運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發(fā)表于 03-05 08:07

    LLM性能的主要因素

    現(xiàn)在是2023年5月,截止目前,網(wǎng)絡(luò)已經(jīng)開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎(chǔ)性能,選到適合自己任務(wù)的LLM,成為一個關(guān)鍵
    的頭像 發(fā)表于 05-22 15:26 ?2553次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    深度解讀各種人工智能加速器和GPULLM性能特征

    在不同的硬件平臺上評估LLM對于理解傳統(tǒng)和非傳統(tǒng)體系結(jié)構(gòu)的能力和局限性至關(guān)重要。先前的工作已經(jīng)在超級計算機上研究了LLM,并使用傳統(tǒng)的深度學(xué)習(xí)基準來提供對其能力的詳細評估與分析。
    發(fā)表于 10-25 11:49 ?1530次閱讀
    深度解讀各種人工智能<b class='flag-5'>加速</b>器和GPU<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    LLM推理加速新范式!推測解碼(Speculative Decoding)最新綜述

    這個問題隨著LLM規(guī)模的增大愈發(fā)嚴重。并且,如下左圖所示,目前LLM常用的自回歸解碼(autoregressive decoding)在每個解碼步只能生成一個token。這導(dǎo)致GPU計算資源利用率
    的頭像 發(fā)表于 01-29 15:54 ?5850次閱讀
    <b class='flag-5'>LLM</b>推理<b class='flag-5'>加速</b>新范式!推測解碼(Speculative Decoding)最新綜述

    100%在樹莓派上執(zhí)行的LLM項目

    ChatGPT的人性口語化回復(fù)相信許多人已體驗過,也因此掀起一波大型語言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運作技術(shù),但LLM運作需要龐大運算力,因此目前多是在云端(Cl
    的頭像 發(fā)表于 02-29 16:29 ?2369次閱讀
    100%在樹莓派上執(zhí)行的<b class='flag-5'>LLM</b>項目

    什么是LLMLLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領(lǐng)域的研究熱點。LLM以其強大的文本生成、理解和推理能力,在文本
    的頭像 發(fā)表于 07-02 11:45 ?1.8w次閱讀

    LLM模型的應(yīng)用領(lǐng)域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發(fā)表于 07-09 09:52 ?1835次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細探討,內(nèi)容將涵蓋模型壓縮、
    的頭像 發(fā)表于 07-24 11:38 ?2791次閱讀

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本中的長距離依賴關(guān)系。
    的頭像 發(fā)表于 11-19 15:32 ?4485次閱讀

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語言模型(LLM)在性能、成本和應(yīng)用前景的快速發(fā)展,越來越多的團隊開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個LLM
    的頭像 發(fā)表于 01-09 12:12 ?1557次閱讀
    小白學(xué)大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來運行大語言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?797次閱讀
    LM Studio使用NVIDIA技術(shù)<b class='flag-5'>加速</b><b class='flag-5'>LLM</b><b class='flag-5'>性能</b>