嫩草成人国产精品,国产精品亲子乱子伦XXXX裸,美女啪啪无遮挡福利

關(guān)鍵詞：V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年來，大型語言模型（LLM）的指數(shù)級增長依賴于基于 GPU 的系統(tǒng)。然而，CPU 正逐漸成為一種靈活且成本更低的替代方案，尤其是在面向推理（inference，即模型已完成訓(xùn)練、僅做預(yù)測的階段）和推理負(fù)載（reasoning workloads，指需要多步邏輯推導(dǎo)的預(yù)測任務(wù)）時。

RISC-V（一種開源、免授權(quán)、可自由定制的指令集架構(gòu)）憑借開放且與廠商無關(guān)的 ISA（Instruction Set Architecture，指令集架構(gòu)）在該領(lǐng)域迅速受到關(guān)注。

然而，面向 LLM 負(fù)載的 RISC-V 硬件及其配套軟件生態(tài)尚未完全成熟和流暢，原因是需要對特定領(lǐng)域進(jìn)行調(diào)優(yōu)。

本文旨在填補(bǔ)這一空白，聚焦于在 SOPHON SG2042 上優(yōu)化 LLM 推理；SG2042 是首款商用、具備向量處理能力的多核 RISC-V CPU。

在兩個新近為推理優(yōu)化的 SOTA（state-of-the-art，業(yè)界最佳）開源 LLM——DeepSeek R1 Distill Llama 8B 與 DeepSeek R1 Distill QWEN 14B——上，我們實(shí)現(xiàn)了：

token 生成（token generation，逐詞生成）4.32 / 2.29 token/s
提示處理（prompt processing，又稱 prefill，把整段輸入一次性算完）6.54 / 3.68 token/s 的吞吐，相比我們的基線實(shí)現(xiàn)最高加速達(dá) 2.9× / 3.0×。

本文目錄

本文目錄
一、引言
二、研究方法
- 2.1 高性能 Kernel
- 2.2 編譯器工具鏈
- 2.3 模型映射優(yōu)化
三、實(shí)驗(yàn)結(jié)果與分析
- Kernel Scaling
- 不同編譯器影響
- NUMA 策略影響
- 性能小結(jié)
參考文獻(xiàn)

一、引言

超大規(guī)模云服務(wù)商（hyperscalers，例如 AWS）與 AI 部署公司（例如 OpenAI）通常使用 GPU 集群或?qū)Ｓ眉铀倨鳎ㄈ?TPU，Tensor Processing Unit）來加速 LLM 工作負(fù)載。然而，多核 CPU 加速 LLM 也已得到近期探索[2]，因?yàn)樗?span style="color:rgb(122,79,214);">硬件成本更低的同時提供了更高的靈活性，尤其適用于本地部署（on-premise）和低延遲邊緣服務(wù)器（edge servers）。

現(xiàn)有研究主要針對 x86 和 ARM，而基于靈活且開源的 RISC-V 指令集架構(gòu)的多核芯片則相對未被充分探索 [1]。

為了填補(bǔ)這一空白，本工作將業(yè)界先進(jìn)的 LLM 推理框架 llama.cpp [7] 適配并優(yōu)化到首款商用的、通用型多核 RISC-V 平臺——SOPHON SG2042[1]。

在兩個新近開源、專為推理優(yōu)化的模型（DeepSeek R1 Distill Llama 8B / QWEN 14B）上，我們相比基線 llama.cpp 實(shí)現(xiàn)最高實(shí)現(xiàn)了 token 生成 3.0×、提示處理 2.8× 的加速（在 4-bit 量化精度下），分別達(dá)到 4.32 / 2.29 與 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上，我們實(shí)現(xiàn) token 生成 6.63 token/s、提示處理 13.07 token/s，即相比基線實(shí)現(xiàn)加速 4.3× / 5.5×，并較 SG2042 上已報道的最佳結(jié)果 [8] 提升 1.65×，同時與成熟的 x86 CPU 推理性能具有競爭力。

二、研究方法

為了探索在 RISC-V 服務(wù)器級平臺上優(yōu)化 LLM 推理的可用選項(xiàng)，我們選定了 MILK-V Pioneer 作為目標(biāo)平臺，其核心為 64 核 SOPHON SG2042 CPU，并配備 128 GB DRAM 內(nèi)存。平臺框圖見圖 1-center。

我們識別出可以從三個方向著手解決問題的路徑，均在軟件層面，靈感來自其他架構(gòu)上的相關(guān)工作 [5,6,3]：

2.1 高性能 Kernel

針對關(guān)鍵 LLM 層開發(fā)經(jīng)過優(yōu)化的、若支持則已量化的計(jì)算內(nèi)核（kernels，指一段專門用于矩陣運(yùn)算的底層代碼），充分利用硬件資源，同時兼顧其內(nèi)存結(jié)構(gòu)、流水線（pipeline，指令執(zhí)行順序）和向量化能力。

圖 1-right 給出了我們提出的內(nèi)核的偽代碼：

首先，將 fp32（32 位浮點(diǎn)）輸入（向量或瘦矩陣）量化為 int8（8 位整數(shù)）；
接著，執(zhí)行兩層嵌套循環(huán)以完成 GEMV（General Matrix-Vector multiplication，通用矩陣-向量乘法）操作，其中外層循環(huán)按步長 2 遍歷輸入矩陣 A 的行，內(nèi)層循環(huán)按步長 32 遍歷其列。
列循環(huán)結(jié)束后，進(jìn)行反量化（de-quantization，把整數(shù)還原回浮點(diǎn)數(shù)），結(jié)合 A 塊和 B 的縮放因子（scale factors）以生成輸出的 fp32 值。

這一新內(nèi)核既利用了平臺的向量單元，又優(yōu)化了數(shù)據(jù)局部性（data locality，數(shù)據(jù)盡量靠近計(jì)算單元，減少訪存延遲）。

2.2 編譯器工具鏈

選擇合適的編譯工具鏈，支持先進(jìn)的優(yōu)化 Pass（optimization passes，編譯器內(nèi)部對代碼進(jìn)行變換以提升性能的階段）并能利用現(xiàn)有 ISA 擴(kuò)展。

在我們的場景下，內(nèi)核使用 Xuantie 分支的 GCC 10.4 編譯，因?yàn)?strong>只有該版本支持 Sophon SG2042 的硬件向量單元。而對于整個 llama.cpp 框架，我們考慮兩種替代方案：GCC 13.2 和 Clang 19（Xuantie GCC 10.4 與最新版 llama.cpp 不兼容）。

2.3 模型映射優(yōu)化

優(yōu)化模型映射（model mapping，即把模型權(quán)重和計(jì)算任務(wù)分配到硬件上的過程），特別是頁面/線程分配，解決這類系統(tǒng)復(fù)雜的內(nèi)存層級結(jié)構(gòu)。具體而言，我們針對非一致內(nèi)存訪問（NUMA，Non-uniform Memory Access，指多路服務(wù)器中 CPU 訪問遠(yuǎn)/近內(nèi)存速度不同的架構(gòu)）延遲，探索了不同 numactl 選項(xiàng)組合的 4 種策略：

NUMA Balancing 開啟，其余選項(xiàng)關(guān)閉；
所有選項(xiàng)關(guān)閉；
Balancing 關(guān)閉 + Core Binding（核心綁定）開啟；
Balancing 關(guān)閉 + Memory Interleaving（內(nèi)存交錯）開啟。

我們將上述優(yōu)化應(yīng)用于 llama.cpp [7] 框架，并在 3 個規(guī)模遞增的開源 LLM 上進(jìn)行測試，均采用 Q4_0 量化（vanilla Llama 7B，DeepSeek R1 Distill Llama 8B，DeepSeek R1 Distill QWEN 14B，分別簡稱 7B、8B 和 14B）。

三、實(shí)驗(yàn)結(jié)果與分析

為展示優(yōu)化效果，我們用用戶提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”（共 22 個 token）對三款 LLM 執(zhí)行了預(yù)填充（prefill），同時對 token 生成性能取 256 個測試生成 token 的平均值。

Kernel Scaling

圖 2 給出了多個基線內(nèi)核（llama.cpp 自帶的 GGML 與 OpenBLAS 默認(rèn)實(shí)現(xiàn)）與我們所提出內(nèi)核的單線程可擴(kuò)展性對比。

與最佳基線相比，我們平均將 GOPS（Giga Operations Per Second，十億次運(yùn)算每秒）提升 38.3%，在矩陣規(guī)模為 4096 時峰值提升達(dá) 56.3%。

不同編譯器影響

圖 3 評估了使用 Clang 或 GCC 編譯時 DeepSeek 8B 模型的推理性能，均使用我們提出的內(nèi)核。

Clang 19 持續(xù)優(yōu)于 GCC 13.2，在 token 生成上平均性能提升 34%，在預(yù)填充上提升 25%。關(guān)鍵原因在于 Clang 對 ISA 擴(kuò)展的支持以及更先進(jìn)的編譯優(yōu)化（例如更激進(jìn)的內(nèi)聯(lián)和循環(huán)展開）。無論使用哪種編譯器，當(dāng)線程數(shù)超過 32 時都會出現(xiàn)性能下降。該行為歸因于默認(rèn)的 NUMA balancing 策略，它對 LLM 推理這種可預(yù)測負(fù)載并不理想，導(dǎo)致大量線程與內(nèi)存頁遷移。

NUMA 策略影響

事實(shí)上，在關(guān)閉 NUMA balancing 并開啟內(nèi)存交錯后，如預(yù)期所示，我們在 64 線程下取得了 token 生成 4.32 token/s 與預(yù)填充 6.54 token/s 的最佳結(jié)果，這得益于內(nèi)存頁遷移的大幅減少。

性能小結(jié)

得益于我們的優(yōu)化，7B、8B 和 14B 這三款 LLM分別達(dá)到了 13.07 / 6.54 / 3.68 token/s 的最大吞吐，相比基線 llama.cpp 最高提升 5.5× / 2.9× / 3×。

與 SG2042 上已報道的最佳結(jié)果 [8] 相比，我們在Llama 7B 上的峰值吞吐提升 1.65×。
與類似且更成熟的 x86 平臺——64 核 AMD EPYC 7742——相比，我們將能效提升 1.2×（55 token/s/mW 對 45 token/s/mW）。

參考文獻(xiàn)

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
11326

瀏覽量
225870
RISC-V

RISC-V

+關(guān)注

關(guān)注
49

文章
2946

瀏覽量
53534

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费