chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RISC-V CPU 上 3 倍推理加速!V-SEEK:在 SOPHON SG2042 上加速 14B LLM

算能開(kāi)發(fā)者社區(qū) ? 2025-08-05 14:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

關(guān)鍵詞:V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

aef34156-71c1-11f0-9080-92fbcf53809c.png
  • V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年來(lái),大型語(yǔ)言模型(LLM)的指數(shù)級(jí)增長(zhǎng)依賴于基于 GPU 的系統(tǒng)。然而,CPU 正逐漸成為一種靈活且成本更低的替代方案,尤其是在面向推理(inference,即模型已完成訓(xùn)練、僅做預(yù)測(cè)的階段)和推理負(fù)載(reasoning workloads,指需要多步邏輯推導(dǎo)的預(yù)測(cè)任務(wù))時(shí)。

RISC-V(一種開(kāi)源、免授權(quán)、可自由定制的指令集架構(gòu))憑借開(kāi)放且與廠商無(wú)關(guān)的 ISA(Instruction Set Architecture,指令集架構(gòu))在該領(lǐng)域迅速受到關(guān)注。

然而,面向 LLM 負(fù)載的 RISC-V 硬件及其配套軟件生態(tài)未完全成熟和流暢,原因是需要對(duì)特定領(lǐng)域進(jìn)行調(diào)優(yōu)。

本文旨在填補(bǔ)這一空白,聚焦于在 SOPHON SG2042 上優(yōu)化 LLM 推理;SG2042 是首款商用、具備向量處理能力的多核 RISC-V CPU。

在兩個(gè)新近為推理優(yōu)化的 SOTA(state-of-the-art,業(yè)界最佳)開(kāi)源 LLM——DeepSeek R1 Distill Llama 8B 與 DeepSeek R1 Distill QWEN 14B——上,我們實(shí)現(xiàn)了:

  • token 生成(token generation,逐詞生成)4.32 / 2.29 token/s
  • 提示處理(prompt processing,又稱 prefill,把整段輸入一次性算完)6.54 / 3.68 token/s 的吞吐,相比我們的基線實(shí)現(xiàn)最高加速達(dá) 2.9× / 3.0×。

本文目錄

  • 本文目錄
  • 一、引言
  • 二、研究方法
    • 2.1 高性能 Kernel
    • 2.2 編譯器工具鏈
    • 2.3 模型映射優(yōu)化
  • 三、實(shí)驗(yàn)結(jié)果與分析
    • Kernel Scaling
    • 不同編譯器影響
    • NUMA 策略影響
    • 性能小結(jié)
  • 參考文獻(xiàn)

一、引言

超大規(guī)模云服務(wù)商(hyperscalers,例如 AWS)與 AI 部署公司(例如 OpenAI)通常使用 GPU 集群或?qū)S眉铀倨鳎ㄈ?TPU,Tensor Processing Unit)來(lái)加速 LLM 工作負(fù)載。然而,多核 CPU 加速 LLM 也已得到近期探索[2],因?yàn)樗?span style="color:rgb(122,79,214);">硬件成本更低的同時(shí)提供了更高的靈活性,尤其適用于本地部署(on-premise)和低延遲邊緣服務(wù)器(edge servers)。

現(xiàn)有研究主要針對(duì) x86 和 ARM,而基于靈活且開(kāi)源的 RISC-V 指令集架構(gòu)的多核芯片則相對(duì)未被充分探索 [1]。

為了填補(bǔ)這一空白,本工作將業(yè)界先進(jìn)的 LLM 推理框架 llama.cpp [7] 適配并優(yōu)化到首款商用的、通用型多核 RISC-V 平臺(tái)——SOPHON SG2042[1]。

在兩個(gè)新近開(kāi)源、專為推理優(yōu)化的模型(DeepSeek R1 Distill Llama 8B / QWEN 14B)上,我們相比基線 llama.cpp 實(shí)現(xiàn)最高實(shí)現(xiàn)了 token 生成 3.0×、提示處理 2.8× 的加速(在 4-bit 量化精度下),分別達(dá)到 4.32 / 2.29 與 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上,我們實(shí)現(xiàn) token 生成 6.63 token/s、提示處理 13.07 token/s,即相比基線實(shí)現(xiàn)加速 4.3× / 5.5×,并較 SG2042 上已報(bào)道的最佳結(jié)果 [8] 提升 1.65×,同時(shí)與成熟的 x86 CPU 推理性能具有競(jìng)爭(zhēng)力。

二、研究方法

為了探索在 RISC-V 服務(wù)器級(jí)平臺(tái)上優(yōu)化 LLM 推理的可用選項(xiàng),我們選定了 MILK-V Pioneer 作為目標(biāo)平臺(tái),其核心為 64 核 SOPHON SG2042 CPU,并配備 128 GB DRAM 內(nèi)存。平臺(tái)框圖見(jiàn)圖 1-center。

af47ab06-71c1-11f0-9080-92fbcf53809c.png

我們識(shí)別出可以從三個(gè)方向著手解決問(wèn)題的路徑,均在軟件層面,靈感來(lái)自其他架構(gòu)上的相關(guān)工作 [5,6,3]:

2.1 高性能 Kernel

針對(duì)關(guān)鍵 LLM 層開(kāi)發(fā)經(jīng)過(guò)優(yōu)化的、若支持則已量化的計(jì)算內(nèi)核(kernels,指一段專門用于矩陣運(yùn)算的底層代碼),充分利用硬件資源,同時(shí)兼顧其內(nèi)存結(jié)構(gòu)、流水線(pipeline,指令執(zhí)行順序)和向量化能力。

af47ab06-71c1-11f0-9080-92fbcf53809c.png

圖 1-right 給出了我們提出的內(nèi)核的偽代碼:

  • 首先,將 fp32(32 位浮點(diǎn))輸入(向量或瘦矩陣)量化為 int8(8 位整數(shù));
  • 接著,執(zhí)行兩層嵌套循環(huán)以完成 GEMV(General Matrix-Vector multiplication,通用矩陣-向量乘法)操作,其中外層循環(huán)按步長(zhǎng) 2 遍歷輸入矩陣 A 的行,內(nèi)層循環(huán)按步長(zhǎng) 32 遍歷其列。
  • 列循環(huán)結(jié)束后,進(jìn)行反量化(de-quantization,把整數(shù)還原回浮點(diǎn)數(shù)),結(jié)合 A 塊和 B 的縮放因子(scale factors)以生成輸出的 fp32 值。

這一新內(nèi)核既利用了平臺(tái)的向量單元,又優(yōu)化了數(shù)據(jù)局部性(data locality,數(shù)據(jù)盡量靠近計(jì)算單元,減少訪存延遲)。

2.2 編譯器工具鏈

選擇合適的編譯工具鏈,支持先進(jìn)的優(yōu)化 Pass(optimization passes,編譯器內(nèi)部對(duì)代碼進(jìn)行變換以提升性能的階段)并能利用現(xiàn)有 ISA 擴(kuò)展。

我們的場(chǎng)景下,內(nèi)核使用 Xuantie 分支的 GCC 10.4 編譯,因?yàn)?strong>只有該版本支持 Sophon SG2042 的硬件向量單元。而對(duì)于整個(gè) llama.cpp 框架,我們考慮兩種替代方案:GCC 13.2 和 Clang 19(Xuantie GCC 10.4 與最新版 llama.cpp 不兼容)。

2.3 模型映射優(yōu)化

優(yōu)化模型映射(model mapping,即把模型權(quán)重和計(jì)算任務(wù)分配到硬件上的過(guò)程),特別是頁(yè)面/線程分配,解決這類系統(tǒng)復(fù)雜的內(nèi)存層級(jí)結(jié)構(gòu)。具體而言,我們針對(duì)非一致內(nèi)存訪問(wèn)(NUMA,Non-uniform Memory Access,指多路服務(wù)器中 CPU 訪問(wèn)遠(yuǎn)/近內(nèi)存速度不同的架構(gòu))延遲,探索了不同 numactl 選項(xiàng)組合的 4 種策略

  • NUMA Balancing 開(kāi)啟,其余選項(xiàng)關(guān)閉;
  • 所有選項(xiàng)關(guān)閉;
  • Balancing 關(guān)閉 + Core Binding(核心綁定)開(kāi)啟;
  • Balancing 關(guān)閉 + Memory Interleaving(內(nèi)存交錯(cuò))開(kāi)啟。

我們將上述優(yōu)化應(yīng)用于 llama.cpp [7] 框架,并在 3 個(gè)規(guī)模遞增的開(kāi)源 LLM 上進(jìn)行測(cè)試,均采用 Q4_0 量化(vanilla Llama 7B,DeepSeek R1 Distill Llama 8B,DeepSeek R1 Distill QWEN 14B,分別簡(jiǎn)稱 7B、8B 和 14B)。

三、實(shí)驗(yàn)結(jié)果與分析

為展示優(yōu)化效果,我們用用戶提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”(共 22 個(gè) token)對(duì)三款 LLM 執(zhí)行了預(yù)填充(prefill),同時(shí)對(duì) token 生成性能取 256 個(gè)測(cè)試生成 token 的平均值。

Kernel Scaling

圖 2 給出了多個(gè)基線內(nèi)核(llama.cpp 自帶的 GGML 與 OpenBLAS 默認(rèn)實(shí)現(xiàn))與我們所提出內(nèi)核的單線程可擴(kuò)展性對(duì)比。

af6e59cc-71c1-11f0-9080-92fbcf53809c.png

與最佳基線相比,我們平均將 GOPS(Giga Operations Per Second,十億次運(yùn)算每秒)提升 38.3%,在矩陣規(guī)模為 4096 時(shí)峰值提升達(dá) 56.3%。

不同編譯器影響

圖 3 評(píng)估了使用 Clang 或 GCC 編譯時(shí) DeepSeek 8B 模型的推理性能,均使用我們提出的內(nèi)核。

af84f5f6-71c1-11f0-9080-92fbcf53809c.png

Clang 19 持續(xù)優(yōu)于 GCC 13.2,在 token 生成上平均性能提升 34%,在預(yù)填充上提升 25%。關(guān)鍵原因在于 Clang 對(duì) ISA 擴(kuò)展的支持以及更先進(jìn)的編譯優(yōu)化(例如更激進(jìn)的內(nèi)聯(lián)和循環(huán)展開(kāi))。無(wú)論使用哪種編譯器,當(dāng)線程數(shù)超過(guò) 32 時(shí)都會(huì)出現(xiàn)性能下降。該行為歸因于默認(rèn)的 NUMA balancing 策略,它對(duì) LLM 推理這種可預(yù)測(cè)負(fù)載并不理想,導(dǎo)致大量線程與內(nèi)存頁(yè)遷移。

NUMA 策略影響

事實(shí)上,在關(guān)閉 NUMA balancing 并開(kāi)啟內(nèi)存交錯(cuò)后,如預(yù)期所示,我們?cè)?64 線程下取得了 token 生成 4.32 token/s 與預(yù)填充 6.54 token/s 的最佳結(jié)果,這得益于內(nèi)存頁(yè)遷移的大幅減少。

af9b8500-71c1-11f0-9080-92fbcf53809c.png

性能小結(jié)

得益于我們的優(yōu)化,7B、8B 和 14B 這三款 LLM分別達(dá)到了 13.07 / 6.54 / 3.68 token/s 的最大吞吐,相比基線 llama.cpp 最高提升 5.5× / 2.9× / 3×。

  • 與 SG2042 上已報(bào)道的最佳結(jié)果 [8] 相比,我們?cè)?span style="color:rgb(122,79,214);">Llama 7B 上的峰值吞吐提升 1.65×。
  • 與類似且更成熟的 x86 平臺(tái)——64 核 AMD EPYC 7742——相比,我們將能效提升 1.2×(55 token/s/mW 對(duì) 45 token/s/mW)。

參考文獻(xiàn)

afb6b1c2-71c1-11f0-9080-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11187

    瀏覽量

    221287
  • RISC-V
    +關(guān)注

    關(guān)注

    47

    文章

    2698

    瀏覽量

    50846
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RISC-V HPC新標(biāo)桿Sophon SG2044深度評(píng)估:支持RVV v1.0適配GCC 15.2,多核性能潛力巨大!

    RISC-V架構(gòu)的普及浪潮中,嵌入式領(lǐng)域的成功早已眾人皆知,但高性能計(jì)算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現(xiàn)打破了僵局。國(guó)際權(quán)威技術(shù)媒體發(fā)布的深度評(píng)測(cè)《IsRISC-VreadyforHighPerformanceComputing?
    的頭像 發(fā)表于 10-16 13:23 ?83次閱讀
    <b class='flag-5'>RISC-V</b> HPC新標(biāo)桿<b class='flag-5'>Sophon</b> <b class='flag-5'>SG</b>2044深度評(píng)估:支持RVV <b class='flag-5'>v</b>1.0適配GCC 15.2,多核性能潛力巨大!

    “核心技術(shù)突破+關(guān)鍵應(yīng)用支撐”,賽昉加速RISC-V生態(tài)突圍

    核心技術(shù)護(hù)城河1.首款適配RISC-V核的國(guó)產(chǎn)一致性NoCIP——StarNoC-700高性能計(jì)算分論壇,賽昉科技IP產(chǎn)品線總經(jīng)理周杰宣布,公司自主研發(fā)的大規(guī)模一
    的頭像 發(fā)表于 07-19 17:03 ?940次閱讀
    “核心技術(shù)突破+關(guān)鍵應(yīng)用支撐”,賽昉<b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b>生態(tài)突圍

    英偉達(dá):CUDA 已經(jīng)開(kāi)始移植到 RISC-V 架構(gòu)

    7 月 17 日,第五屆(2025)RISC-V 中國(guó)峰會(huì)主論壇,英偉達(dá)副總裁 Frans Sijstermanns 分享了題為《英偉達(dá)計(jì)算平臺(tái)實(shí)現(xiàn)
    發(fā)表于 07-17 16:30 ?3769次閱讀

    RISC-V 的平臺(tái)思維和生態(tài)思維

    Doorn 認(rèn)為,RISC-V 擴(kuò)展要擁抱 “平臺(tái)思維” 和 “生態(tài)思維”。 ? 7 月 17 日舉辦的第五屆(2025)RISC-V 中國(guó)峰會(huì)主論壇,Leendert van
    發(fā)表于 07-17 14:04 ?4036次閱讀

    RISC-V International CEO:RISC-V 應(yīng)用全面開(kāi)花,2031 年滲透率將達(dá) 25.7%

    7 月 16 日~19 日,第五屆(2025)RISC-V 中國(guó)峰會(huì)在上海張江科學(xué)會(huì)堂拉開(kāi)帷幕。峰會(huì)設(shè)置 1 場(chǎng)主論壇、8 大垂直領(lǐng)域分論壇、多場(chǎng)研習(xí)會(huì)及多項(xiàng)同期活動(dòng)。 7 月 17 日的主論壇
    發(fā)表于 07-17 10:28 ?3470次閱讀
    <b class='flag-5'>RISC-V</b> International CEO:<b class='flag-5'>RISC-V</b> 應(yīng)用全面開(kāi)花,2031 年滲透率將達(dá) 25.7%

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?1434次閱讀

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開(kāi)源六軸機(jī)械臂產(chǎn)品

    、lightrack)等模型。倉(cāng)庫(kù)將持續(xù)更新支持最前沿的模型應(yīng)用,滿足各種復(fù)雜 AI任務(wù)。 AI智慧零售套件 通過(guò)CPU融合AI的創(chuàng)新設(shè)計(jì),“myCobot 280 RISC-V”首次將大模型推理與機(jī)械臂控制
    發(fā)表于 04-25 17:59

    首款RISC-V架構(gòu)服務(wù)器,助力行業(yè)精準(zhǔn)適配AI場(chǎng)景

    RISC-V融合服務(wù)器RS-SRM120為2U雙路異構(gòu)服務(wù)器產(chǎn)品,搭載雙RISC-V指令集64核處理器SG2042,通過(guò)高效的雙芯互聯(lián)架構(gòu),提供強(qiáng)大的智算能力。支持CV模型、LLM等多
    的頭像 發(fā)表于 02-28 16:34 ?1264次閱讀
    首款<b class='flag-5'>RISC-V</b>架構(gòu)服務(wù)器,助力行業(yè)精準(zhǔn)適配AI場(chǎng)景

    進(jìn)迭時(shí)空完成A+輪數(shù)億元融資 加速RISC-V AI CPU產(chǎn)品迭代

    及生態(tài)建設(shè)。成立至今三年的快速發(fā)展中,進(jìn)迭時(shí)空布局了RISC-V高性能CPU核、AI-CPU核、AICPU芯片、系統(tǒng)軟件等全棧計(jì)算技術(shù),形成了軟硬全棧的計(jì)算系統(tǒng)解決方案
    的頭像 發(fā)表于 02-18 14:22 ?891次閱讀
    進(jìn)迭時(shí)空完成A+輪數(shù)億元融資 <b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b> AI <b class='flag-5'>CPU</b>產(chǎn)品迭代

    關(guān)于RISC-V芯片的應(yīng)用學(xué)習(xí)總結(jié)

    RISC-V芯片作為一種基于精簡(jiǎn)指令集計(jì)算(RISC)原則的開(kāi)源指令集架構(gòu)(ISA)芯片,近年來(lái)多個(gè)領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用潛力和顯著優(yōu)勢(shì)。以下是對(duì)RISC-V芯片應(yīng)用的總結(jié)。
    發(fā)表于 01-29 08:38

    RISC-V MCU技術(shù)

    GD32VF103系列的MCU,是兆易創(chuàng)新出的,用了基于RISC-V的Bumblebee處理器內(nèi)核,主要是給物聯(lián)網(wǎng)還有其他超低功耗的場(chǎng)景用的。這個(gè)系列MCU運(yùn)算主頻能到108MHz,片閃存從16KB到
    發(fā)表于 01-19 11:50

    關(guān)于RISC-V學(xué)習(xí)路線圖推薦

    和穩(wěn)定性。 五、RISC-V高級(jí)應(yīng)用 操作系統(tǒng)移植 : 了解如何將操作系統(tǒng)(如Linux、FreeRTOS等)移植到RISC-V架構(gòu)。 硬件加速與優(yōu)化 : 學(xué)習(xí)如何利用
    發(fā)表于 11-30 15:21

    RISC-V能否復(fù)制Linux 的成功?》

    型的內(nèi)核、加速器以及所需的各種模塊匯集在一起。”他表示,“RISC-V ISA在此發(fā)揮了關(guān)鍵作用,它開(kāi)拓了一個(gè)創(chuàng)新的領(lǐng)域”。任何人只需下載ISA規(guī)范就可以設(shè)計(jì)中使用內(nèi)核,而無(wú)需與任何人簽署協(xié)議。從這
    發(fā)表于 11-26 20:20

    算能 SG2042 / Milk-V Pioneer 的含金量還在不斷提升:RISC-V 生態(tài)逐步完善,玩大型游戲已經(jīng)不遠(yuǎn)了!

    SG2042高性能RISC-V處理器的臺(tái)式機(jī)Milk-VPioneer上成功玩了一把并錄制了一段視頻,可以看到即使最為入門級(jí)的AMDRX580系列顯卡,游戲過(guò)程也非常流暢。
    的頭像 發(fā)表于 11-01 08:10 ?1145次閱讀
    算能 <b class='flag-5'>SG2042</b> / Milk-<b class='flag-5'>V</b> Pioneer 的含金量還在不斷提升:<b class='flag-5'>RISC-V</b> 生態(tài)逐步完善,玩大型游戲已經(jīng)不遠(yuǎn)了!

    RISC-V,即將進(jìn)入應(yīng)用的爆發(fā)期

    計(jì)算機(jī)由控制整體的CPU(中央處理器)和加速器兩部分構(gòu)成。AI計(jì)算中,功耗和效率是兩個(gè)關(guān)鍵因素。RISC-V架構(gòu)通過(guò)其簡(jiǎn)潔的設(shè)計(jì)和定制化的擴(kuò)展,可以實(shí)現(xiàn)高效的能量使用。該架構(gòu)能夠通過(guò)
    發(fā)表于 10-31 16:06