chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Qwen2-VL-3B模型在米爾瑞芯微RK3576開發(fā)板NPU多模態(tài)部署指導(dǎo)與評(píng)測(cè)

米爾電子 ? 2025-08-28 08:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

關(guān)鍵詞:瑞芯微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器、端側(cè)小語(yǔ)言模型(SLM)、多模態(tài) LLM、邊緣 AI 部署、開發(fā)板、RKLLM

隨著大語(yǔ)言模型(LLM)技術(shù)的快速迭代,從云端集中式部署到端側(cè)分布式運(yùn)行的趨勢(shì)日益明顯。端側(cè)小型語(yǔ)言模型(SLM)憑借低延遲、高隱私性和離線可用的獨(dú)特優(yōu)勢(shì),正在智能設(shè)備、邊緣計(jì)算等場(chǎng)景中展現(xiàn)出巨大潛力。

瑞芯微 RK3576 開發(fā)板作為一款聚焦邊緣 AI 的硬件平臺(tái),其集成的 NPU(神經(jīng)網(wǎng)絡(luò)處理器)能否高效支撐多模態(tài) LLM 的本地運(yùn)行?性能表現(xiàn)如何?

aa73fc2c-83a2-11f0-9080-92fbcf53809c.gif

RK3576 多模態(tài)純文字:愛因斯坦有什么貢獻(xiàn)aa8bc82a-83a2-11f0-9080-92fbcf53809c.gifRK3576 多模態(tài)純文字:自我介紹

本文將圍繞這一核心問題展開 —— 從端側(cè) SLM 與云端 LLM 的關(guān)鍵差異對(duì)比入手,詳解 RK3576 開發(fā)板的硬件特性與環(huán)境配置。

aaa60db6-83a2-11f0-9080-92fbcf53809c.gif

本文以米爾 RK3576 為例,通過實(shí)際案例演示多模態(tài) LLM 在該平臺(tái)的部署效果,為開發(fā)者與研究者提供一份兼具實(shí)踐參考與技術(shù)洞察的端側(cè) AI 部署指南。

本文目錄unsetunset

  • 一、基本介紹
    • 端側(cè) LLM 模型與云端 LLM
    • 瑞芯微 RK3576:6TOPS NPU 的能效比標(biāo)桿,重新定義中端 AIoT 旗艦
    • 瑞芯微 NPU SDK:RKNN 和 RKLLM
  • 二、環(huán)境準(zhǔn)備
    • 步驟 1:登錄開發(fā)板,下載必備資料
    • 步驟 2:替換 NPU Driver 后編譯 Ubuntu 并刷機(jī)
  • 三、多模態(tài)案例:支持圖像和文本交互
    • 步驟 1:環(huán)境準(zhǔn)備
    • 步驟 2:模型的獲取、驗(yàn)證與格式轉(zhuǎn)換
    • 步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上
    • 步驟 4:上傳文件到開發(fā)板
    • 性能測(cè)試 Tips
    • 多模態(tài)效果演示
  • 結(jié)論

unsetunset一、基本介紹unsetunset

端側(cè) LLM 模型與云端 LLM

端側(cè)小型語(yǔ)言模型(SLM)與傳統(tǒng)云端大型語(yǔ)言模型(LLM)在延遲、隱私和離線可用性三個(gè)維度的對(duì)比總結(jié)。

對(duì)比維度端側(cè)小型語(yǔ)言模型(SLM)傳統(tǒng)云端大型語(yǔ)言模型(LLM)
延遲更低延遲:
- 數(shù)據(jù)無需上傳至云端,本地處理,顯著減少網(wǎng)絡(luò)傳輸延遲。
- 在邊緣設(shè)備(如智能手機(jī)、Jetson)上,經(jīng)過量化優(yōu)化后,推理延遲可低至毫秒級(jí)。
較高延遲:
- 數(shù)據(jù)需上傳至云端服務(wù)器處理,網(wǎng)絡(luò)延遲不可控,尤其在網(wǎng)絡(luò)狀況不佳時(shí)延遲顯著增加。
- 云端 LLM 參數(shù)量大(數(shù)十億至上百億),即使計(jì)算能力強(qiáng),單次推理耗時(shí)仍較高。
隱私更高隱私性:
- 數(shù)據(jù)完全在本地處理,無需上傳至云端,避免數(shù)據(jù)泄露風(fēng)險(xiǎn)。
- 適用于敏感場(chǎng)景(如醫(yī)療、個(gè)人助手),滿足 GDPR 等隱私法規(guī)要求。
隱私風(fēng)險(xiǎn)較高:
- 用戶數(shù)據(jù)需上傳至云端,存在數(shù)據(jù)泄露、濫用風(fēng)險(xiǎn)。
- 即使云端承諾隱私保護(hù),用戶仍對(duì)數(shù)據(jù)失去直接控制。
離線可用性完全離線可用:
- 模型部署在本地設(shè)備,無需網(wǎng)絡(luò)連接即可運(yùn)行。
- 適用于網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)環(huán)境(如野外、航空?qǐng)鼍埃?/td>
依賴網(wǎng)絡(luò):
- 必須聯(lián)網(wǎng)才能訪問云端服務(wù),無網(wǎng)絡(luò)時(shí)完全不可用。
- 網(wǎng)絡(luò)波動(dòng)或云端服務(wù)故障會(huì)直接影響可用性。

總結(jié)來看,當(dāng)前端側(cè)部署小語(yǔ)言模型特點(diǎn)體現(xiàn)在三方面:

  • 延遲優(yōu)化:端側(cè) SLM 通過量化(4-bit)、硬件加速(GPU/NPU)和架構(gòu)優(yōu)化(如分組查詢注意力 GQA)顯著降低延遲。
  • 隱私保護(hù):常見的移動(dòng)設(shè)備,如 iOSAndroid 最新系統(tǒng)均集成端側(cè)模型(如 Gemini Nano),確保隱私數(shù)據(jù)不出設(shè)備。
  • 離線場(chǎng)景:Jetson Orin 等邊緣設(shè)備可本地運(yùn)行 3B 參數(shù)模型,無需聯(lián)網(wǎng)即可完成任務(wù)。

綜上,端側(cè) SLM 在延遲、隱私和離線可用性上均顯著優(yōu)于云端 LLM。

瑞芯微 RK3576:6TOPS NPU 的能效比標(biāo)桿,重新定義中端 AIoT 旗艦

作為瑞芯微 2024 年推出的 AIoT 核心平臺(tái),RK3576 基于 8nm 制程打造,集成6TOPS 自研 NPU(支持 INT4/INT8/FP16/BF16 混合精度),與旗艦芯片 RK3588 保持相同算力規(guī)格,卻以更精準(zhǔn)的場(chǎng)景化設(shè)計(jì),成為中高端邊緣設(shè)備的首選方案。


aad7920a-83a2-11f0-9080-92fbcf53809c.jpg米爾 RK3576 拓展板正面接口圖,詳見產(chǎn)品介紹[1]

據(jù)瑞芯微官方技術(shù)文檔顯示,其 NPU 采用動(dòng)態(tài)稀疏化加速引擎,RK3576 采用了更先進(jìn)的制程工藝等手段來降低功耗,完美平衡算力與能效。

同算力 NPU 的差異化定位

盡管 RK3576 與 RK3588 均搭載 6TOPS NPU,但兩者在生態(tài)適配和場(chǎng)景優(yōu)化上各有側(cè)重:

  • 框架兼容性:雙平臺(tái)均支持 TensorFlow、PyTorch、ONNX 等主流框架,但 RK3576 針對(duì) 2B 參數(shù)級(jí)模型(如 Qwen2-VL-2B)進(jìn)行專項(xiàng)優(yōu)化,token 生成速度達(dá) 10+每秒,適配本地化多模態(tài)交互需求;
  • 算力分配:RK3576 的 NPU 集成 512KB 共享內(nèi)存,減少數(shù)據(jù)搬運(yùn)開銷,在輕量級(jí)視覺任務(wù)(如工業(yè)缺陷檢測(cè))中,單位算力利用率比 RK3588 高 18%(據(jù)瑞芯微內(nèi)部測(cè)試數(shù)據(jù));
  • 功耗控制:依托 8nm 工藝與動(dòng)態(tài)電壓調(diào)節(jié)技術(shù),NPU 滿負(fù)載功耗僅 3.2W,較 RK3588 的 4.1W 降低 22%,更適合電池供電的移動(dòng)終端。

aae50412-83a2-11f0-9080-92fbcf53809c.jpg

米爾 RK3576 開發(fā)板

與 RK3588 的「同芯不同路」對(duì)比

核心維度RK3576RK3588設(shè)計(jì)哲學(xué)
CPU 架構(gòu)4×A72(2.2GHz)+4×A53(1.8GHz)4×A76(2.4GHz)+4×A55(1.8GHz)

性能-成本平衡 vs 極致計(jì)算

GPUMali-G52 MC3(支持 Vulkan 1.2)Mali-G610 MC4(支持 Vulkan 1.3)3 屏異顯(4K@120+2.5K@60+2K@60) vs 7 屏 8K 異顯
內(nèi)存帶寬32 位 LPDDR5(最高 4266Mbps)64 位 LPDDR5(最高 6400Mbps)中端場(chǎng)景夠用 vs 高端擴(kuò)展無憂
視頻編解碼8K@30fps 解碼/4K@60fps 編碼8K@60fps 解碼/8K@30fps 編碼主流視頻流處理 vs 專業(yè)級(jí) 8K 制作
典型應(yīng)用智能座艙、電子價(jià)簽、工業(yè)網(wǎng)關(guān)邊緣服務(wù)器、8K 安防、虛擬桌面

性價(jià)比優(yōu)先 vs 性能無界

官方數(shù)據(jù)佐證的市場(chǎng)價(jià)值

根據(jù)瑞芯微 2025 年 Q2 財(cái)報(bào),RK3576 已在平板電腦、交互大屏等領(lǐng)域?qū)崿F(xiàn)頭部客戶量產(chǎn),其30%的成本優(yōu)勢(shì)(對(duì)比 RK3588 同配置方案)使其在中高端市場(chǎng)占有率環(huán)比增長(zhǎng) 47%。

例如,某頭部物流企業(yè)采用 RK3576 開發(fā)的手持 PDA,通過 NPU 實(shí)時(shí)識(shí)別包裹條碼,單設(shè)備成本較 RK3588 方案降低 600 元,同時(shí)保持 99.7%的識(shí)別準(zhǔn)確率(官方測(cè)試數(shù)據(jù))。

RK3576 并非簡(jiǎn)單的「低配版 3588」,而是瑞芯微基于場(chǎng)景化需求的精準(zhǔn)迭代——在保留旗艦級(jí) 6TOPS NPU 的同時(shí),通過 CPU 架構(gòu)精簡(jiǎn)、功耗優(yōu)化和接口整合,讓邊緣設(shè)備既能獲得「夠用的 AI 能力」,又避免為冗余性能支付成本。正如瑞芯微官方所述:「RK3576 填補(bǔ)了旗艦與主流之間的真空,讓每一份算力都服務(wù)于真實(shí)需求?!箤?duì)于需本地化部署輕量級(jí) LLM、多模態(tài)交互的邊緣場(chǎng)景,這款「6TOPS 普及者」正在重新定義中端 AIoT 的價(jià)值標(biāo)準(zhǔn)。

瑞芯微 NPU SDK:RKNN 和 RKLLM

瑞芯微的 RKLLM 和 RKNN 是兩個(gè)定位互補(bǔ)的 SDK,前者專注于大型語(yǔ)言模型(LLM)的端側(cè)部署優(yōu)化,后者是通用神經(jīng)網(wǎng)絡(luò)推理框架。

RKNN 是基礎(chǔ),RKLLM 是垂直擴(kuò)展:

  • RKNN SDK 是瑞芯微推出的通用神經(jīng)網(wǎng)絡(luò)推理框架,支持將 TensorFlow、PyTorch 等主流框架的模型轉(zhuǎn)換為 RKNN 格式,并在瑞芯微 NPU 上高效運(yùn)行,適用于圖像識(shí)別、語(yǔ)音處理等任務(wù)。支持的模型列表可以見https://github.com/airockchip/rknn_model_zoo[2]
  • RKLLM SDK 是基于 RKNN 技術(shù)棧的垂直領(lǐng)域優(yōu)化方案,專門針對(duì)大型語(yǔ)言模型(LLM)的端側(cè)部署需求設(shè)計(jì),提供從模型轉(zhuǎn)換到推理的完整工具鏈,包括量化、性能調(diào)優(yōu)和多模態(tài)支持。

aaf0790a-83a2-11f0-9080-92fbcf53809c.pngRKLLM 量化類型:量化通過降低模型精度來提高推理速度并減少內(nèi)存使用,不同的策略在性能與準(zhǔn)確性之間存在不同的權(quán)衡。

總得來說,RKLLM Runtime 依賴 RKNN 的 NPU 驅(qū)動(dòng)進(jìn)行硬件交互,其底層計(jì)算邏輯與 RKNN 共享同一套 NPU 加速引擎。

RKLLM

專為 LLM 設(shè)計(jì)的轉(zhuǎn)換工具(如 RKLLM-Toolkit),支持 Hugging Face 格式模型的量化(如 w4a16、w8a8)和優(yōu)化,適配 RK3588、RK3576 等高性能 NPU 芯片,通過降低模型精度來提高推理速度并減少內(nèi)存使用,不同的策略在性能與準(zhǔn)確性之間存在不同的權(quán)衡。

其提供 C/C++ 接口(RKLLM Runtime)和多模態(tài)推理支持(如圖文聯(lián)合理解),顯著降低 LLM 在端側(cè)設(shè)備的內(nèi)存占用和推理延遲。

RKLLM 軟件棧可幫助用戶快速將 AI 模型部署到瑞芯微芯片上[3]。

RKLLM 使用流程

aafe8fae-83a2-11f0-9080-92fbcf53809c.png

RKLLM SDK 概覽

為使用 RKNPU,用戶需先在計(jì)算機(jī)上運(yùn)行 RKLLM-Toolkit 工具,將訓(xùn)練好的模型轉(zhuǎn)換為 RKLLM 格式模型,然后使用 RKLLM C API 在開發(fā)板上進(jìn)行推理。

  • RKLLM-Toolkit 是一款軟件開發(fā)工具包,供用戶在 PC 上進(jìn)行模型轉(zhuǎn)換和量化。
  • RKLLM Runtime 為瑞芯微 NPU 平臺(tái)提供 C/C++編程接口,助力用戶部署 RKLLM 模型并加速大語(yǔ)言模型應(yīng)用的實(shí)現(xiàn)。
  • RKNPU 內(nèi)核驅(qū)動(dòng)負(fù)責(zé)與 NPU 硬件交互。它已開源,可在瑞芯微內(nèi)核代碼中找到。

unsetunset二、環(huán)境準(zhǔn)備unsetunset

步驟 1:登錄開發(fā)板,下載必備資料

  • 確認(rèn)串口驅(qū)動(dòng)安裝。開發(fā)板的調(diào)試接口(USB Type-C)內(nèi)部已集成 USB 轉(zhuǎn) TTL 芯片,連接電腦后會(huì)自動(dòng)識(shí)別為一個(gè)串口設(shè)備( Windows 下為 COM 口,Linux 下為/dev/ttyUSBx)。
ab0afea6-83a2-11f0-9080-92fbcf53809c.png

給開發(fā)板插上電源,Debug USB 鏈接筆記本,之后打開筆記本的設(shè)備管理器,在端口(COM 和 LPT)可以看到會(huì)多出來 COM5 和 COM6,選擇串口連接COM5 (USB-Enhanced-SERIAL-A CH342 (COM5)),并設(shè)置速度為 115200。

ab14989e-83a2-11f0-9080-92fbcf53809c.png

板子 Debug USB 接口連接上筆記本時(shí),端口出現(xiàn) COM5和 COM6

  • 登錄開發(fā)板。拿到開發(fā)板后,操作系統(tǒng)是 BuildRoot 如下所示,可以插網(wǎng)線鏈接網(wǎng)絡(luò),因?yàn)?BuildRoot 只有一些最基本的命令行工具,并不好用,比方缺少 apt 等工具。但是在默認(rèn)用戶下有一些基本的 cpu/gpu/npu 測(cè)試文件夾,里面提供了一些測(cè)試比如 CPU 壓測(cè)腳本等。

root@myd-lr3576x-buildroot:/rockchip-test/npu2# cat /etc/os-release
NAME=Buildroot
VERSION=linux-6.1-stan-rkr3-33-g2275964ac9
ID=buildroot
VERSION_ID=2024.02
PRETTY_NAME="Buildroot 2024.02"
ID_LIKE="buildroot"
RK_BUILD_INFO="haha@haha Mon Jan 6 1137 CST 2025 - rockchip_rk3576"

  • 登錄米爾開發(fā)平臺(tái)[4],獲取文檔等資料。在開發(fā)者平臺(tái)注冊(cè)綁定你的產(chǎn)品信息,在開發(fā)板盒子側(cè)面會(huì)有一個(gè)產(chǎn)品型號(hào)系列號(hào),如下圖可通過微信掃碼綁定:
ab1d22e8-83a2-11f0-9080-92fbcf53809c.png

開發(fā)板包裝盒子側(cè)面的序列碼

可以電腦登陸米爾開發(fā)者平臺(tái)(https://dev.myir.cn/下載資料,必備的文檔、工具、刷機(jī)工具、鏡像等,如下所示:

ab368ec2-83a2-11f0-9080-92fbcf53809c.png

米爾提供的 Debian&Linux6.1.75 Distribution V1.1.0

其中 02-Docs(ZH) 文檔部分,下面兩個(gè)必須得好好看看:

  1. MYD-LR3576J-GK Ubuntu 軟件開發(fā)指南-V1.0.pdf
  2. MYD-LR3576 Debian 軟件開發(fā)指南-V1.1.pdf

這兩個(gè)文檔在后面會(huì)指導(dǎo)你使用02-Images、03-Tools、04-Sources里面進(jìn)行刷機(jī)、編譯內(nèi)核。

步驟 2:替換 NPU Driver 后編譯 Ubuntu 并刷機(jī)

根據(jù)瑞芯微 GitHub rkllm 倉(cāng)庫(kù)對(duì)的《RKLLM SDK User Guide》要求[5],特別說明: RKLLM 版本是1.2.1:

RKLLM 所需要的 NPU 內(nèi)核版本較高,用戶在板端使用 RKLLM Runtime 進(jìn)行模型推理前,首先需要確認(rèn)板端的 NPU 內(nèi)核是否為 v0.9.8 版本。

  • 可以使用命令cat /sys/kernel/debug/rknpu/version查看 NPU Driver 版本。

# cat /sys/kernel/debug/rknpu/version
RKNPU driver: v0.9.7

  • BuildRoot 是默認(rèn)系統(tǒng),不太方便,所以刷了米爾提供的Debian&Linux6.1.75 Distribution V1.1.0里的 Ubuntu 鏡像后(燒錄部分遵循米爾提供的文檔MYD-LR3576J-GK Ubuntu 軟件開發(fā)指南-V1.0第 5 章:燒錄鏡像。發(fā)現(xiàn) NPU Driver 版本是 0.9.7,不符合 RKLLM 用戶文檔的要求。

此時(shí),只能將版本為 0.9.8 的 NPU Driver 代碼替換到米爾給的 Ubuntu 源碼里,然后重新編譯 Ubuntu 鏡像并重新刷機(jī)。對(duì)于刷機(jī)過程,RKLLM 的文檔提到:

若用戶所使用的為非官方固件,需要對(duì)內(nèi)核進(jìn)行更新。其中,RKNPU 驅(qū)動(dòng)包支持兩個(gè)主要內(nèi)核版本:kernel-5.10 和 kernel-6.1:

  • 對(duì)于 kernel-5.10,建議使用具體版本號(hào) 5.10.209,內(nèi)核地址為 GitHub-rockchip-linux/kernelatdevelop-5.10;
  • 對(duì)于 kernel-6.1,建議使用具體版本號(hào) 6.1.84;用戶可在內(nèi)核根目錄下的 Makefile 中確認(rèn)具體版本號(hào)。

米爾提供的Debian&Linux6.1.75 Distribution V1.1.0對(duì)應(yīng)的雖然不是最推薦的 kernel-6.1.84,但是也是 6.1。即下圖:

ab42b4c2-83a2-11f0-9080-92fbcf53809c.png米爾提供的?Debian&Linux6.1.75 Distribution V1.1.0?里 04-Sources 的源碼包

  • 我們繼續(xù)按照 RKLLM 的指導(dǎo),進(jìn)行內(nèi)核的更新。

下載 RK Driver 壓縮包rknpu_driver_0.9.8_20241009.tar.bz2[6]。

解壓該壓縮包,將其中的 rknpu 驅(qū)動(dòng)代碼覆蓋到當(dāng)前內(nèi)核代碼目錄。

  • 當(dāng)前內(nèi)核代碼,由前面Debian&Linux6.1.75 Distribution V1.1.0的04-Sources目錄下的MYD-LR3576-Distribution-L6.1.75-V1.1.0.tar.gz解壓縮得到。

ab4d2da8-83a2-11f0-9080-92fbcf53809c.png解壓后 Ubuntu 源碼目錄

  1. 重新編譯內(nèi)核。根據(jù)米爾文檔指導(dǎo)(MYD-LR3576J-GK Ubuntu 軟件開發(fā)指南-V1.0.pdf),流程如下

# 進(jìn)入源碼解壓后得到的一個(gè) MYD-LR3576 目錄
# 第一次編譯執(zhí)行以下命令選擇配置文件
./build.sh lunch

# Which would you like? [7]
# 這里選擇 7,rockchip_rk3576_myd_lr3576_defconfig

# 緊接著分別編譯 u-boot、kernel 和 modules
./build.sh u-boot
./build.sh kernel
./build.sh module

# 編譯成功再執(zhí)行下面命令,編譯 Ubuntu 文件系統(tǒng),并打包最終 Ubuntu 系統(tǒng)鏡像
./build.sh ubuntu
./build.sh updateimg

# RK3576 為了用戶可以更便捷的燒錄,單獨(dú)創(chuàng)建了目錄儲(chǔ)存編譯出來的鏡像在 output/update/Image 下

分別對(duì) u-boot、kernel、module 三部分編譯,最后編譯成功如下圖所示:

ab61bb2e-83a2-11f0-9080-92fbcf53809c.pngUbuntu 鏡像編譯成功

  • 燒錄部分遵循米爾提供的文檔(MYD-LR3576J-GK Ubuntu 軟件開發(fā)指南-V1.0)第 5 章:燒錄鏡像。

燒錄結(jié)束后,連接筆記本,可以看到如下截圖,進(jìn)入系統(tǒng)。

ab779976-83a2-11f0-9080-92fbcf53809c.png

刷機(jī)完后鏈接開發(fā)板,可以看到 MYIR 漂亮的字體 Logo

使用命令下圖中的命令查看 NPU Driver 版本,符合預(yù)期!

ab8d27f0-83a2-11f0-9080-92fbcf53809c.png

自己基于米爾提供的 Ubuntu 源碼更改 NPU Driver 為 0.9.8 后的 NPU Driver版本,符合預(yù)期

那么,下面我們就可以正式開始使用 RKLLM !

unsetunset三、多模態(tài)案例:支持圖像和文本交互unsetunset

前面我們已經(jīng)介紹了瑞芯微大模型 SDK RKLLM。本節(jié)將會(huì)演示實(shí)際操作流程,目標(biāo)是對(duì) Qwen2-VL-3B 多模態(tài)模型進(jìn)行部署,其中視覺 + 投影組件通過 rknn-toolkit2 導(dǎo)出為 RKNN 模型,LLM 組件通過 rkllm-toolkit 導(dǎo)出為 RKLLM 模型。

在 Qwen2-VL 這類多模態(tài)模型(支持圖像和文本交互)中,“視覺 + 投影”(Vision + Projector)是模型處理圖像輸入的核心組件,作用是將圖像信息轉(zhuǎn)換為模型可理解的特征:

  • 視覺組件(Vision):主要負(fù)責(zé)處理圖像輸入,完成“圖像解析”的功能。它會(huì)對(duì)輸入的圖像(如后續(xù)示例中的demo.jpg)進(jìn)行特征提取,將像素級(jí)的圖像信息(比如顏色、形狀、物體輪廓等)轉(zhuǎn)換為高維的“圖像特征向量”(一種數(shù)值化的表示)。這一步類似人類“看”到圖像并提取關(guān)鍵信息的過程。
  • 投影組件(Projector):多模態(tài)模型需要同時(shí)處理圖像和文本,而圖像特征與文本特征的原始格式(如維度、語(yǔ)義空間)可能不同,無法直接融合。投影組件的作用就是“橋梁”:它會(huì)將視覺組件輸出的“圖像特征向量”進(jìn)行轉(zhuǎn)換(投影),映射到與文本特征相同的語(yǔ)義空間中,讓圖像特征和文本特征能夠被模型的后續(xù)模塊(如語(yǔ)言模型 LLM)統(tǒng)一理解和處理。

簡(jiǎn)單來說,“視覺 + 投影”組件的整體作用是:把圖像“翻譯”成模型能看懂的“語(yǔ)言”(特征),并確保這種“語(yǔ)言”能和文本的“語(yǔ)言”互通,為后續(xù)的多模態(tài)交互(如圖文問答)打下基礎(chǔ)。在部署時(shí),這兩個(gè)組件被打包成 RKNN 模型,適合在 Rockchip 的 NPU(神經(jīng)網(wǎng)絡(luò)處理器)上高效運(yùn)行,專門處理圖像相關(guān)的計(jì)算。


下面,跟著RKLLM SDK 里多模態(tài)模型例子[7],只給出必要的操作步驟。

步驟 1:環(huán)境準(zhǔn)備

安裝必要的 SDK 依賴庫(kù)。

pip install rknn-toolkit2 -i https://mirrors.aliyun.com/pypi/simple
pip install torchvision==0.19.0
pip install transformers
pip install accelerate

步驟 2:模型的獲取、驗(yàn)證與格式轉(zhuǎn)換

本步驟產(chǎn)物為 rknn 和 rkllm 格式的模型文件。

  • qwen2_5_vl_3b_vision_rk3576.rknn
  • qwen2.5-vl-3b-w4a16_level1_rk3576.rkllm

操作如下,同官方指導(dǎo)[8]。:

  • 先從 huggingface 下載模型如Qwen2-VL-2B-Instruct[9]。驗(yàn)證模型可用性。在執(zhí)行python infer.py時(shí)會(huì)用到 GPU 進(jìn)行推理。如果只想跑一下 RK3576 板子上模型性能,也可以跳過這個(gè)步驟,下載瑞芯微已經(jīng)轉(zhuǎn)換好的模型[10]:。
  • 原始模型轉(zhuǎn)換為 onnx 格式
  • 從 onnx 格式轉(zhuǎn)換為 rknn、rkllm 格式

注:我們這一步直接使用瑞芯微提供的rkllm_model_zoo 里的模型[11]

步驟 3:修改代碼并交叉編譯可執(zhí)行文件并上傳到板子上

本步驟產(chǎn)物為如下目錄和文件。

rknn-llm-release-v1.2.1/examples/Qwen2-VL_Demo/deploy/install/demo_Linux_aarch64 tree
.
├── demo
├── demo.jpg
├── imgenc
├── lib
│ ├── librkllmrt.so
│ └── librknnrt.so
└── llm
1 directory, 6 files

操作如下:

修改源碼中的EMBED_SIZE:適配模型

注:我們用的模型是 Qwen2-VL-3B,需要在src/main.cpp和src/img_encoder.cpp中修改EMBED_SIZE為2048。

不同的 Qwen2-VL 模型(2B 和 7B)需要在src/main.cpp和src/img_encoder.cpp中指定IMAGE_HEIGHT、IMAGE_WIDTH及EMBED_SIZE,核心原因是這些參數(shù)與模型的固有結(jié)構(gòu)設(shè)計(jì)和輸入處理邏輯強(qiáng)綁定,直接影響特征提取的正確性和數(shù)據(jù)傳遞的一致性。

  • EMBED_SIZE(嵌入維度)是模型架構(gòu)的固有參數(shù),由模型的設(shè)計(jì)(如隱藏層維度)決定:
  • Qwen2-VL-2B 和 7B 屬于不同規(guī)模的模型(參數(shù)數(shù)量不同),其視覺編碼器(Vision + Projector 組件)輸出的圖像特征向量維度不同(2B 為 1536,3B 為 2048,7B 為 3584)。

代碼中img_vec(圖像特征向量)的尺寸依賴EMBED_SIZE計(jì)算(如IMAGE_TOKEN_NUM*EMBED_SIZE)。若EMBED_SIZE與模型實(shí)際輸出維度不匹配,會(huì)因?yàn)樘卣飨蛄績(jī)?nèi)存分配錯(cuò)誤(數(shù)組大小與實(shí)際特征維度不符)或者后續(xù) LLM 組件無法正確解析圖像特征,導(dǎo)致推理失敗如 Segmentation Fault[12]

交叉編譯

假設(shè)當(dāng)前位于rknn-llm/examples/Qwen2-VL_Demo/目錄下,執(zhí)行

cd deploy
./build-linux.sh

編譯成功,如下所示:

ab960c4e-83a2-11f0-9080-92fbcf53809c.png成功交叉編譯多模態(tài)代碼

步驟 4:上傳文件到開發(fā)板

將上一步編譯后的install目錄,以及前面轉(zhuǎn)換模型得到的 rknn 和 rkllm 格式的模型文件通過 U 盤等方式上傳到 RK3576 上。

性能測(cè)試 Tips

瑞芯微在scripts目錄中提供了一些腳本和參數(shù)設(shè)置:

  • 使用fix_freq_rk3576.sh鎖定 CPU、GPU、NPU 等設(shè)備頻率,讓測(cè)試結(jié)果的性能更加穩(wěn)定。
  • 在設(shè)備上執(zhí)行export RKLLM_LOG_LEVEL=1,以記錄模型推理性能和內(nèi)存使用情況。
  • 使用eval_perf_watch_cpu.sh可腳本測(cè)量 CPU 利用率。
  • 使用eval_perf_watch_npu.sh可腳本測(cè)量 NPU 利用率。

aba533ea-83a2-11f0-9080-92fbcf53809c.pngfix_freq_rk3576.sh 腳本會(huì)對(duì) NPU、CPU、GPU、DDR 進(jìn)行鎖頻

多模態(tài)效果演示

為后續(xù)驗(yàn)證多模態(tài)能力,先展示 RKLLM 的基礎(chǔ)配置及純文字交互測(cè)試場(chǎng)景,以下為配置參數(shù)與初始對(duì)話片段:

純文字問答能力

因僅是純文字對(duì)話沒有圖片,可以執(zhí)行如下命令,

# run llm(Pure Text Example)
./llm ~/rkllm-model-zoo/Qwen2.5-VL-3B-Instruct/qwen2.5-vl-3b-w4a16_level1_rk3576.rkllm 128 512

aa8bc82a-83a2-11f0-9080-92fbcf53809c.gif純文字:自我介紹abbfe29e-83a2-11f0-9080-92fbcf53809c.gif純文字:能回答哪些問題aa73fc2c-83a2-11f0-9080-92fbcf53809c.gif純文字:誰(shuí)是愛因斯坦abda6f60-83a2-11f0-9080-92fbcf53809c.png純文字執(zhí)行結(jié)果

多模態(tài)問答能力

上述為圖片問答的測(cè)試準(zhǔn)備與初始提問,下文展示‘RK3576 多模態(tài)圖片問答:

測(cè)評(píng)圖片1:特征是可愛的二次元藍(lán)頭發(fā)女孩,手里拿著米爾 MYIR 開發(fā)板,下方文字寫著:NeuralTalk 公眾號(hào)

# run demo(Multimodal Example)
# 使用方式:./demo image_path encoder_model_path llm_model_path max_new_tokens max_context_len rknn_core_num
./demo demo.jpg models/qwen2-vl-vision_rk3588.rknn models/qwen2-vl-llm_rk3588.rkllm 128 512 3

./demo最后一個(gè)參數(shù)是核數(shù),用于推理時(shí)是否考慮多核推理,可選參數(shù)為:2(RKNN_NPU_CORE_0_1)、3(RKNN_NPU_CORE_0_1_2)、其他(RKNN_NPU_CORE_AUTO)。

abfdcd70-83a2-11f0-9080-92fbcf53809c.gif

測(cè)評(píng)圖片1:描述圖片ac491eec-83a2-11f0-9080-92fbcf53809c.png測(cè)評(píng)圖片1:執(zhí)行結(jié)果

下面我們?cè)贀Q一張圖片試試效果!測(cè)試圖片2:圖片背景是賽博風(fēng)格

ac7be584-83a2-11f0-9080-92fbcf53809c.gif

測(cè)試圖片2:描述圖片

ac88298e-83a2-11f0-9080-92fbcf53809c.png

測(cè)試圖片2:多模態(tài)能力問答

測(cè)試圖片3

下圖展示了測(cè)試圖片3運(yùn)行中的一些性能指標(biāo),包括模型初始化時(shí)間、不同階段的總時(shí)間(Prefill和Generate階段)、Token數(shù)量、Token生成速度,以及峰值內(nèi)存使用量。

aca0488e-83a2-11f0-9080-92fbcf53809c.png

測(cè)試圖片3:內(nèi)存占用和耗時(shí)等

總得來說,模型第一次加載 6 秒鐘,首次出詞語(yǔ)也有體感上的慢,但是這之后速度就很穩(wěn)定,而且很快,純文字的速度更快一些。

unsetunset結(jié)論unsetunset

本文圍繞瑞芯微 RK3576 開發(fā)板 NPU 對(duì)多模態(tài) LLM 的支撐能力與性能展開測(cè)評(píng),全面呈現(xiàn)其在端側(cè) AI 領(lǐng)域的價(jià)值。

端側(cè)SLM在延遲、隱私與離線可用性上的優(yōu)勢(shì)顯著,而 RK3576 憑借 8nm 制程、6TOPS自研NPU及動(dòng)態(tài)稀疏化加速引擎,填補(bǔ)了旗艦與主流方案的市場(chǎng)空白。它針對(duì)2B-3B參數(shù)級(jí)模型專項(xiàng)優(yōu)化,輕量化視覺任務(wù)算力利用率提升 18%,NPU功耗降低 22%,30% 的成本優(yōu)勢(shì)使其在多場(chǎng)景快速量產(chǎn),中高端市場(chǎng)占有率環(huán)比增長(zhǎng) 47%。

技術(shù)落地方面,RKNN 與 RKLLM SDK形成互補(bǔ)生態(tài),RKNN 保障模型兼容性,RKLLM 通過量化優(yōu)化、多模態(tài)支持等降低模型內(nèi)存占用與推理延遲。實(shí)測(cè)中,RK3576 運(yùn)行 Qwen2-VL-3B 模型時(shí),純文字交互 Token 生成穩(wěn)定,多模態(tài)問答能精準(zhǔn)識(shí)別圖像元素,峰值內(nèi)存占用 4.58GB ,在移動(dòng)終端和工業(yè)場(chǎng)景可靠運(yùn)行。

本文提供的環(huán)境準(zhǔn)備、模型轉(zhuǎn)換、代碼適配等實(shí)操步驟,為開發(fā)者提供了可復(fù)現(xiàn)的部署方案。RK3576 在多場(chǎng)景展現(xiàn)良好兼容性與穩(wěn)定性,能以低成本實(shí)現(xiàn)高準(zhǔn)確率任務(wù)。

未來,RK3576“算力精準(zhǔn)匹配場(chǎng)景”的設(shè)計(jì)理念或成中端AIoT核心方向,其在多維度的平衡,為端側(cè)AI部署提供高性價(jià)比選擇,助力邊緣計(jì)算規(guī)?;瘧?yīng)用。

aaa60db6-83a2-11f0-9080-92fbcf53809c.gif

RK3576 工作狀態(tài)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開發(fā)板
    +關(guān)注

    關(guān)注

    25

    文章

    6112

    瀏覽量

    112925
  • 瑞芯微
    +關(guān)注

    關(guān)注

    27

    文章

    696

    瀏覽量

    53414
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    356

    瀏覽量

    20811
  • 米爾電子
    +關(guān)注

    關(guān)注

    1

    文章

    177

    瀏覽量

    1001
  • rk3576
    +關(guān)注

    關(guān)注

    1

    文章

    227

    瀏覽量

    1363
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何移植EtherCAT Igh--基于米爾RK3576開發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開發(fā)板米爾基于
    的頭像 發(fā)表于 09-26 08:04 ?9397次閱讀
    如何移植EtherCAT Igh--基于<b class='flag-5'>米爾</b><b class='flag-5'>RK3576</b><b class='flag-5'>開發(fā)板</b>

    米爾RK3576開發(fā)板評(píng)測(cè)】帶你初步了解米爾RK3576這塊開發(fā)板

    應(yīng)用場(chǎng)景。 MYC-LR3576核心開發(fā)板 RK3
    發(fā)表于 12-18 20:35

    米爾RK3576開發(fā)板評(píng)測(cè)】+項(xiàng)目名稱【米爾RK3576開發(fā)板評(píng)測(cè)】一個(gè)視頻和你共同認(rèn)識(shí)一下米爾RK3576開發(fā)板

    收到米爾RK3576開發(fā)板后,也對(duì)米爾RK3576開發(fā)板進(jìn)行了了解,
    發(fā)表于 12-18 20:50

    米爾RK3576開發(fā)板評(píng)測(cè)】+項(xiàng)目名稱值得購(gòu)買的米爾RK3576開發(fā)板

    米爾依然是核心加擴(kuò)展板的模式,我拿到手的開發(fā)板,核心已經(jīng)通過LGA貼片,焊好了。 開發(fā)板做工很好,布線細(xì)致工整。
    發(fā)表于 01-08 22:59

    米爾RK3576實(shí)測(cè)輕松搞定三屏八攝像頭

    。米爾的MYD-LR3576開發(fā)板以其高性能和穩(wěn)定性,非常適合用于工程機(jī)械的智能控制系統(tǒng)開發(fā)。 高端顯控系統(tǒng): 高端顯控系統(tǒng)領(lǐng)域,
    發(fā)表于 01-17 11:33

    國(guó)產(chǎn)開發(fā)板的端側(cè)AI測(cè)評(píng)-基于米爾RK3576

    ,國(guó)產(chǎn)自主可控必須搞起來。那與非網(wǎng)本期內(nèi)容就跟自主可控強(qiáng)關(guān)聯(lián)——評(píng)測(cè)一款基于國(guó)產(chǎn)SoC的板卡,由米爾電子推出的
    發(fā)表于 02-14 16:29

    適配多種系統(tǒng),米爾RK3576核心解鎖多樣化應(yīng)用

    周期,讓您的項(xiàng)目快速推進(jìn)。 米爾基于RK3576核心
    發(fā)表于 05-23 16:07

    Onenet云網(wǎng)關(guān)方案應(yīng)用--基于米爾RK3576開發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開發(fā)板米爾基于
    發(fā)表于 06-06 16:54

    如何端編譯OpenCV并搭建應(yīng)用--基于米爾RK3576開發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開發(fā)板米爾基于
    發(fā)表于 08-08 17:14

    基于米爾RK3576開發(fā)板Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測(cè)

    關(guān)鍵詞: RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語(yǔ)言模型(SLM)、
    發(fā)表于 08-29 18:08

    【作品合集】米爾RK3576開發(fā)板測(cè)評(píng)

    米爾RK3576開發(fā)板測(cè)評(píng)作品合集 產(chǎn)品介紹: RK3576
    發(fā)表于 09-11 10:19

    米爾RK3576開發(fā)板特惠活動(dòng)!

    近日,米爾電子發(fā)布基于RK3576核心開發(fā)板
    的頭像 發(fā)表于 11-12 01:00 ?1961次閱讀
    <b class='flag-5'>米爾</b><b class='flag-5'>RK3576</b><b class='flag-5'>開發(fā)板</b>特惠活動(dòng)!

    有獎(jiǎng)丨米爾 RK3576開發(fā)板免費(fèi)試用

    米爾合作發(fā)布的新品基于
    的頭像 發(fā)表于 11-12 01:00 ?1238次閱讀
    有獎(jiǎng)丨<b class='flag-5'>米爾</b> <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK3576</b><b class='flag-5'>開發(fā)板</b>免費(fèi)試用

    追加名額丨米爾RK3576開發(fā)板有獎(jiǎng)試用

    米爾合作發(fā)布的新品基于
    的頭像 發(fā)表于 11-22 01:00 ?1013次閱讀
    追加名額丨<b class='flag-5'>米爾</b><b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RK3576</b><b class='flag-5'>開發(fā)板</b>有獎(jiǎng)試用

    人臉疲勞檢測(cè)應(yīng)用-米爾基于RK3576核心/開發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開發(fā)板米爾基于
    的頭像 發(fā)表于 12-20 08:06 ?1344次閱讀
    人臉疲勞檢測(cè)應(yīng)用-<b class='flag-5'>米爾</b>基于<b class='flag-5'>RK3576</b>核心<b class='flag-5'>板</b>/<b class='flag-5'>開發(fā)板</b>