以下文章來源于OpenFPGA,作者碎碎思
一個(gè)將最小號(hào) DeepSeek 模型部署到 AMD Zynq UltraScale+ MPSoC 處理系統(tǒng)的項(xiàng)目。

1. 引言
如果你過去幾年沒注意人工智能的大趨勢(shì),那么你可能不知道大型語言模型(LLM)已在 AI 領(lǐng)域占據(jù)重要地位。
這些模型能夠理解人類的文本查詢,并生成文本回應(yīng)。之所以稱“大模型”,是因?yàn)樗鼈兺ǔT诖罅烤W(wǎng)頁、書籍、對(duì)話、代碼等數(shù)據(jù)上訓(xùn)練。
其本質(zhì)并非“真正的智能”,而是深度學(xué)習(xí)模型——基于復(fù)雜數(shù)學(xué)運(yùn)算(如線性代數(shù)、優(yōu)化算法)實(shí)現(xiàn)的預(yù)測(cè)機(jī)制。
常見的做法是:若希望獲得良好性能,通常依賴高性能的 GPU(例如 AMD Instinct GPU)進(jìn)行推理。
但在某些應(yīng)用場(chǎng)景,我們可能希望將 LLM 部署在 邊緣設(shè)備(edge device) 本地執(zhí)行。出于這個(gè)目的,本項(xiàng)目將在 ZUBoard(含 Arm Cortex-A53 內(nèi)核的 Zynq UltraScale+ MPSoC)上運(yùn)行一個(gè)較小的 DeepSeek 模型。
部署在邊緣設(shè)備的優(yōu)勢(shì)包括:
隱私:模型在本地運(yùn)行,無需上傳數(shù)據(jù)到云端。
離線訪問:不依賴寬帶或云服務(wù)。
成本:節(jié)省托管云推理的費(fèi)用。
但工程中必須在 隱私、成本、性能之間做權(quán)衡。
2. 什么是 DeepSeek
如果你還不熟悉 DeepSeek:這是一系列高性能的開放權(quán)重 LLM 和大規(guī)模多模態(tài)模型(LMM),用于推動(dòng)開放 AI 研究。
這些模型從零開始訓(xùn)練,使用了數(shù)萬億 tokens 的多語言網(wǎng)頁、學(xué)術(shù)文獻(xiàn)、代碼庫(kù)及精編數(shù)據(jù)集。
架構(gòu)上基于 Transformer,并加入了諸如:Grouped Query Attention (GQA)、SwiGLU 激活函數(shù)、多查詢注意力層,以提升推理效率。
模型尺寸可選范圍:1.5B、7B、13B 參數(shù)及以上,以便在資源使用與準(zhǔn)確度之間平衡。
DeepSeek-VL(視覺-語言版本)擴(kuò)展支持圖像數(shù)據(jù)與文本監(jiān)督,能夠進(jìn)行跨模態(tài)推理、視覺問答、圖片-文本生成。
其還提供量化版本(4 bit、8 bit)以適配邊緣設(shè)備與移動(dòng)部署。
在多個(gè)基準(zhǔn)上(如 MMLU、GSM8K、HumanEval、MMMU)表現(xiàn)出接近或達(dá)到最先進(jìn)水平,同時(shí)優(yōu)化 CPU/GPU 推理效率。
3. 在 Zynq UltraScale+ MPSoC 上開始
項(xiàng)目使用 PYNQ 平臺(tái)作為 DeepSeek 安裝基礎(chǔ)。
步驟如下:
從 PYNQ 官網(wǎng)下載適用于 Avnet ZUBoard 的鏡像,并將鏡像燒錄至 SD 卡。

將板上的啟動(dòng)開關(guān)設(shè)為 SD 卡啟動(dòng),插入 SD 卡,并通過 USB UART 與以太網(wǎng)將 ZUBoard 連接至主機(jī)。

啟動(dòng)后使用瀏覽器訪問 http://pynq:9090,密碼通常為 xilinx。

打開終端,準(zhǔn)備安裝 DeepSeek 模型。

4. 準(zhǔn)備工作
由于 ZUBoard 僅配備 1 GB 的 LPDDR4 內(nèi)存,需在 SD 卡上建立足夠的交換(swap)空間,以防止內(nèi)存耗盡導(dǎo)致系統(tǒng)崩潰。
具體命令示例:
swapon --show sudo swapoff /var/swap sudo rm /var/swap sudo chmod 600 /var/swap sudo mkswap /var/swap sudo swapon /var/swap
執(zhí)行完成后,通過 swapon --show 可確認(rèn)現(xiàn)在有約 4 GB 的 swap 空間。

5. 安裝 Ollama 與 DeepSeek
使用開源工具 Ollama 來運(yùn)行 LLM,本項(xiàng)目使用 Ollama 框架。
安裝命令示例:
curl -fsSL https://ollama.com/install.sh | sh
系統(tǒng)無 GPU,可忽略相應(yīng)警告。

在安裝成功后,下載 DeepSeek 1.5B 參數(shù)版本。示例命令:
mkdir deepseek exportHOME=/home/xilinx/deepseek ollama pull deepseek-r1:1.5b

6. 測(cè)試
在 ZUBoard 上運(yùn)行模型示例命令:
ollama run deepseek-r1:1.5b
系統(tǒng)將顯示提示符,等待你的輸入。

我做的第一件事就是詢問它關(guān)于模型的問題。

模型信息如下圖所示。

然后,像操作普通 LLM 一樣與該模型進(jìn)行交互。

可在另一個(gè)終端運(yùn)行 top 命令來觀察系統(tǒng)資源消耗。

需要注意:
參數(shù)較少(1.5B)意味著推理能力有限。
使用 swap 空間意味著性能會(huì)受到影響。
7. 總結(jié)
該項(xiàng)目展示了:即便沒有 GPU,也能在邊緣設(shè)備(如 ZYNQ)上部署 LLM。盡管性能受限,但具備“本地離線自動(dòng)推理”的能力,在特定應(yīng)用場(chǎng)景中極具價(jià)值。
-
amd
+關(guān)注
關(guān)注
25文章
5657瀏覽量
139134 -
模型
+關(guān)注
關(guān)注
1文章
3658瀏覽量
51804 -
Zynq
+關(guān)注
關(guān)注
10文章
627瀏覽量
49262 -
DeepSeek
+關(guān)注
關(guān)注
2文章
826瀏覽量
2858
原文標(biāo)題:邊緣 AI 新玩法:在 ZYNQ 本地部署 DeepSeek 模型
文章出處:【微信號(hào):HXSLH1010101010,微信公眾號(hào):FPGA技術(shù)江湖】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
本地部署openWebUI + ollama+DeepSeek 打造智能知識(shí)庫(kù)并實(shí)現(xiàn)遠(yuǎn)程訪問
添越智創(chuàng)基于 RK3588 開發(fā)板部署測(cè)試 DeepSeek 模型全攻略
RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南
【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】DeepSeek 部署及測(cè)試
DeepSeek-R1本地部署指南,開啟你的AI探索之旅
如何在MATLAB中使用DeepSeek模型
DeepSeek R1模型本地部署與產(chǎn)品接入實(shí)操

如何在ZYNQ本地部署DeepSeek模型
評(píng)論