RISC-V 跑大模型（二）：LLaMA零基礎(chǔ)移植教程

這是RISC-V跑大模型系列的第二篇文章，主要教大家如何將LLaMA移植到RISC-V環(huán)境里。

1. 環(huán)境準(zhǔn)備

1）最新版Python

2）確保機(jī)器有足夠的內(nèi)存加載完整模型（7B模型需要13~15G）

3）下載原版LLaMA模型和擴(kuò)展了的中文模型

LLaMA原版模型：

https://ipfs.io/ipfs/Qmb9y5GCkTG7ZzbBWMu2BXwMkzyCKcUj tEKPpgdZ7GEFKm/

2. 模型下載

從LLaMA原版模型地址上下載下述文件（我們使用的是7B）：

最后文件下載完成后的結(jié)果如下：

3. 加載并啟動

1）這一步需要下載llama.cpp，請輸入以下命令進(jìn)行下載和編譯：

git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make

2）將第二步下載的文件移到llama.cpp/models/下，使用命令：

python3 convert-pth-to-ggml.py models/7B/ 0

3）將.pth模型權(quán)重轉(zhuǎn)換為ggml的FP32格式，生成文件路徑為models/7B/ggml-model-f32.bin。

4）運行./main二進(jìn)制文件，-m命令指定Q4量化模型（也可加載ggml-FP16的模型）。以下是解碼參數(shù)：

./main models/7B/ggml-model-f32.bin --color -f prompts/alpaca.txt -ins -c 256 --temp 0.2 -n 128 --repeat_penalty 1.3

參數(shù)解釋：

-ins	啟動類ChatGPT對話交流的運行模式
-f	指定prompt模板，alpaca模型請加載prompts/alpaca.txt
-c	控制上下文的長度，值越大越能參考更長的對話歷史（默認(rèn)：512）
-n	控制回復(fù)生成的最大長度（默認(rèn)：128）
-t	控制batch size（默認(rèn)：8），可適當(dāng)增加
--repeat_penalty	控制線程數(shù)量（默認(rèn)：4），可適當(dāng)增加
--temp	控制線程數(shù)量（默認(rèn)：4），可適當(dāng)增加
--top_p, top_k	控制解碼采樣的相關(guān)數(shù)據(jù)

4.結(jié)束

本篇教程到這里就結(jié)束了。是不是覺得LLaMA的速度比較慢而且不支持中文，沒關(guān)系，在下一期中，我們會為LLaMA擴(kuò)充中文，并優(yōu)化加速LLaMA，記得繼續(xù)關(guān)注我們哦。

另外，RISC -V跑大模型系列文章計劃分為四期：

1.RISC -V跑大模型（一）
2. RISC-V 跑大模型（二）：LLaMA零基礎(chǔ)移植教程（本篇）
3.LLaMA擴(kuò)充中文+優(yōu)化加速（計劃）
4. 更多性能優(yōu)化策略。（計劃）

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴