一片黄日日噜天天噜,3d邪恶道全彩,fisting超大玩具自慰

繼系統(tǒng)安裝與環(huán)境配置后，本期我們將繼續(xù)帶大家深入NVIDIAJetson AGX Thor的開發(fā)教程之旅，了解如何在 Jetson AGX Thor 上，通過 Docker 高效部署 vLLM 推理服務(wù)。

具體內(nèi)容包括：

vLLM 簡(jiǎn)介與優(yōu)勢(shì)

vLLM Docker 容器構(gòu)建

使用 vLLM 在線下載模型

使用 vLLM 運(yùn)行本地模型

使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

一、vLLM 簡(jiǎn)介與優(yōu)勢(shì)

1什么是 vLLM？

vLLM 是一個(gè)高效的大語言模型推理和服務(wù)引擎，專門優(yōu)化了注意力機(jī)制和內(nèi)存管理，能夠提供極高的吞吐量。

2在 Jetson AGX Thor 上運(yùn)行 vLLM 的優(yōu)勢(shì)：

PagedAttention 技術(shù)：顯著減少內(nèi)存碎片，提高 GPU 利用率

Continuous Batching 機(jī)制：能夠連續(xù)動(dòng)態(tài)處理不同長(zhǎng)度的請(qǐng)求

開源生態(tài)：支持主流開源模型（Llama、Qwen、ChatGLM 等）

二、vLLM Docker 容器構(gòu)建

在上一期NVIDIA Jetson AGX Thor Developer Kit 開發(fā)環(huán)境配置教程中，我們已經(jīng)完成了 Docker 的安裝與配置，現(xiàn)在，只需要使用 Docker 拉取 vLLM 鏡像即可。

當(dāng)前 Docker 版本

1. 參照上期教程介紹的方法，注冊(cè)并登錄 NGC 之后，搜索 vLLM 進(jìn)入容器頁面，點(diǎn)擊“Get Container”，復(fù)制鏡像目錄。

2. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載鏡像。

3. 下載完成后，運(yùn)行容器，創(chuàng)建啟動(dòng)命令。

sudodocker run -d -t
 --net=host
 --gpusall
 --ipc=host
 --name vllm
 -v /data:/data
 --restart=unless-stopped
 nvcr.io/nvidia/vllm:25.10-py3

注：關(guān)鍵參數(shù)說明

-d (detach)：后臺(tái)運(yùn)行容器

-t (tty)：分配一個(gè)偽終端，方便日志輸出

--name vllm：為容器指定名稱"vllm"

--net=host：使用主機(jī)網(wǎng)絡(luò)模式，容器與主機(jī)共享網(wǎng)絡(luò)命名空間

--gpus all：將所有可用的 GPU 設(shè)備暴露給容器

--ipc=host：使用主機(jī)的 IPC 命名空間，改善進(jìn)程間通信性能

-v /data:/data：將主機(jī)的 /data 目錄掛載到容器的 /data 目錄，后面可用于持久化模型文件、配置文件等數(shù)據(jù)

--restart=unless-stopped：Docker 容器的重啟策略參數(shù)，表示容器在非人工主動(dòng)停止時(shí)(如崩潰、宿主機(jī)重啟)，會(huì)自動(dòng)重啟，但若被手動(dòng)停止，則不會(huì)自動(dòng)恢復(fù)

4. 容器創(chuàng)建成功后，使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

三、使用 vLLM 在線下載模型

1. 從 Hugging Face 上下載模型權(quán)重：

通常默認(rèn)的模型下載目錄為：.cache/huggingface/hub/，通過設(shè)置環(huán)境變量，我們將指定模型下載到：export HF_HOME=/data/huggingface目錄，然后執(zhí)行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct"，此命令會(huì)從 Hugging Face 上在線拉取下載模型并開始運(yùn)行。

2. 等待模型文件下載完成（需科學(xué)上網(wǎng)）。

注：為方便后續(xù)調(diào)用，建議通過本地終端確認(rèn)模型已下載到預(yù)設(shè)目錄（如下圖所示）。

在沒有前端的情況下，可以通過 curl 命令向 vLLM 服務(wù)發(fā)送聊天請(qǐng)求。

curl http://localhost:8000/v1/chat/completions 
-H "Content-Type: application/json" 
-d '{
 "model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
 "messages": [{"role":"user","content":"12*17"}],
 "max_tokens":500
}'

注：關(guān)鍵參數(shù)說明

curl：命令行工具，用于傳輸數(shù)據(jù)

http://localhost:8000：本地服務(wù)器地址和端口

/v1/chat/completions：OpenAI 兼容的聊天補(bǔ)全 API 端點(diǎn)

-H：設(shè)置 HTTP 請(qǐng)求頭

"Content-Type：application/json"：指定請(qǐng)求體為 JSON 格式

-d：設(shè)置請(qǐng)求數(shù)據(jù)

"model"："Qwen/Qwen2.5-Math-1.5B-Instruct"：指定要使用的模型，這個(gè)名稱應(yīng)該與 vLLM 服務(wù)啟動(dòng)時(shí)指定的模型名稱一致

"messages：[{"role": "user", "content": "12*17"}]：定義對(duì)話歷史和當(dāng)前消息

消息對(duì)象字段："role" 指消息角色；"user"指用戶消息，"Content"指消息具體內(nèi)容；"12*17"指用戶提出的數(shù)學(xué)問題

"max_tokens"：500：限制模型生成的最大 token 數(shù)量

四、使用 vLLM 運(yùn)行本地模型

如前所述，模型已下載保存至本地指定目錄，可以直接通過其路徑啟動(dòng)服務(wù)。

以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”為例，該模型權(quán)重路徑為：

“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

執(zhí)行以下命令，即可正常運(yùn)行本地模型。

vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35

五、使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

1. 局域網(wǎng)內(nèi)訪問 Chatbox 官網(wǎng)（https://chatboxai.app），下載并安裝Windows版本。

2. 點(diǎn)擊“設(shè)置提供方” — “添加”，輸入名稱，再次點(diǎn)擊“添加”。

上下滑動(dòng) 點(diǎn)擊查看

3. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。

（例：http://192.168.23.107:8000）

4. 選擇 vLLM 運(yùn)行的模型，點(diǎn)擊“+”。

5. 點(diǎn)擊“新對(duì)話”，右下角選擇該模型即可開啟對(duì)話。

6. 運(yùn)行示例

由于 Qwen2.5-Math 是一款數(shù)學(xué)專項(xiàng)大語言模型，我們?cè)诖耸纠釂栆粋€(gè)數(shù)學(xué)問題，運(yùn)行結(jié)果如下：

更多精彩教程，敬請(qǐng)期待！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5470

瀏覽量
108848
模型

模型

+關(guān)注

關(guān)注
1

文章
3630

瀏覽量
51626
開發(fā)環(huán)境

開發(fā)環(huán)境

+關(guān)注

關(guān)注
1

文章
250

瀏覽量
17495
Docker

Docker

+關(guān)注

關(guān)注
0

文章
526

瀏覽量
13927

原文標(biāo)題：輕松部署！在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務(wù)

文章出處：【微信號(hào)：Leadtek，微信公眾號(hào)：麗臺(tái)科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)

評(píng)論