chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)

麗臺(tái)科技 ? 來源:麗臺(tái)科技 ? 2025-11-13 14:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入NVIDIAJetson AGX Thor的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務(wù)。

具體內(nèi)容包括:

vLLM 簡(jiǎn)介與優(yōu)勢(shì)

vLLM Docker 容器構(gòu)建

使用 vLLM 在線下載模型

使用 vLLM 運(yùn)行本地模型

使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

一、vLLM 簡(jiǎn)介與優(yōu)勢(shì)

1什么是 vLLM?

vLLM 是一個(gè)高效的大語言模型推理和服務(wù)引擎,專門優(yōu)化了注意力機(jī)制和內(nèi)存管理,能夠提供極高的吞吐量。

2在 Jetson AGX Thor 上運(yùn)行 vLLM 的優(yōu)勢(shì):

PagedAttention 技術(shù):顯著減少內(nèi)存碎片,提高 GPU 利用率

Continuous Batching 機(jī)制:能夠連續(xù)動(dòng)態(tài)處理不同長(zhǎng)度的請(qǐng)求

開源生態(tài):支持主流開源模型(Llama、Qwen、ChatGLM 等)

二、vLLM Docker 容器構(gòu)建

在上一期NVIDIA Jetson AGX Thor Developer Kit 開發(fā)環(huán)境配置教程中,我們已經(jīng)完成了 Docker 的安裝與配置,現(xiàn)在,只需要使用 Docker 拉取 vLLM 鏡像即可。

163bee3c-becd-11f0-8c8f-92fbcf53809c.jpg

當(dāng)前 Docker 版本

1. 參照上期教程介紹的方法,注冊(cè)并登錄 NGC 之后,搜索 vLLM 進(jìn)入容器頁面,點(diǎn)擊“Get Container”,復(fù)制鏡像目錄。

169bcfdc-becd-11f0-8c8f-92fbcf53809c.png

2. 在命令行運(yùn)行docker pull nvcr.io/nvidia/vllm:25.10-py3下載鏡像。

16fff49e-becd-11f0-8c8f-92fbcf53809c.jpg

3. 下載完成后,運(yùn)行容器,創(chuàng)建啟動(dòng)命令。

sudodocker run -d -t
 --net=host
 --gpusall
 --ipc=host
 --name vllm
 -v /data:/data
 --restart=unless-stopped
 nvcr.io/nvidia/vllm:25.10-py3
1756c936-becd-11f0-8c8f-92fbcf53809c.png

注:關(guān)鍵參數(shù)說明

-d (detach):后臺(tái)運(yùn)行容器

-t (tty):分配一個(gè)偽終端,方便日志輸出

--name vllm:為容器指定名稱"vllm"

--net=host:使用主機(jī)網(wǎng)絡(luò)模式,容器與主機(jī)共享網(wǎng)絡(luò)命名空間

--gpus all:將所有可用的 GPU 設(shè)備暴露給容器

--ipc=host:使用主機(jī)的 IPC 命名空間,改善進(jìn)程間通信性能

-v /data:/data:將主機(jī)的 /data 目錄掛載到容器的 /data 目錄,后面可用于持久化模型文件、配置文件等數(shù)據(jù)

--restart=unless-stopped:Docker 容器的重啟策略參數(shù),表示容器在非人工主動(dòng)停止時(shí)(如崩潰、宿主機(jī)重啟),會(huì)自動(dòng)重啟,但若被手動(dòng)停止,則不會(huì)自動(dòng)恢復(fù)

4. 容器創(chuàng)建成功后,使用docker exec -it vllm /bin/bash命令進(jìn)入此容器。

17b396b6-becd-11f0-8c8f-92fbcf53809c.jpg

三、使用 vLLM 在線下載模型

1. 從 Hugging Face 上下載模型權(quán)重:

通常默認(rèn)的模型下載目錄為:.cache/huggingface/hub/,通過設(shè)置環(huán)境變量,我們將指定模型下載到:export HF_HOME=/data/huggingface目錄,然后執(zhí)行vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct",此命令會(huì)從 Hugging Face 上在線拉取下載模型并開始運(yùn)行。

180b7b4c-becd-11f0-8c8f-92fbcf53809c.png

2. 等待模型文件下載完成(需科學(xué)上網(wǎng))。

1871ec42-becd-11f0-8c8f-92fbcf53809c.png

注:為方便后續(xù)調(diào)用,建議通過本地終端確認(rèn)模型已下載到預(yù)設(shè)目錄(如下圖所示)。

18d399f6-becd-11f0-8c8f-92fbcf53809c.png

在沒有前端的情況下,可以通過 curl 命令向 vLLM 服務(wù)發(fā)送聊天請(qǐng)求。

curl http://localhost:8000/v1/chat/completions 
-H "Content-Type: application/json" 
-d '{
 "model":"Qwen/Qwen2.5-Math-1.5B-Instruct",
 "messages": [{"role":"user","content":"12*17"}],
 "max_tokens":500
}'
19303c9c-becd-11f0-8c8f-92fbcf53809c.png

注:關(guān)鍵參數(shù)說明

curl:命令行工具,用于傳輸數(shù)據(jù)

http://localhost:8000:本地服務(wù)器地址和端口

/v1/chat/completions:OpenAI 兼容的聊天補(bǔ)全 API 端點(diǎn)

-H:設(shè)置 HTTP 請(qǐng)求頭

"Content-Type:application/json":指定請(qǐng)求體為 JSON 格式

-d:設(shè)置請(qǐng)求數(shù)據(jù)

"model":"Qwen/Qwen2.5-Math-1.5B-Instruct":指定要使用的模型,這個(gè)名稱應(yīng)該與 vLLM 服務(wù)啟動(dòng)時(shí)指定的模型名稱一致

"messages:[{"role": "user", "content": "12*17"}]:定義對(duì)話歷史和當(dāng)前消息

消息對(duì)象字段:"role" 指消息角色;"user"指用戶消息,"Content"指消息具體內(nèi)容;"12*17"指用戶提出的數(shù)學(xué)問題

"max_tokens":500:限制模型生成的最大 token 數(shù)量

四、使用 vLLM 運(yùn)行本地模型

如前所述,模型已下載保存至本地指定目錄,可以直接通過其路徑啟動(dòng)服務(wù)。

以上方“Qwen/Qwen2.5-Math-1.5B-Instruct”為例,該模型權(quán)重路徑為:

“/data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35”。

1999a84e-becd-11f0-8c8f-92fbcf53809c.png

執(zhí)行以下命令,即可正常運(yùn)行本地模型。

vllmserve /data/huggingface/hub/models--Qwen--Qwen2.5-Math-1.5B-Instruct/snapshots/aafeb0fc6f22cbf0eaeed126eff8be45b0360a35

五、使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的模型

1. 局域網(wǎng)內(nèi)訪問 Chatbox 官網(wǎng)(https://chatboxai.app),下載并安裝Windows版本。

2. 點(diǎn)擊“設(shè)置提供方” — “添加”,輸入名稱,再次點(diǎn)擊“添加”。

19f5c912-becd-11f0-8c8f-92fbcf53809c.png1a5214ce-becd-11f0-8c8f-92fbcf53809c.jpg1ab1a2ea-becd-11f0-8c8f-92fbcf53809c.png

上下滑動(dòng) 點(diǎn)擊查看

3. API 主機(jī)可輸入 Jetson AGX Thor 主機(jī) IP 以及 vLLM 服務(wù)端口號(hào)。

(例:http://192.168.23.107:8000)

1b0a7c44-becd-11f0-8c8f-92fbcf53809c.jpg

4. 選擇 vLLM 運(yùn)行的模型,點(diǎn)擊“+”。

1b622d7c-becd-11f0-8c8f-92fbcf53809c.jpg1bbdab66-becd-11f0-8c8f-92fbcf53809c.jpg

5. 點(diǎn)擊“新對(duì)話”,右下角選擇該模型即可開啟對(duì)話。

1c156f36-becd-11f0-8c8f-92fbcf53809c.jpg

6. 運(yùn)行示例

由于 Qwen2.5-Math 是一款數(shù)學(xué)專項(xiàng)大語言模型,我們?cè)诖耸纠釂栆粋€(gè)數(shù)學(xué)問題,運(yùn)行結(jié)果如下:

1c6c678c-becd-11f0-8c8f-92fbcf53809c.jpg

更多精彩教程,敬請(qǐng)期待!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5470

    瀏覽量

    108848
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3630

    瀏覽量

    51626
  • 開發(fā)環(huán)境
    +關(guān)注

    關(guān)注

    1

    文章

    250

    瀏覽量

    17495
  • Docker
    +關(guān)注

    關(guān)注

    0

    文章

    526

    瀏覽量

    13927

原文標(biāo)題:輕松部署!在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服務(wù)

文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Jetson AGX Thor Developer Kit開發(fā)環(huán)境配置指南

    NVIDIA Jetson AGX Thor 專為物理 AI 打造,與上一代產(chǎn)品 NVIDIA Jets
    的頭像 發(fā)表于 11-08 09:55 ?5099次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> <b class='flag-5'>Thor</b> Developer Kit開發(fā)環(huán)境配置指南

    京東和美團(tuán)已選用NVIDIA Jetson AGX Xavier 平臺(tái)

    電商巨頭選用NVIDIA Jetson AGX Xavier打造下一代配送機(jī)器人 京東、美團(tuán)采用NVIDIA AI計(jì)算平臺(tái),以滿足大量處理需求
    的頭像 發(fā)表于 08-01 14:54 ?1304次閱讀

    NVIDIA Jetson介紹

    首發(fā)極術(shù)社區(qū)如對(duì)Arm相關(guān)技術(shù)感興趣,歡迎私信 aijishu20加入技術(shù)微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計(jì)算平臺(tái),具有低功耗、高性能和小體積等特點(diǎn),可加速各行業(yè)的AI應(yīng)用落地
    發(fā)表于 12-14 08:05

    怎么做才能通過Jetson Xavier AGX構(gòu)建android圖像呢?

    我正在使用 NvidiaJetson Xavier AGX 按照“android 用戶指南”為 imx8 qm Mek 套件構(gòu)建 android 圖像(android 13)。當(dāng)我運(yùn)行命令
    發(fā)表于 06-07 08:58

    NVIDIA Jetson AGX Orin提升邊緣AI標(biāo)桿

    最新發(fā)布的 NVIDIA Jetson AGX Orin 提升邊緣 AI 標(biāo)桿,使我們?cè)谧钚乱惠喰袠I(yè)推理基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì)更加明顯。
    的頭像 發(fā)表于 04-09 08:24 ?2213次閱讀

    使用NVIDIA Jetson AGX Xavier部署新的自主機(jī)器

    Jetson AGX Xavier 目前在 VGG19 推理方面的效率比 Jetson TX2 高 7 倍多,使用 ResNet-50 的效率高 5 倍,考慮到未來的軟件優(yōu)化和增強(qiáng),效
    的頭像 發(fā)表于 04-18 15:17 ?7786次閱讀

    開發(fā)者們好評(píng)如潮,NVIDIA Jetson AGX Orin 是怎么做到的?

    NVIDIA Jetson AGX Orin 自推出以來,收獲了許多開發(fā)者們的喜愛和支持。這款性能強(qiáng)大、尺寸緊湊且節(jié)能的 AI 超級(jí)計(jì)算機(jī)適用于先進(jìn)的機(jī)器人、自主機(jī)器以及新一代嵌入式和邊緣計(jì)算
    的頭像 發(fā)表于 12-15 19:35 ?1829次閱讀

    NVIDIA 推出 Jetson AGX Orin 工業(yè)級(jí)模塊助力邊緣 AI

    Jetson 邊緣 AI 和機(jī)器人平臺(tái) ,您可以在此類復(fù)雜的環(huán)境中部署 AI 和傳感器融合算法。 NVIDIA 在 COMPUTEX 2023 發(fā)布了全新
    的頭像 發(fā)表于 06-05 10:45 ?1917次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Jetson</b> <b class='flag-5'>AGX</b> Orin 工業(yè)級(jí)模塊助力邊緣 AI

    利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI

    交互速率運(yùn)行的 Llama-2-70B 模型。 圖 1. 領(lǐng)先的生成式 AI 模型在? Jetson AGX Orin 推理性能 如要在 Jet
    的頭像 發(fā)表于 11-07 21:25 ?2024次閱讀
    利用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> 實(shí)現(xiàn)生成式 AI

    NVIDIA Jetson AGX Thor開發(fā)者套件概述

    NVIDIA Jetson AGX Thor 開發(fā)者套件為您提供出色的性能和可擴(kuò)展性。它由 NVIDIA Blackwell GPU和128
    的頭像 發(fā)表于 08-11 15:03 ?1500次閱讀

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來

    ·專為物理 AI 和機(jī)器人打造的機(jī)器人計(jì)算機(jī) NVIDIA Jetson AGX Thor 開發(fā)者套件和量產(chǎn)級(jí)模組,現(xiàn)已發(fā)售。 ·超過 200 萬開發(fā)者正在使用
    發(fā)表于 08-26 09:28 ?1155次閱讀
    基于 <b class='flag-5'>NVIDIA</b> Blackwell 的 <b class='flag-5'>Jetson</b> <b class='flag-5'>Thor</b> 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來

    NVIDIA三臺(tái)計(jì)算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX
    的頭像 發(fā)表于 08-27 11:48 ?1901次閱讀

    NVIDIA Jetson AGX Thor開發(fā)者套件重磅發(fā)布

    開發(fā)者與未來創(chuàng)造者們,準(zhǔn)備好迎接邊緣AI的史詩(shī)級(jí)革新了嗎?NVIDIA以顛覆性技術(shù)再次突破極限,正式推出Jetson AGX Thor開發(fā)者套件!作為繼傳奇產(chǎn)品
    的頭像 發(fā)表于 08-28 14:31 ?1114次閱讀

    ADI借助NVIDIA Jetson Thor平臺(tái)加速人形機(jī)器人研發(fā)進(jìn)程

    當(dāng)前,人形機(jī)器人正逐步邁向?qū)嶋H應(yīng)用部署階段,其落地節(jié)奏取決于物理智能與實(shí)時(shí)推理能力的發(fā)展。隨著NVIDIA Jetson Thor平臺(tái)的正式
    的頭像 發(fā)表于 08-29 14:07 ?2504次閱讀

    通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺(tái)還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進(jìn)一步優(yōu)化推理性能。該平臺(tái)同時(shí)支持推測(cè)解碼等新技術(shù)
    的頭像 發(fā)表于 10-29 16:53 ?830次閱讀