chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Grove簡(jiǎn)化Kubernetes上的復(fù)雜AI推理

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-11-14 10:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

過(guò)去幾年,AI 推理的部署已經(jīng)從單一模型、單一 Pod 演變?yōu)閺?fù)雜的多組件系統(tǒng)。如今,一個(gè)模型部署可能包含多個(gè)不同的組件——預(yù)填充 (prefill)、解碼 (decode)、視覺(jué)編碼器 (vision encoders)、鍵值 (KV) 路由器等。此外,完整的代理式管道正在興起,其中多個(gè)模型實(shí)例協(xié)同工作,執(zhí)行推理、檢索或多模態(tài)任務(wù)。

這種轉(zhuǎn)變將實(shí)例擴(kuò)展和編排的問(wèn)題從“運(yùn)行 N 個(gè) Pod 副本”轉(zhuǎn)變?yōu)椤皩⒁徽麄€(gè)組件協(xié)調(diào)為一個(gè)邏輯系統(tǒng)”。管理此類系統(tǒng)需要同步擴(kuò)展和調(diào)度合適的 Pod,了解每個(gè)組件不同的配置和資源需求,按特定的順序啟動(dòng),并根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)將它們部署在集群中。最終目標(biāo)是編排整個(gè)系統(tǒng),并基于組件在整個(gè)系統(tǒng)的依賴關(guān)系進(jìn)行擴(kuò)展,而不是一次擴(kuò)展一個(gè) Pod。

為了應(yīng)對(duì)這些挑戰(zhàn),我們宣布推出NVIDIA Grove,一個(gè)在 Kubernetes 集群上運(yùn)行現(xiàn)代機(jī)器學(xué)習(xí)推理工作負(fù)載的 Kubernetes API。Grove 現(xiàn)已作為模塊化組件集成至NVIDIA Dynamo,它完全開源,可在ai-dynamo/groveGitHub 庫(kù)使用。

NVIDIA Grove如何整體性編排推理負(fù)載

Grove 能夠?qū)⒍喙?jié)點(diǎn)推理部署從單個(gè)副本擴(kuò)展到數(shù)據(jù)中心規(guī)模,支持?jǐn)?shù)萬(wàn)個(gè) GPU。Grove 可將 Kubernetes 中的整個(gè)推理服務(wù)系統(tǒng)(例如預(yù)填充、解碼、路由或任何其他組件)描述為單個(gè)自定義資源 (Custom Resource, CR)。

根據(jù)該單一配置文件,平臺(tái)可協(xié)調(diào)層級(jí)化調(diào)度、拓?fù)涓兄姆胖?、多?jí)自動(dòng)擴(kuò)縮容以及明確的啟動(dòng)順序。您可以精準(zhǔn)控制系統(tǒng)的行為方式,而無(wú)需將腳本、YAML 文件或自定義控制器拼接在一起。

Grove 最初是為了解決多節(jié)點(diǎn) PD 分離推理系統(tǒng)的編排問(wèn)題而開發(fā)的,它具有足夠的靈活性,可以自然地映射到任何現(xiàn)實(shí)世界的推理架構(gòu),從傳統(tǒng)的單節(jié)點(diǎn)聚合推理到具有多個(gè)模型的代理式管道。Grove 使開發(fā)者能夠以簡(jiǎn)潔、聲明式且與框架無(wú)關(guān)的方式定義復(fù)雜的 AI 堆棧。

多節(jié)點(diǎn)PD分離服務(wù)的前提條件詳情如下。

多級(jí)自動(dòng)擴(kuò)縮容以應(yīng)對(duì)相互依賴的組件

現(xiàn)代推理系統(tǒng)需要在多個(gè)層面上進(jìn)行自動(dòng)擴(kuò)縮容:?jiǎn)蝹€(gè)組件(應(yīng)對(duì)流量高峰的預(yù)填充工作節(jié)點(diǎn))、相關(guān)組件組(預(yù)填充主節(jié)點(diǎn)及其工作節(jié)點(diǎn))以及用于擴(kuò)展整體容量的整體服務(wù)副本。這些層級(jí)相互依賴:擴(kuò)展預(yù)填充工作節(jié)點(diǎn)可能需要更多的解碼能力,而新的服務(wù)副本需要合理的組件比例。傳統(tǒng)的 Pod 級(jí)自動(dòng)擴(kuò)縮容無(wú)法處理這些相互依賴關(guān)系。

覆蓋恢復(fù)與滾動(dòng)更新的系統(tǒng)級(jí)生命周期管理

恢復(fù)和更新必須以完整的服務(wù)實(shí)例為操作對(duì)象,而非單個(gè)Kubernetes Pod。當(dāng)預(yù)填充工作節(jié)點(diǎn)發(fā)生故障并重啟后,需要正確地重新連接到其主節(jié)點(diǎn),而滾動(dòng)更新必須保持網(wǎng)絡(luò)拓?fù)鋪?lái)維持低延遲。平臺(tái)必須將多組件系統(tǒng)視為單一操作單元,同時(shí)優(yōu)化其性能和可用性。

靈活的層級(jí)化組調(diào)度

AI 工作負(fù)載調(diào)度器應(yīng)支持靈活的組調(diào)度機(jī)制,突破傳統(tǒng)的全有或全無(wú)的放置方式。PD 分離服務(wù)帶來(lái)了新的挑戰(zhàn):推理系統(tǒng)需要保證關(guān)鍵組件組合(例如至少一個(gè)預(yù)填充和一個(gè)解碼工作節(jié)點(diǎn)),同時(shí)允許每種組件類型獨(dú)立擴(kuò)展。挑戰(zhàn)在于,預(yù)填充和解碼組件應(yīng)根據(jù)工作負(fù)載模式按照不同的比例進(jìn)行擴(kuò)展。傳統(tǒng)的組調(diào)度將所有組件強(qiáng)制綁定到必須同步擴(kuò)展的組中,阻礙了這種獨(dú)立擴(kuò)展。系統(tǒng)需要制定策略,確保強(qiáng)制執(zhí)行最小可行組件組合的同時(shí),實(shí)現(xiàn)靈活的擴(kuò)展。

拓?fù)涓兄{(diào)度

組件的布局會(huì)影響性能。在如NVIDIA 高性能計(jì)算平臺(tái)這樣的系統(tǒng)上,將相關(guān)的預(yù)填充 Pod 和解碼 Pod 調(diào)度至同一NVIDIA NVLink域內(nèi),可優(yōu)化 KV 緩存的傳輸延遲。調(diào)度器需要理解物理網(wǎng)絡(luò)拓?fù)?,在將相關(guān)組件就近放置的同時(shí),通過(guò)分散副本以提高系統(tǒng)的可用性。

角色感知的編排和明確的啟動(dòng)順序

組件具有不同的職責(zé)、配置和啟動(dòng)要求。例如,預(yù)填充和解碼主節(jié)點(diǎn)需要執(zhí)行獨(dú)立的啟動(dòng)邏輯,且工作節(jié)點(diǎn)在主節(jié)點(diǎn)準(zhǔn)備就緒之前無(wú)法啟動(dòng)。為實(shí)現(xiàn)可靠的系統(tǒng)初始化,平臺(tái)需要針對(duì)角色進(jìn)行特定配置和依賴關(guān)系管理。

綜上所述,整體情況可概括為:推理團(tuán)隊(duì)需要一種簡(jiǎn)單且聲明式的方法,來(lái)描述系統(tǒng)的實(shí)際運(yùn)行狀態(tài)(多角色、多節(jié)點(diǎn)、明確的多級(jí)依賴關(guān)系),并使系統(tǒng)能夠根據(jù)該描述進(jìn)行調(diào)度、擴(kuò)展、恢復(fù)和更新。

Grove原語(yǔ)

高性能推理框架使用 Grove 層級(jí)化 API 來(lái)表達(dá)角色特定的邏輯和多級(jí)擴(kuò)展,從而在跨多種集群環(huán)境中實(shí)現(xiàn)一致且優(yōu)化的部署。Grove 通過(guò)在其 Workload API 中使用三種層次化的自定義資源編排多組件 AI 工作負(fù)載,來(lái)實(shí)現(xiàn)這一點(diǎn)。

在圖 1 中,PodClique A 代表前端組件,B 和 C 代表預(yù)填充主節(jié)點(diǎn)和預(yù)填充工作節(jié)點(diǎn),D 和 E 代表解碼主節(jié)點(diǎn)和解碼工作節(jié)點(diǎn)。

wKgZPGkWk4yAK-diAADk8DHhnPg926.png

圖 1. NVIDIA Grove 的關(guān)鍵組件包括PodClique、 ScalingGroup和 PodCliqueSet,以及它們?nèi)绾螀f(xié)同工作

PodCliques代表具有特定角色的Kubernetes Pod組,例如預(yù)填充主節(jié)點(diǎn)或工作節(jié)點(diǎn)、解碼主節(jié)點(diǎn)或工作節(jié)點(diǎn),以及前端服務(wù),每個(gè)組都有獨(dú)立的配置和擴(kuò)展邏輯。

PodCliqueScalingGroups將必須協(xié)同擴(kuò)展的緊密耦合的 PodCliques 進(jìn)行打包,例如,預(yù)填充主節(jié)點(diǎn)和預(yù)填充工作節(jié)點(diǎn)一起代表一個(gè)模型實(shí)例。

PodCliqueSets定義完整的多組件工作負(fù)載,指定啟動(dòng)順序、擴(kuò)展策略及組調(diào)度約束,以確保所有組件或者一起啟動(dòng),或者共同失敗。當(dāng)需要擴(kuò)展以增加容量時(shí),Grove 會(huì)創(chuàng)建整個(gè) PodGangSet 的完整副本,并定義分布約束,將這些副本分布在集群中以實(shí)現(xiàn)高可用性,同時(shí)保持每個(gè)副本的組件在網(wǎng)絡(luò)拓?fù)渖暇o密封裝,以優(yōu)化性能。

wKgZO2kWk36AKHQJAAGnjC7G2xA669.png

圖 2. Grove 工作流

支持 Grove 的 Kubernetes 集群將整合兩個(gè)關(guān)鍵組件:Grove 操作器和能夠識(shí)別 PodGang 資源的調(diào)度器,例如KAI Scheduler,這是NVIDIA Run:ai 平臺(tái)的一個(gè)開源子組件。

當(dāng)創(chuàng)建 PodCliqueSet 資源時(shí),Grove operator 會(huì)驗(yàn)證配置清單,并自動(dòng)生成實(shí)現(xiàn)所需的底層 Kubernetes 對(duì)象。這包括組成的 PodCliques、PodCliqueScalingGroups,以及相關(guān)的 Pod、服務(wù) (Services)、密鑰 (Secrets) 和自動(dòng)擴(kuò)縮容策略。在此過(guò)程中,Grove 還會(huì)創(chuàng)建 PodGang 資源,這是 Scheduler API 的一部分,將工作負(fù)載定義轉(zhuǎn)換為集群調(diào)度器的具體調(diào)度約束。

每個(gè) PodGang 封裝了其工作負(fù)載的詳細(xì)要求,包括最低副本保證、優(yōu)化組件間帶寬的網(wǎng)絡(luò)拓?fù)淦?,以及保持可用性的擴(kuò)散約束。這些共同確保了拓?fù)涓兄姆胖煤图褐匈Y源的高效利用。

Scheduler 持續(xù)監(jiān)測(cè) PodGang 資源,并應(yīng)用組調(diào)度邏輯,確保所有必要組件在資源可用前共同調(diào)度或暫緩調(diào)度。調(diào)度決策基于GPU 拓?fù)涓兄图壕植啃詢?yōu)化生成。

最終結(jié)果是多組件 AI 系統(tǒng)的協(xié)調(diào)部署,其中預(yù)填充服務(wù)、解碼工作節(jié)點(diǎn)和路由組件按正確順序啟動(dòng),緊密放置在網(wǎng)絡(luò)拓?fù)渖弦蕴岣咝阅?,并作為一個(gè)整體共同自愈。這防止了資源碎片化,避免了部分部署,并能夠大規(guī)模穩(wěn)定高效地運(yùn)行復(fù)雜的模型服務(wù)管道。

如何使用Dynamo快速上手Grove

本節(jié)將分享如何使用 Dynamo 和 Grove 通過(guò) KV 路由部署組件部署 PD 分離服務(wù)架構(gòu)。該設(shè)置使用Qwen3 0.6B模型,并演示了 Grove 通過(guò)獨(dú)立的預(yù)填充和解碼工作節(jié)點(diǎn)管理分布式推理工作負(fù)載的能力。

注意:這是一個(gè)基礎(chǔ)示例,旨在幫助您理解核心概念。有關(guān)更復(fù)雜的部署,請(qǐng)參考ai-dynamo/groveGitHub 庫(kù)。

先決條件

首先,確保您的 Kubernetes 集群中準(zhǔn)備好以下組件:

支持 GPU 的 Kubernetes 集群

已配置 kubectl 以訪問(wèn)您的集群

安裝 Helm CLI

Hugging Face token密鑰(稱為hf-token-secret),可以使用以下命令創(chuàng)建:

kubectl create secret generic hf-token-secret \
--from-literal=HF_TOKEN=

注意:在代碼中,將 替換為您實(shí)際的 Hugging Face token。確保此 token 安全,切勿將其提交給源代碼管理。

步驟1:創(chuàng)建命名空間

kubectl create namespace vllm-v1-disagg-router

步驟2:使用Grove安裝Dynamo CRD和Dynamo Operator

# 1. Set environment

export NAMESPACE=vllm-v1-disagg-router
export RELEASE_VERSION=0.5.1

# 2. Install CRDs

helm fetchhttps://helm.ngc.nvidia.com/nvidia/ai-dynamo/charts/dynamo-crds-${RELEASE_VERSION}.tgz
helm install dynamo-crds dynamo-crds-${RELEASE_VERSION}.tgz --namespace default
# 3. Install Dynamo Operator + Grove
helm fetchhttps://helm.ngc.nvidia.com/nvidia/ai-dynamo/charts/dynamo-platform-${RELEASE_VERSION}.tgz
helm install dynamo-platform dynamo-platform-${RELEASE_VERSION}.tgz --namespace ${NAMESPACE} --create-namespace --set "grove.enabled=true"

步驟3:驗(yàn)證Grove安裝

kubectl get crd | grep grove

預(yù)期輸出:

podcliques.grove.io
podcliquescalinggroups.grove.io
podcliquesets.grove.io
podgangs.scheduler.grove.io
podgangsets.grove.io


步驟4:創(chuàng)建DynamoGraphDeployment配置

創(chuàng)建一個(gè)DynamoGraphDeployment清單,定義PD分離服務(wù)架構(gòu),包含一個(gè)前端、兩個(gè)解碼工作節(jié)點(diǎn)和一個(gè)預(yù)填充工作節(jié)點(diǎn):

apiVersion: nvidia.com/v1alpha1
kind: DynamoGraphDeployment
metadata:
name: dynamo-grove
spec:
services:
Frontend:
dynamoNamespace: vllm-v1-disagg-router
componentType: frontend
replicas: 1
extraPodSpec:
mainContainer:
image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.5.1
envs:
- name: DYN_ROUTER_MODE
value: kv
VllmDecodeWorker:
dynamoNamespace: vllm-v1-disagg-router
envFromSecret: hf-token-secret
componentType: worker
replicas: 2
resources:
limits:
gpu: "1"
extraPodSpec:
mainContainer:
image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.5.1
workingDir: /workspace/components/backends/vllm
command:
- python3
- -m
- dynamo.vllm
args:
- --model
- Qwen/Qwen3-0.6B
VllmPrefillWorker:
dynamoNamespace: vllm-v1-disagg-router
envFromSecret: hf-token-secret
componentType: worker
replicas: 1
resources:
limits:
gpu: "1"
extraPodSpec:
mainContainer:
image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.5.1
workingDir: /workspace/components/backends/vllm
command:
- python3
- -m
- dynamo.vllm
args:
- --model
- Qwen/Qwen3-0.6B
- --is-prefill-worker

步驟5:部署配置

kubectl apply -f dynamo-grove.yaml

步驟6:驗(yàn)證部署

驗(yàn)證operator和Grove Pod已創(chuàng)建:

kubectl get pods -n ${NAMESPACE}

預(yù)期輸出:

NAME READY STATUS RESTARTS AGE
dynamo-grove-0-frontend-w2xxl 1/1 Running 0 10m
dynamo-grove-0-vllmdecodeworker-57ghl 1/1 Running 0 10m
dynamo-grove-0-vllmdecodeworker-drgv4 1/1 Running 0 10m
dynamo-grove-0-vllmprefillworker-27hhn 1/1 Running 0 10m
dynamo-platform-dynamo-operator-controller-manager-7774744kckrr 2/2 Running 0 10m
dynamo-platform-etcd-0 1/1 Running 0 10m
dynamo-platform-nats-0 2/2 Running 0 10m

步驟7:測(cè)試部署

首先,端口轉(zhuǎn)發(fā)前端:

kubectl port-forward svc/dynamo-grove-frontend 8000:8000 -n ${NAMESPACE}

然后測(cè)試端點(diǎn):

curlhttp://localhost:8000/v1/models

或者可以檢查PodClique資源,以查看Grove如何將Pod分組在一起,包括副本計(jì)數(shù):

kubectl get podclique dynamo-grove-0-vllmdecodeworker -n vllm-v1-disagg-router -o yaml

準(zhǔn)備好了解更多了嗎?

NVIDIA Grove完全開源,可在ai-dynamo/groveGitHub 庫(kù)中獲取。我們邀請(qǐng)您在自己的 Kubernetes 環(huán)境中使用Dynamo的獨(dú)立組件 Grove,或與高性能 AI 推理引擎一起使用。

探索Grove 部署指南并在GitHub或Discord中提問(wèn)。要了解 Grove 的實(shí)際應(yīng)用,請(qǐng)?jiān)L問(wèn)亞特蘭大KubeCon 2025 上的 NVIDIA 展位。我們歡迎社區(qū)提供貢獻(xiàn)、拉取請(qǐng)求并反饋意見(jiàn)。

致謝

感謝所有參與NVIDIA Grove項(xiàng)目開發(fā)的開源開發(fā)者、測(cè)試人員和社區(qū)成員的寶貴貢獻(xiàn),特別感謝SAP (Madhav Bhargava、Saketh Kalaga、Frank Heine)的杰出貢獻(xiàn)和支持。開源因協(xié)作而蓬勃發(fā)展——感謝您成為Grove的一員。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5472

    瀏覽量

    108870
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    37652

    瀏覽量

    293931
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8538

    瀏覽量

    136141
  • kubernetes
    +關(guān)注

    關(guān)注

    0

    文章

    256

    瀏覽量

    9392

原文標(biāo)題:使用 NVIDIA Grove 簡(jiǎn)化 Kubernetes 上的復(fù)雜 AI 推理

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Kubernetes的Device Plugin設(shè)計(jì)解讀

    設(shè)計(jì)解讀最近在調(diào)研Kubernetes的GPU調(diào)度和運(yùn)行機(jī)制,發(fā)現(xiàn)傳統(tǒng)的alpha.kubernetes.io/nvidia-gpu即將在1.11版本中下線,和GPU相關(guān)的調(diào)度和部署的代碼將徹底從主干代碼中
    發(fā)表于 03-12 16:23

    NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

    。NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在去年GTC大會(huì)的主題演講中就曾將這種復(fù)雜性概括為一個(gè)詞:PLASTER。他表示,現(xiàn)代AI推理對(duì)可編程性(Programmability)、延遲性
    發(fā)表于 11-08 19:44

    NVIDIA在最新AI推理基準(zhǔn)測(cè)試中大獲成功

    MLPerf Inference 0.5是業(yè)內(nèi)首個(gè)獨(dú)立AI推理基準(zhǔn)套件,其測(cè)試結(jié)果證明了NVIDIA Turing數(shù)據(jù)中心GPU以及 NVIDIA Xavier 邊緣計(jì)算芯片系統(tǒng)的性能
    的頭像 發(fā)表于 11-29 14:45 ?3246次閱讀

    NVIDIA宣布其AI推理平臺(tái)的重大更新

    軟件的新功能,該軟件為所有AI模型和框架提供跨平臺(tái)推理;同時(shí)也包含對(duì)NVIDIA TensorRT的更新,該軟件優(yōu)化AI模型并為NVIDIA
    的頭像 發(fā)表于 11-12 14:42 ?2427次閱讀

    NVIDIA Triton推理服務(wù)器簡(jiǎn)化人工智能推理

    GKE 的 Triton 推理服務(wù)器應(yīng)用程序是一個(gè) helm chart 部署程序,可自動(dòng)安裝和配置 Triton ,以便在具有 NVIDIA GPU 節(jié)點(diǎn)池的 GKE 集群使用,包括
    的頭像 發(fā)表于 04-08 16:43 ?2853次閱讀
    <b class='flag-5'>NVIDIA</b> Triton<b class='flag-5'>推理</b>服務(wù)器<b class='flag-5'>簡(jiǎn)化</b>人工智能<b class='flag-5'>推理</b>

    使用NVIDIA GPU和SmartNIC的邊緣AI

    NVIDIA 加速器有助于在傳感器數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)的情況下,對(duì)未來(lái)的邊緣 AI 投資進(jìn)行驗(yàn)證。 NVIDIA 運(yùn)營(yíng)商是云本地軟件,可簡(jiǎn)化 Kuber
    的頭像 發(fā)表于 04-15 09:20 ?1819次閱讀

    使用NVIDIA Triton推理服務(wù)器簡(jiǎn)化邊緣AI模型部署

      NVIDIA Triton 有助于在每個(gè)數(shù)據(jù)中心、云和嵌入式設(shè)備中實(shí)現(xiàn)標(biāo)準(zhǔn)化的可擴(kuò)展生產(chǎn) AI 。它支持多個(gè)框架,在 GPU 和 DLA 等多個(gè)計(jì)算引擎運(yùn)行模型,處理不同類型的推理
    的頭像 發(fā)表于 04-18 15:40 ?3349次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton<b class='flag-5'>推理</b>服務(wù)器<b class='flag-5'>簡(jiǎn)化</b>邊緣<b class='flag-5'>AI</b>模型部署

    螞蟻鏈AIoT團(tuán)隊(duì)與NVIDIA合作加速AI推理

    螞蟻鏈 AIoT 團(tuán)隊(duì)與 NVIDIA 合作,將量化感知訓(xùn)練(QAT)技術(shù)應(yīng)用于深度學(xué)習(xí)模型性能優(yōu)化中,并通過(guò) NVIDIA TensorRT 高性能推理 SDK 進(jìn)行高效率部署, 通過(guò) INT8
    的頭像 發(fā)表于 09-09 09:53 ?1737次閱讀

    TinyAnimal:Grove Vision AI的動(dòng)物識(shí)別實(shí)踐

    電子發(fā)燒友網(wǎng)站提供《TinyAnimal:Grove Vision AI的動(dòng)物識(shí)別實(shí)踐.zip》資料免費(fèi)下載
    發(fā)表于 06-13 16:20 ?0次下載
    TinyAnimal:<b class='flag-5'>Grove</b> Vision <b class='flag-5'>AI</b><b class='flag-5'>上</b>的動(dòng)物識(shí)別實(shí)踐

    英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

    英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡(jiǎn)化AI模型部署過(guò)程,為全球的2800萬(wàn)英偉達(dá)開發(fā)者
    的頭像 發(fā)表于 06-04 09:15 ?1175次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù),與同樣剛推出的 Llama 3.1
    的頭像 發(fā)表于 07-25 09:48 ?1235次閱讀

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過(guò) Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise,為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無(wú)論是在
    的頭像 發(fā)表于 10-27 10:03 ?1546次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造<b class='flag-5'>AI</b>訓(xùn)練與<b class='flag-5'>推理</b>加速解決方案

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?1194次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí)
    發(fā)表于 03-19 09:31 ?323次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 <b class='flag-5'>AI</b> 平臺(tái)

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫(kù)加速并擴(kuò)展AI推理模型

    DeepSeek-R1 的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展
    的頭像 發(fā)表于 03-20 15:03 ?995次閱讀