開(kāi)源生成式 AI 模型的迅猛發(fā)展正在推動(dòng)數(shù)據(jù)中心向物理世界中運(yùn)行的機(jī)器邁進(jìn)。開(kāi)發(fā)者渴望在邊緣部署這些模型,使物理 AI 智能體和自主機(jī)器人能夠自動(dòng)執(zhí)行繁重的任務(wù)。
關(guān)鍵的挑戰(zhàn)在于如何在內(nèi)存受限的邊緣設(shè)備上高效運(yùn)行包含數(shù)十億個(gè)參數(shù)的模型。在內(nèi)存供應(yīng)持續(xù)受限和成本上升的情況下,開(kāi)發(fā)者正專注于用更少的資源取得更多的成果。
NVIDIA Jetson 平臺(tái)支持熱門開(kāi)放模型,同時(shí)在邊緣提供強(qiáng)大的運(yùn)行時(shí)性能和內(nèi)存優(yōu)化。對(duì)于邊緣開(kāi)發(fā)者而言,顯存占用決定了系統(tǒng)是否正常運(yùn)行。與云環(huán)境不同,邊緣設(shè)備在嚴(yán)格的內(nèi)存限制下運(yùn)行,CPU 和 GPU 共享資源受限。
內(nèi)存使用效率低下可能會(huì)導(dǎo)致瓶頸、延遲峰值或系統(tǒng)故障。與此同時(shí),現(xiàn)代邊緣應(yīng)用通常會(huì)運(yùn)行多個(gè)流程 (例如檢測(cè)、跟蹤和分割) ,這使得高效的內(nèi)存管理對(duì)于在功耗和散熱受限的情況下實(shí)現(xiàn)穩(wěn)定的實(shí)時(shí)性能至關(guān)重要。
優(yōu)化顯存占用具有明顯優(yōu)勢(shì)。開(kāi)發(fā)者可以通過(guò)減少開(kāi)銷和增加并發(fā)性來(lái)提高相同硬件的性能,同時(shí)支持更復(fù)雜的工作負(fù)載,如 LLM、多攝像頭系統(tǒng)和傳感器融合。它還通過(guò)適合較小的內(nèi)存配置來(lái)降低系統(tǒng)成本,并通過(guò)最大限度地減少瓶頸和最大限度地提高 GPU 利用率來(lái)提高效率 (每瓦性能) 。
本博客將探討各種優(yōu)化策略,以幫助開(kāi)發(fā)者在資源受限的邊緣系統(tǒng)上更大限度地提高性能、效率和功能。
邊緣 AI 軟件堆棧
我們來(lái)深入了解邊緣設(shè)備的運(yùn)行時(shí)軟件堆棧。本指南并非關(guān)于全內(nèi)存優(yōu)化的詳盡指南,而是一個(gè)參考框架,可激發(fā)靈感并幫助開(kāi)發(fā)者找到改進(jìn)堆棧的新方法。節(jié)省的內(nèi)存顯示了 NVIDIA 團(tuán)隊(duì)取得的成就。經(jīng)驗(yàn)豐富的用戶可以提高效率,而其他人則可以從這些示例開(kāi)始,更好地利用NVIDIA Jetson和NVIDIA IGX 平臺(tái)上的資源。
本博客探討了五個(gè)關(guān)鍵層,從 Jetson BSP 和 NVIDIA JetPack 的基礎(chǔ)開(kāi)始,一直到推理工作流、推理框架和量化技術(shù)。我們來(lái)逐步深入了解每一層。

圖 1. NVIDIA 硬件平臺(tái)上的典型邊緣 AI 軟件堆棧
基礎(chǔ)層:板級(jí)支持包和軟件堆棧
NVIDIA Jetson 板支持包 (BSP)和 NVIDIA JetPack 層構(gòu)成了軟件堆棧的基礎(chǔ),可與硬件交互。它包括 Linux 內(nèi)核、設(shè)備驅(qū)動(dòng)程序、固件和JetPack SDK,以及支持計(jì)算、多媒體和加速 I/ O 的組件。此層將硬件復(fù)雜性 ( GPU、CPU、內(nèi)存和外設(shè)) 抽象化,為更高級(jí)別的服務(wù)和應(yīng)用提供穩(wěn)定、優(yōu)化的基礎(chǔ)。
在這一層,可以通過(guò)禁用未使用的服務(wù)并回收保留的剔除區(qū)域來(lái)節(jié)省內(nèi)存。這些優(yōu)化可減少應(yīng)用工作負(fù)載的開(kāi)銷和可用 DRAM,而不會(huì)影響核心功能。以下各節(jié)將重點(diǎn)介紹實(shí)現(xiàn)這些優(yōu)化的關(guān)鍵技術(shù)。
BSP 和 JetPack 層優(yōu)化指南適用于Jetson Orin NX和Jetson Orin Nano。
| 旋鈕 | 可以回收的內(nèi)存 | 說(shuō)明 |
| 禁用圖形桌面,包括顯示和 UI 相關(guān)服務(wù)。 | 高達(dá) 865 MB | sudo systemctl set-default multi-user.target |
| 禁用網(wǎng)絡(luò)、連接和不必要的日志服務(wù)。 | 高達(dá) 32 MB |
sudo systemctl disable |
表 1. BSP 和 JetPack 級(jí)別的內(nèi)存優(yōu)化旋鈕
NVIDIA Jetson Orin NX 上的開(kāi)挖區(qū)域以及內(nèi)核和用戶空間優(yōu)化是提高整體系統(tǒng)效率的關(guān)鍵領(lǐng)域。以下各節(jié)將探討優(yōu)化這些層的實(shí)用技術(shù)。
雕刻優(yōu)化
NVIDIA Jetson Orin NX 和 NVIDIA Jetson Orin Nano 中的 Carveout 區(qū)域是在啟動(dòng)時(shí)預(yù)留的物理內(nèi)存,用于特定硬件引擎、固件和實(shí)時(shí)子系統(tǒng)。Linux 或NVIDIA CUDA應(yīng)用程序無(wú)法訪問(wèn)它們,而是由片上微控制器和加速器使用。它們充當(dāng)專用內(nèi)存池,以確保隔離、安全性和確定性行為。根據(jù)您的工作流和應(yīng)用程序需求,可以禁用一些分流,以進(jìn)一步優(yōu)化內(nèi)存使用量。
| Carveout | 何時(shí)禁用 | 如何禁用 | 回收的 dram 大小 |
| CARVEOUT_DCE_TSEC |
顯示時(shí) 不需要 |
請(qǐng)參閱注釋 1 然后重新刷寫 |
1 MB |
| CARVEOUT_DCE | 32 MB | ||
| CARVEOUT_DISP_EARLY_BOOT_FB | 34 MB | ||
| CARVEOUT_TSEC_DCE | 1 MB | ||
| CARVEOUT_CAMERA_ 任務(wù)列表 |
當(dāng)相機(jī) 不需要 |
請(qǐng)參閱注釋 2 然后重新刷寫 |
32 MB |
| CARVEOUT_RCE | 1 MB |
表 2. 適用于各種分割的內(nèi)存優(yōu)化旋鈕
注 1:以下示例展示了用戶在不需要顯示時(shí)如何進(jìn)行內(nèi)存優(yōu)化。在 Linux_for_Tegra/bootloader/generic/BCT/tegra234-mb1-bct-misc-p3767-0000.dts 的/misc/carveout/節(jié)點(diǎn)內(nèi)添加代碼段
|
// Display-related carveouts aux_info@CARVEOUT_BPMP_DCE { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; aux_info@CARVEOUT_DCE_TSEC { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; aux_info@CARVEOUT_DCE { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; aux_info@CARVEOUT_DISP_EARLY_BOOT_FB { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; aux_info@CARVEOUT_TSEC_DCE { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; |
將 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 中/mb2-misc/auxp_controls@3/節(jié)點(diǎn)的內(nèi)容更新為:
|
/* Control fields for DCE cluster. */ auxp_controls@3 { enable_init = <0>; enable_fw_load = <0>; enable_unhalt = <0>; reset_vector = <0x40000000>; }; |
刪除 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 的整個(gè)/mb2-misc/auxp_ast_config@6和/mb2-misc/auxp_ast_config@7節(jié)點(diǎn)
使用 dtc 工具將內(nèi)核 dtb 反編譯為 dts,將/display@13800000節(jié)點(diǎn)的狀態(tài)標(biāo)記為disabled,然后將 dts 重新編譯為內(nèi)核 dtb:
|
display@13800000 { status = "disabled"; }; |
注 2: 以下示例展示了用戶如何在不需要攝像頭時(shí)優(yōu)化內(nèi)存。在 Linux_for_Tegra/bootloader/generic/BCT/tegra234-mb1-bct-misc-p3767-0000.dts 的/misc/carveout/節(jié)點(diǎn)內(nèi)添加代碼段:
|
aux_info@CARVEOUT_CAMERA_TASKLIST { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; aux_info@CARVEOUT_RCE { pref_base = <0x0 0x0>; size = <0x0 0x0>; // 0MB alignment = <0x0 0x0>; // 0MB }; |
將 Linux_for_Tegra/bootloader/tegra234-mb2-bct-common.dtsi 的/mb2-misc/auxp_controls = 2/node 的內(nèi)容更新為:
|
/* Control fields for RCE cluster. */ auxp_controls@2 { enable_init = <0>; enable_fw_load = <0>; enable_unhalt = <0>; }; |
內(nèi)核端優(yōu)化
Jetson Orin、Orin NX 和 Orin Nano 平臺(tái)使用 NVIDIA 特定的輸入/ 輸出內(nèi)存管理單元 (IOMMU) 來(lái)處理外設(shè)的直接內(nèi)存訪問(wèn) (DMA) 地址轉(zhuǎn)換,使設(shè)備能夠訪問(wèn)系統(tǒng)內(nèi)存,而不管物理地址如何。
Linux 軟件 I/ O 翻譯旁路緩沖區(qū) (SWIOTLB) 是一種變通方案,適用于沒(méi)有硬件 IOMMU 或外圍設(shè)備限制為 32 位 DMA 的系統(tǒng)。由于 Orin 包含一個(gè)強(qiáng)大的硬件 IOMMU,可重新映射 DMA 地址,因此 SWIOTLB 通常是冗余的。
SWIOTLB 調(diào)優(yōu)
對(duì)于需要 SWIOTLB 的特定用例或非標(biāo)準(zhǔn)外設(shè),或者當(dāng)內(nèi)核日志表明存在 DMA 問(wèn)題時(shí),可以使用啟動(dòng)參數(shù)調(diào)整保留大小。
swiotlb=參數(shù)定義 I/ O TLB 板的數(shù)量 (每個(gè) 2 KB) :
總大小 (字節(jié)) swiotlb_value = 2048
示例 ( 4 MB 緩沖區(qū)) :
4 MB 2 KB 2048 塊板
內(nèi)核命令:swiotlb=2048
用戶空間側(cè)優(yōu)化
在Jetson上,應(yīng)用程序總內(nèi)存包括:
進(jìn)程和系統(tǒng)服務(wù)使用的 CPU 內(nèi)存。
CUDA、多媒體緩沖區(qū)和加速器使用的硬件 (NvMap) 顯存。
兩者共享相同的物理內(nèi)存池,優(yōu)化二者會(huì)相互受益。
減少 CPU 顯存占用
首先,識(shí)別 CPU 內(nèi)存消耗最多的進(jìn)程。GUI 或音頻組件等后臺(tái)服務(wù)可能會(huì)占用大量?jī)?nèi)存,在生產(chǎn)環(huán)境中可能沒(méi)有必要。
測(cè)量 CPU 顯存占用率
使用procrank分析顯存占用率:
|
$ git clone https://github.com/csimmonds/procrank_linux.git $ cd procrank_linux/ $ make $ sudo ./procrank |
輸出按 PSS (比例集大小) 排序,反映實(shí)際物理內(nèi)存使用量。
根據(jù)發(fā)現(xiàn)進(jìn)行優(yōu)化并確定流程
gnome-shell或Xorg(GUI)
pulseaudio
未使用的 python3 進(jìn)程
這些在生產(chǎn)環(huán)境中通常是不必要的,并且可以禁用以回收內(nèi)存。在無(wú)外設(shè)部署中,禁用 GUI 服務(wù)可以釋放大量系統(tǒng)內(nèi)存。

圖 2. 在用戶空間中禁用 GUI 相關(guān)服務(wù)可節(jié)省的內(nèi)存
分析和衡量硬件內(nèi)存使用率
除了 CPU 內(nèi)存之外,GPU 和多媒體分配也會(huì)影響可用內(nèi)存。
| $ sudo cat /sys/kernel/debug/nvmap/iovmm/clients |
* 這顯示了使用 NvMap (例如 CUDA、視頻工作流) 的進(jìn)程的內(nèi)存使用情況。
優(yōu)化硬件內(nèi)存
識(shí)別使用大型 GPU 或緩沖區(qū)分配的進(jìn)程。與 CPU 優(yōu)化一樣,GUI 工作流 (gnome-shell,Xorg) 等服務(wù)可能會(huì)消耗不必要的硬件內(nèi)存。減少這些分配可釋放更多內(nèi)存用于 AI 工作負(fù)載。

圖 3. 識(shí)別用戶空間中占用大型 GPU 或緩沖區(qū)分配內(nèi)存的進(jìn)程
推理工作流
此層通過(guò)預(yù)處理、推理和后處理來(lái)管理端到端數(shù)據(jù)流,以生成可操作的輸出??蚣苋鏝VIDIA DeepStream為視頻和傳感器輸入等流式傳輸數(shù)據(jù)提供 GPU 加速的高性能工作流。它們?cè)诤?jiǎn)化的工作流程中處理解碼、批處理、推理、跟蹤和分析,從而實(shí)現(xiàn)可擴(kuò)展的處理。此層可抽象化復(fù)雜性,優(yōu)化數(shù)據(jù)傳輸和計(jì)算利用率,從而打造高效的生產(chǎn)就緒型 AI 應(yīng)用。
了解如何通過(guò)配置和實(shí)現(xiàn)選項(xiàng)優(yōu)化推理工作流,以減少內(nèi)存占用并提高性能。雖然通過(guò) DeepStream 展示了這些原則,但這些原則廣泛適用于各種框架和應(yīng)用。
| 旋鈕 | 可以回收的內(nèi)存 |
| 容器與裸金屬 | 高達(dá) 70 MB |
| 從 Python 切換到 C++ | 高達(dá) 84 MB |
| 調(diào)整工作流配置: 禁用 Tiler/ OSDUse FakeSink | 高達(dá) 258 MB |
| 總計(jì) | 412 MB |
表 3. 有助于減少 DeepStream 式推理工作流中顯存占用的旋鈕
** 在 DeepStream 式推理工作流中,禁用 Tiler/ OSD 并使用 FakeSink 可以消除可視化所需的顯示階段,但在無(wú)外設(shè)部署或生產(chǎn)部署中卻不必要。這樣可以節(jié)省內(nèi)存、減少 GPU 負(fù)載并提高吞吐量。
推理框架
適用于 LLM 的推理服務(wù)框架層專注于在生產(chǎn)環(huán)境中高效部署和擴(kuò)展大語(yǔ)言模型,其中 vLLM、SGLang 和 Llama.cpp 等框架在該領(lǐng)域處于領(lǐng)先地位。這些框架通過(guò)持續(xù)批處理、KV 緩存管理和高效內(nèi)存利用率等技術(shù)優(yōu)化推理,以更大限度地提高吞吐量并降低延遲。
vLLM 憑借其分頁(yè)注意力機(jī)制在高吞吐量服務(wù)方面表現(xiàn)出色。
SGLang 支持靈活且可編程的推理工作流程。
Llama.cpp 和 NVIDIA TensorRT Edge-LLM 經(jīng)過(guò)優(yōu)化,可在資源受限的環(huán)境中高效執(zhí)行。
這些框架提供了在邊緣本地部署時(shí)可靠地提供 LLM 所需的基礎(chǔ)架構(gòu)。
模型量化
模型量化是一項(xiàng)關(guān)鍵技術(shù),可使用較低精度的數(shù)據(jù)類型表示權(quán)重和激活函數(shù),從而減少內(nèi)存占用并加速 AI 模型的推理。
量化應(yīng)根據(jù)目標(biāo)用例的明確準(zhǔn)確性和性能要求進(jìn)行驅(qū)動(dòng)。在選擇量化方案之前,請(qǐng)定義:
可接受的最低模型質(zhì)量或任務(wù)準(zhǔn)確性。
目標(biāo)吞吐量和延遲。
部署限制,尤其是可用的 GPU 顯存。
鎖定這些要求后,推薦的方法是逐步評(píng)估較低精度的量化選項(xiàng)。從最高準(zhǔn)確度的基準(zhǔn)開(kāi)始,然后向下移動(dòng)至支持的量化格式,直到模型不再滿足所需的質(zhì)量值。選定的量化點(diǎn)應(yīng)是仍能滿足用例準(zhǔn)確性要求的最低精度,因?yàn)檫@通??商峁┳罴训膬?nèi)存節(jié)省量和效率。

圖 4. 在 Llama.cpp ( Jetson Orin NX 16 GB) 上對(duì) Qwen3 4B 進(jìn)行 INT4 與 BF16 基準(zhǔn)測(cè)試,強(qiáng)調(diào)了內(nèi)存和吞吐量的提升
如果低位量化帶來(lái)了不可接受的性能下降,請(qǐng)使用量化感知蒸餾 (QAD)等恢復(fù)技術(shù)來(lái)恢復(fù)丟失的準(zhǔn)確性。這些方法通??梢曰謴?fù)足夠的模型質(zhì)量,在滿足部署要求的同時(shí)實(shí)現(xiàn)更積極的量化。
選擇量化級(jí)別后,優(yōu)化目標(biāo)部署的運(yùn)行時(shí)內(nèi)存。對(duì) vLLM 配置參數(shù) (尤其是 GPU 顯存利用率) 進(jìn)行掃描,找到維持目標(biāo)性能所需的最小顯存占用。這可確保針對(duì)吞吐量和延遲目標(biāo)進(jìn)行規(guī)模合適的高效部署。
FP16 和 FP8 等格式平衡了準(zhǔn)確性和性能,F(xiàn)P8 越來(lái)越多地用于提高吞吐量。W4A16 等更激進(jìn)的方案可減少內(nèi)存和帶寬需求,同時(shí)保持可接受的準(zhǔn)確性。NVIDIA NVFP4通過(guò)硬件友好型 4 位計(jì)算進(jìn)一步提高了效率。這些方法共同為大型模型和資源受限的系統(tǒng)實(shí)現(xiàn)了更快、更經(jīng)濟(jì)高效的推理。支持因 Jetson 平臺(tái)而異,詳情請(qǐng)參閱NVIDIA Jetson產(chǎn)品目錄。
| 旋鈕 | 可以回收的內(nèi)存 | 注意事項(xiàng) |
| Qwen3 8B 上從 FP16 到 W4A16 的模型量化 | ~ 10 GB | Qwen3 8B |
| Qwen3 4B 上從 BF16 到 INT4 的模型量化 | 約 5.6 GB | Qwen3 4B |
表 4. 模型量化中回收的內(nèi)存
根據(jù)所包含和優(yōu)化的五層軟件堆棧組件,可在保持高精度和功能同等的同時(shí)節(jié)省高達(dá) 10 – 12 GB 的內(nèi)存。
使用專用加速器解析邊緣推理
Jetson平臺(tái)包含多個(gè)非 GPU 加速器,可通過(guò)卸載 CPU 和 GPU 中的專用工作負(fù)載來(lái)提高效率。其中包括用于攝像頭處理的圖像信號(hào)處理器 (ISP) 、用于視頻編碼/ 解碼的 NVENC/ NVDEC,以及用于視覺(jué)任務(wù)的 NVIDIA 可編程視覺(jué)加速器 (PVA) 。
從Jetson Orin NX到Jetson Thor的 PVA,非常適合始終開(kāi)啟、低功耗的視覺(jué)工作負(fù)載,例如監(jiān)控模式、移動(dòng)檢測(cè)、目標(biāo)跟蹤和特征提取,在這些工作負(fù)載中,持續(xù)使用 GPU 會(huì)降低效率。通過(guò)卸載這些任務(wù),PVA 可降低延遲并釋放 GPU 資源,以處理更復(fù)雜的推理或并行工作負(fù)載,從而提高邊緣部署的整體性能和能效。
NVIDIA cuPVA SDK 目前處于搶先體驗(yàn)階段。如果您有興趣探索其功能,請(qǐng)聯(lián)系我們以獲取更多信息。
多層間的可能節(jié)省:
| 圖層 | 潛在節(jié)省 |
| BSP 和操作系統(tǒng)服務(wù) | ~ 1025 MB |
| 工作流優(yōu)化 | ~ 412 MB |
| 推理框架和模型量化 | 約 5 至 10 GB |
表 5. 在軟件堆棧的各個(gè)級(jí)別回收內(nèi)存
如果說(shuō)有一個(gè)關(guān)鍵要點(diǎn),那就是使用正確的量化精度。
NVFP4、INT4 和 W4A16 等格式可顯著減少內(nèi)存和存儲(chǔ)需求,同時(shí)為許多 LLM 工作負(fù)載保持較高的準(zhǔn)確性。
實(shí)際用例:Reachy Mini Jetson Mini Assistant
為了展示這些內(nèi)存優(yōu)化的影響,請(qǐng)考慮使用Reachy Mini Jetson Assistant,這是一款在 Jetson Orin Nano 上運(yùn)行的本地對(duì)話式 AI 機(jī)器人,具有 8 GB 統(tǒng)一內(nèi)存,不依賴云。
該助手同時(shí)運(yùn)行多模態(tài) AI 工作流,包括:量化為 4 位 (Q4_K_M GGUF) 并通過(guò) Llama.cpp 提供的視覺(jué)語(yǔ)言模型 (Cosmos-Reason2-2B) ,用于實(shí)現(xiàn)視覺(jué)理解;用于語(yǔ)音識(shí)別的faster-whisper (small.en);用于文本轉(zhuǎn)語(yǔ)音的Kokoro TTS,以及 Reachy Mini SDK 機(jī)器人和實(shí)時(shí) Web 控制面板。
借助堆棧范圍的優(yōu)化 (禁用顯示管理器,無(wú)外設(shè)運(yùn)行,通過(guò) Llama.cpp 而不是更重的 Python 框架提供 VLM,使用 4 位量化 Cosmos Reason2 2B,并選擇優(yōu)化的運(yùn)行時(shí) (適用于 STT 的 CTranslate2、適用于 TTS 和 VAD 的 ONNX Runtime) ,完整的工作流可在單個(gè) Orin Nano 8 GB 系統(tǒng)上運(yùn)行。
更廣泛地說(shuō),將 4 位量化與高效的推理運(yùn)行時(shí) (如Llama.cpp和TensorRT-Edge-LLM) 相結(jié)合,可在此內(nèi)存預(yù)算內(nèi)訪問(wèn)各種模型,其中 LLM 參數(shù)高達(dá) 100 億個(gè),VLM 參數(shù)高達(dá) 40 億個(gè)。如需測(cè)試模型的完整列表,請(qǐng)?jiān)L問(wèn)Jetson AI 實(shí)驗(yàn)室模型頁(yè)面和NVIDIA 開(kāi)發(fā)者論壇。
關(guān)于作者
Anshuman Bhat 是 NVIDIA 的計(jì)算部門產(chǎn)品經(jīng)理。他一直是 NVIDIA CUDA 產(chǎn)品管理團(tuán)隊(duì)的推動(dòng)者,在過(guò)去的 9 年里,他一直為 CUDA 和分布式計(jì)算的所有領(lǐng)域做出貢獻(xiàn)。他目前專注于 CUDA Python、CUDA 教育、CUDA 技術(shù)營(yíng)銷和產(chǎn)品管理計(jì)劃。他還負(fù)責(zé)管理 NVIDIA Legate 產(chǎn)品,包括 Legate、Legion、Realm、cuPyNumeric 和 Legate Boost。
Aditya Sahu 是 NVIDIA Jetson Edge AIP 平臺(tái)團(tuán)隊(duì)的技術(shù)營(yíng)銷工程師。他負(fù)責(zé)推動(dòng)該平臺(tái)的采用,并展示該平臺(tái)的技術(shù)能力。他積極與 NVIDIA 開(kāi)發(fā)者社區(qū)互動(dòng),在 Jetson 上倡導(dǎo) AI 模型推理和 SDK。Hepor 曾在 Synaptics 工作,專注于構(gòu)建邊緣 AI 解決方案,并曾在 Nuvoton 和 Netcracker 擔(dān)任機(jī)器學(xué)習(xí)和軟件工程職務(wù)。他擁有圣何塞州立大學(xué)的人工智能理學(xué)碩士學(xué)位和 Siddaganga 理工學(xué)院的計(jì)算機(jī)科學(xué)理學(xué)學(xué)士學(xué)位。
-
cpu
+關(guān)注
關(guān)注
68文章
11341瀏覽量
226040 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5706瀏覽量
110154 -
AI
+關(guān)注
關(guān)注
91文章
41458瀏覽量
302789 -
模型
+關(guān)注
關(guān)注
1文章
3841瀏覽量
52293
原文標(biāo)題:更大限度地提高內(nèi)存效率,在 NVIDIA Jetson 上運(yùn)行更大的模型
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)
Arm方案 基于Arm架構(gòu)的邊緣側(cè)設(shè)備(樹(shù)莓派或 NVIDIA Jetson Nano)上部署PyTorch模型
如何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型
關(guān)于NVIDIA JETSON TK1板子的話題
NVIDIA Jetson的相關(guān)資料分享
NVIDIA Jetson介紹
如何利用運(yùn)行在NVIDIA的EGX平臺(tái)上的NVIDIA Metropolis應(yīng)用
如何使用Anbox在Jetson Nano 2GB上運(yùn)行Android應(yīng)用程序
如何在NVIDIA Jetson平臺(tái)創(chuàng)建多攝像頭管道
NVIDIA Jetson賦能智騁致想智惠農(nóng)業(yè)平臺(tái)
使用NVIDIA Jetson邊緣AI平臺(tái)實(shí)時(shí)分析患者數(shù)據(jù)
利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI
NVIDIA Jetson 的嵌入式系統(tǒng)AI應(yīng)用
如何在NVIDIA Jetson平臺(tái)上運(yùn)行最新的開(kāi)源AI模型
NVIDIA Jetson模型賦能AI在邊緣端落地
如何在NVIDIA Jetson平臺(tái)上運(yùn)行更大的模型
評(píng)論