chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LM Studio使用NVIDIA技術(shù)加速LLM性能

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 2025-06-06 15:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開(kāi)發(fā)者和技術(shù)愛(ài)好者正在尋求以更 快、更靈活的方式來(lái)運(yùn)行大語(yǔ)言模型(LLM)。

在配備 NVIDIA GeForce RTX GPU 的 PC 上本地運(yùn)行模型,可實(shí)現(xiàn)高性能推理、增強(qiáng)型數(shù)據(jù)隱私保護(hù),以及對(duì) AI 部署與集成的完全控制。LM Studio 等工具(可免費(fèi)試用)使這一切成為可能,為用戶提供了在自有硬件上探索和構(gòu)建 LLM 的便捷途徑。

LM Studio 已成為最主流的本地 LLM 推理工具之一。該應(yīng)用基于高性能 llama.cpp 運(yùn)行時(shí)構(gòu)建,支持完全離線運(yùn)行模型,還可作為兼容 OpenAI 應(yīng)用編程接口(API)的端點(diǎn),無(wú)縫集成至定制化工作流程。

得益于 CUDA 12.8,LM Studio 0.3.15 的推出提升了 RTX GPU 的性能,模型加載和響應(yīng)時(shí)間均有顯著改善。此次更新還推出數(shù)項(xiàng)面向開(kāi)發(fā)者的全新功能,包括通過(guò)“tool_choice”參數(shù)增強(qiáng)工具調(diào)用能力和重新設(shè)計(jì)的系統(tǒng)提示詞編輯器。

LM Studio 的最新改進(jìn)提高了它的性能和易用性——實(shí)現(xiàn)了 RTX AI PC 上迄今最高的吞吐量。這意味著更快的響應(yīng)速度、更敏捷的交互體驗(yàn),以及更強(qiáng)大的本地 AI 構(gòu)建與集成工具。

日常 App 與 AI 加速相遇

LM Studio 專(zhuān)為靈活性打造 —— 既適用于隨意的實(shí)驗(yàn),也可完全集成至定制化工作流。用戶可以通過(guò)桌面聊天界面與模型交互,或啟用開(kāi)發(fā)者模式部署兼容 OpenAI API 的端點(diǎn)。這使得將本地大語(yǔ)言模型連接到 VS Code 等應(yīng)用的工作流或定制化桌面智能體變得輕而易舉。

例如,LM Studio 可以與 Obsidian 集成,后者是一款廣受歡迎的 Markdown 知識(shí)管理應(yīng)用。使用 Text Generator 和 Smart Connections 等社區(qū)開(kāi)發(fā)的插件,用戶可以生成內(nèi)容、對(duì)研究進(jìn)行摘要并查詢自己的筆記 —— 所有功能均由基于 LM Studio 運(yùn)行的本地大語(yǔ)言模型提供支持。這些插件直接連接到 LM Studio 的本地服務(wù)器,無(wú)需依賴(lài)云服務(wù)即可實(shí)現(xiàn)快速且私密的 AI 交互。

541639bc-4149-11f0-b715-92fbcf53809c.png

使用 LM Studio 生成由 RTX 加速的筆記的示例

0.3.15 更新新增多項(xiàng)開(kāi)發(fā)者功能,包括通過(guò)“tool_choice”參數(shù)實(shí)現(xiàn)更細(xì)粒度的工具控制,以及經(jīng)過(guò)升級(jí)、支持更長(zhǎng)或更復(fù)雜提示詞的系統(tǒng)提示詞編輯器。

tool_choice 參數(shù)使開(kāi)發(fā)者能夠控制模型與外部工具的交互方式 —— 無(wú)論是強(qiáng)制調(diào)用工具、完全禁用工具,還是允許模型動(dòng)態(tài)決策。這種增強(qiáng)的靈活性對(duì)于構(gòu)建結(jié)構(gòu)化交互、檢索增強(qiáng)生成(RAG)工作流或智能體工作流尤為重要。這些更新共同增強(qiáng)了開(kāi)發(fā)者基于大語(yǔ)言模型開(kāi)展實(shí)驗(yàn)和生產(chǎn)用途兩方面的能力。

LM Studio 支持廣泛的開(kāi)源模型(包括 Gemma、Llama 3、Mistral 和 Orca),支持從 4 位到全精度的各種量化格式。

常見(jiàn)場(chǎng)景涵蓋 RAG、長(zhǎng)上下文窗口多輪對(duì)話、基于文檔的問(wèn)答和本地智能體工作流。而 NVIDIA RTX 加速的 llama.cpp 軟件庫(kù)可以作為本地推理服務(wù)器,讓 RTX AI PC 用戶輕松利用本地大語(yǔ)言模型。

無(wú)論是為緊湊型 RTX 設(shè)備實(shí)現(xiàn)能效優(yōu)化,還是在高性能臺(tái)式機(jī)上更大限度地提高吞吐量,LM Studio 能夠在 RTX 平臺(tái)上提供從全面控制、速度到隱私保障的一切。

體驗(yàn) RTX GPU 的最大吞吐量

LM Studio 加速的核心在于 llama.cpp —— 這是一款專(zhuān)為基于消費(fèi)級(jí)硬件進(jìn)行高效推理而設(shè)計(jì)的開(kāi)源運(yùn)行時(shí)。NVIDIA 與 LM Studio 和 llama.cpp 社區(qū)展開(kāi)合作,集成多項(xiàng)增強(qiáng)功能,以盡可能充分地發(fā)揮 RTX GPU 的性能。

關(guān)鍵優(yōu)化包括:

CUDA 計(jì)算圖優(yōu)化:將多個(gè) GPU 操作聚合為單次 CPU 調(diào)用,從而降低 CPU 負(fù)載并可將模型吞吐量提高最多達(dá) 35%。

Flash Attention CUDA 內(nèi)核:通過(guò)改進(jìn)大語(yǔ)言模型的注意力處理機(jī)制(Transformer 模型的核心運(yùn)算),實(shí)現(xiàn)吞吐量額外提升 15%。這可以在不增加顯存或算力需求的前提下,支持更長(zhǎng)的上下文窗口。

支持最新 RTX 架構(gòu):LM Studio 升級(jí)至 CUDA 12.8 版本,確保全面兼容從 GeForce RTX 20 系列到 NVIDIA Blackwell 架構(gòu) GPU 的全部 RTX AI PC 設(shè)備,使用戶能夠靈活擴(kuò)展其本地 AI 工作流 —— 從筆記本電腦到高端臺(tái)式機(jī)。

543e8a7a-4149-11f0-b715-92fbcf53809c.png

數(shù)據(jù)展示了不同版本的 LM Studio 和 CUDA 后端在 GeForce RTX 5080 上運(yùn)行 DeepSeek-R1-Distill-Llama-8B 模型的性能數(shù)據(jù)。所有配置均使用 Q4_K_M GGUF(Int4)量化,在 BS=1、ISL=4000、OSL=200 并開(kāi)啟 Flash Attention 的條件下測(cè)量。得益于 NVIDIA 對(duì) llama.cpp 推理后端的貢獻(xiàn),CUDA 計(jì)算圖在最新版本的 LM Studio 中實(shí)現(xiàn)了約 27% 的加速。

借助兼容的驅(qū)動(dòng),LM Studio 可自動(dòng)升級(jí)到 CUDA 12.8 運(yùn)行時(shí),從而顯著縮短模型加載時(shí)間并提高整體性能。

這些增強(qiáng)功能顯著提升了所有 RTX AI PC 設(shè)備的推理流暢度與響應(yīng)速度 —— 從輕薄筆記本到高性能臺(tái)式機(jī)與工作站。

LM Studio 使用入門(mén)

LM Studio 提供免費(fèi)下載,支持 Windows、macOS 和 Linux 系統(tǒng)。借助最新的 0.3.15 版本以及持續(xù)優(yōu)化,用戶將在性能、定制化與易用性方面得到持續(xù)提升 —— 讓本地 AI 更快、更靈活、更易用。

用戶既能通過(guò)桌面聊天界面加載模型,也可以啟用開(kāi)發(fā)者模式,開(kāi)放兼容 OpenAI API 的接口。

要快速入門(mén),請(qǐng)下載最新版本的 LM Studio 并打開(kāi)應(yīng)用。

1、點(diǎn)擊左側(cè)面板上的放大鏡圖標(biāo)以打開(kāi) Discover(發(fā)現(xiàn))菜單。

548d7d24-4149-11f0-b715-92fbcf53809c.png

2、選擇左側(cè)面板中的運(yùn)行時(shí)設(shè)置,然后在可用性列表中搜索 CUDA 12 llama.cpp(Windows)運(yùn)行時(shí)。點(diǎn)擊按鈕進(jìn)行下載與安裝。

54abbb54-4149-11f0-b715-92fbcf53809c.png

3、安裝完成后,通過(guò)在“默認(rèn)選擇”下拉菜單中選擇 CUDA 12 llama.cpp(Windows),將 LM Studio 默認(rèn)配置為此運(yùn)行時(shí)環(huán)境。

54cb519e-4149-11f0-b715-92fbcf53809c.png

4、完成 CUDA 執(zhí)行優(yōu)化的最后步驟:在 LM Studio 中加載模型后,點(diǎn)擊已加載模型左側(cè)的齒輪圖標(biāo)進(jìn)入設(shè)置菜單。

54eddd0e-4149-11f0-b715-92fbcf53809c.png

5、在展開(kāi)的下拉菜單中,將“Flash Attention”功能切換為開(kāi)啟狀態(tài),并通過(guò)向右拖動(dòng)“GPU Offload”(GPU 卸載)滑塊將所有模型層轉(zhuǎn)移至 GPU。

55092c4e-4149-11f0-b715-92fbcf53809c.png

完成這些功能的啟用與配置后,即可在本地設(shè)備上運(yùn)行 NVIDIA GPU 推理任務(wù)了。

LM Studio 支持模型預(yù)設(shè)、多種量化格式及開(kāi)發(fā)者控制項(xiàng)比如 tool_choice,以實(shí)現(xiàn)調(diào)優(yōu)的推理。對(duì)于希望參與貢獻(xiàn)的開(kāi)發(fā)者,llama.cpp 的 GitHub 倉(cāng)庫(kù)持續(xù)積極維護(hù),并隨著社區(qū)與 NVIDIA 驅(qū)動(dòng)的性能優(yōu)化持續(xù)演進(jìn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5494

    瀏覽量

    109016
  • Studio
    +關(guān)注

    關(guān)注

    2

    文章

    221

    瀏覽量

    30527
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    340

    瀏覽量

    1256

原文標(biāo)題:LM Studio 借助 NVIDIA GeForce RTX GPU 和 CUDA 12.8 加速 LLM 性能

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類(lèi)別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1279次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專(zhuān)為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)
    的頭像 發(fā)表于 07-04 14:38 ?1713次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    問(wèn)題,但會(huì)降低舊GPU硬件性能,可通過(guò)NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計(jì)算需要啟用,可通過(guò)命令行工具nv
    發(fā)表于 12-16 14:25

    NVIDIA Jetson介紹

    首發(fā)極術(shù)社區(qū)如對(duì)Arm相關(guān)技術(shù)感興趣,歡迎私信 aijishu20加入技術(shù)微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計(jì)算平臺(tái),具有低功耗、高性能和小體積等特點(diǎn),可
    發(fā)表于 12-14 08:05

    NVIDIA Studio開(kāi)創(chuàng)創(chuàng)意性能的新時(shí)代

    頂尖的游戲美術(shù)師、制作人、開(kāi)發(fā)者和設(shè)計(jì)師在一年一度游戲開(kāi)發(fā)者大會(huì)(GDC)齊聚一堂。在他們交流創(chuàng)意、相互學(xué)習(xí)和啟發(fā)的同時(shí),由RTX加速應(yīng)用、硬件和驅(qū)動(dòng)程序組成的NVIDIA Studio生態(tài)系統(tǒng)也助
    的頭像 發(fā)表于 08-02 11:22 ?2458次閱讀

    NVIDIA Studio技術(shù)如何加速創(chuàng)意工作流

    編輯注:本文是 NVIDIA Studio 創(chuàng)意加速系列的一部分,該系列旨在介紹一些特邀藝術(shù)家、提供創(chuàng)意提示和技巧,并展示 NVIDIA Studi
    的頭像 發(fā)表于 08-12 11:21 ?1610次閱讀

    GTC 大會(huì)亮點(diǎn) NVIDIA Studio AI 助力藝術(shù)加速

    GTC 大會(huì)亮點(diǎn) NVIDIA Studio AI 助力藝術(shù)加速 NVIDIA Studio 技術(shù)
    的頭像 發(fā)表于 03-22 18:24 ?2958次閱讀

    GTC23 | NVIDIA性能加速網(wǎng)絡(luò)專(zhuān)場(chǎng)限時(shí)回放已開(kāi)啟!

    歡迎收看 NVIDIA性能加速網(wǎng)絡(luò)專(zhuān)場(chǎng)回放! NVIDIA性能加速網(wǎng)絡(luò)專(zhuān)場(chǎng)涵蓋六大主題,
    的頭像 發(fā)表于 03-25 22:05 ?1252次閱讀

    周四研討會(huì)預(yù)告 | 注冊(cè)報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)

    推理加速和部署的服務(wù)化實(shí)現(xiàn)管道、性能收益,以及金融行業(yè)加速計(jì)算解決方案,為您 LLM 和生成式 AI 開(kāi)發(fā)的增效降本提供領(lǐng)先的技術(shù)路線參考
    的頭像 發(fā)表于 10-26 09:05 ?642次閱讀

    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語(yǔ)言模型推理

    NVIDIA 于 2023 年 10 月 19 日公開(kāi)發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優(yōu)化最新的大語(yǔ)言模型(Large Language Mode
    的頭像 發(fā)表于 10-27 20:05 ?1804次閱讀
    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> 優(yōu)化大語(yǔ)言模型推理

    NVIDIA加速微軟最新的Phi-3 Mini開(kāi)源語(yǔ)言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開(kāi)源語(yǔ)言模型。TensorRT-LLM
    的頭像 發(fā)表于 04-28 10:36 ?1470次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵
    的頭像 發(fā)表于 07-24 11:38 ?2722次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專(zhuān)為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?1593次閱讀

    Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開(kāi)發(fā)

    了精準(zhǔn)的方言及小語(yǔ)種大語(yǔ)言模型 (LLM)。此舉成功解決了數(shù)據(jù)稀缺、語(yǔ)言復(fù)雜及計(jì)算效率等挑戰(zhàn),為全球數(shù)以百萬(wàn)計(jì)、缺乏數(shù)字化資源的語(yǔ)言使用者提供了技術(shù)支持。
    的頭像 發(fā)表于 08-20 14:21 ?633次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?712次閱讀