在 RTX AI PC 和工作站上使用最新版 RTX AI Toolkit 微調 LLM,最高可將性能提升至原來的 6 倍。
憑借其快速理解、總結和生成基于文本的內(nèi)容的能力,大語言模型(LLM)正在推動 AI 領域中的一些極為激動人心的發(fā)展。
LLM 的這些能力可支持各種場景,包括生產(chǎn)力工具、數(shù)字助理、電子游戲中的 NPC 等。但它們并非萬能的解決方案,開發(fā)者通常必須對 LLM 進行微調,使 LLM 適應他們應用的需求。
NVIDIA RTX AI Toolkit 可通過一種名為“低秩自適應(LoRA)”的技術,讓用戶輕松地在 RTX AI PC 和工作站上微調和部署 AI 模型?,F(xiàn)已推出的最新版支持在 NVIDIA TensorRT-LLM AI 加速庫中同時使用多個 LoRA,最高可將微調模型的性能提升至原來的 6 倍。
通過微調提升性能
LLM 必須經(jīng)過精心定制,才能實現(xiàn)更高的性能并滿足用戶日益增長的需求。
雖然這些基礎模型是基于海量數(shù)據(jù)訓練出來的,但它們通常缺乏開發(fā)者的特定場景所需的上下文。例如,通用型 LLM 可以生成游戲對話,但很可能會忽略文風的細微差別和微妙之處。例如,以一位有著黑暗過往并蔑視權威的林地精靈的口吻編寫對話時,LLM 很有可能會忽略需要展現(xiàn)出來的微妙文風。
為了獲得更符合自己需求的輸出,開發(fā)者可以使用與應用場景相關的信息對模型進行微調。
以開發(fā)一款利用 LLM 生成游戲內(nèi)對話的應用為例。微調時,首先需要使用預訓練模型的權重,例如角色可能會在游戲中說出的內(nèi)容的相關信息。為使對話符合相應文風,開發(fā)者可以基于較小的示例數(shù)據(jù)集(例如以更詭異或更邪惡的語氣編寫的對話)調整模型。
在某些情況下,開發(fā)者可能希望同時運行所有不同的微調流程。例如,他們可能希望為不同的內(nèi)容頻道生成以不同的語氣編寫的營銷文案。同時,他們可能還希望總結文檔并提出文風方面的建議,以及為文生圖工具起草電子游戲場景描述和圖像提示詞。
同時運行多個模型并不現(xiàn)實,因為 GPU 顯存無法同時容納所有模型。即使能同時容納,模型的推理時間也會受制于顯存帶寬(即 GPU 從顯存讀取數(shù)據(jù)的速度)。
擁抱 LoRA 技術
解決上述問題的常用方法是使用低秩自適應(LoRA)等微調技術。簡單來說,您可以將這種技術視為補丁文件,其中包含微調流程中的定制過程。
訓練完畢后,定制的 LoRA 可以在推理過程中與基礎模型無縫集成,額外的性能開銷極少。開發(fā)者可以將多個 LoRA 連接到單個模型上,以服務多種場景。這樣既能使顯存占用率保持在較低水平,又能為各個特定場景提供所需的額外細節(jié)內(nèi)容。

使用多 LoRA 功能通過單個基礎模型同時支持多個客戶端和場景的架構圖
在實際操作中,這意味著應用可以在顯存中只保留一個基礎模型,同時使用多個 LoRA 實現(xiàn)多種定制。
這個過程稱為多 LoRA 服務。當對模型進行多次調用時,GPU 可以并行處理所有調用,更大限度地利用其 Tensor Core 并盡可能減少對顯存和帶寬的需求,以便開發(fā)者在工作流中高效使用 AI 模型。使用多 LoRA 的微調模型的性能最高可提升至原來的 6 倍。

在 GeForce RTX 4090 臺式電腦 GPU 上運行 Llama 3B int4 時,應用 LoRA 的 LLM 的推理性能。輸入序列長度為 1,000 個 token,輸出序列長度為 100 個 token。LoRA 最大秩為 64。
在前文所述的游戲內(nèi)對話應用的示例中,通過使用多 LoRA 服務,應用的范圍可以擴展到同時生成劇情元素和插圖,兩者都是由單個提示驅動的。
用戶可以輸入基本的劇情創(chuàng)意,然后 LLM 會充實這個概念,在基本創(chuàng)意的基礎上進行擴展,提供詳細的基礎劇情。然后,應用可以使用相同的模型,并通過兩個不同的 LoRA 進行增強,以完善劇情并生成相應的圖像。其中一個 LoRA 負責生成 Stable Diffusion 提示詞,以便使用本地部署的 Stable Diffusion XL 模型創(chuàng)建視覺效果。同時,另一個針對劇情寫作進行微調的 LoRA 可以編寫出結構合理、引人入勝的敘事內(nèi)容。
在這種情況下,兩次推理均使用相同的模型,這可確保推理過程所需的空間不會顯著增加。第二次推理涉及文本和圖像生成,采用批量推理的方式執(zhí)行。這使得整個過程能夠在 NVIDIA GPU 上異常快速且高效地推進。這樣一來,用戶便能快速迭代不同版本的劇情,輕松完善敘事和插圖。
LLM 正在成為現(xiàn)代 AI 的一大重要組成部分。隨著采用率和集成率的提升,對于功能強大、速度快、具有特定于應用的定制功能的 LLM 的需求也將與日俱增。RTX AI Toolkit 新增的多 LoRA 支持可為開發(fā)者提供強有力的全新方法來加速滿足上述需求。
-
NVIDIA
+關注
關注
14文章
5495瀏覽量
109017 -
AI
+關注
關注
89文章
38012瀏覽量
295997 -
模型
+關注
關注
1文章
3645瀏覽量
51685
原文標題:不同凡響:NVIDIA RTX AI Toolkit 現(xiàn)提供多 LoRA 支持
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
Lora技術應用領域
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載
制作團隊如何借助NVIDIA RTX AI讓創(chuàng)意成真
NVIDIA計劃打造全球首個工業(yè)AI云平臺
NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡渲染技術的突破性增強功能
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
NVIDIA RTX 4500 Ada與NVIDIA RTX A5000的對比
NVIDIA技術引領媒體行業(yè)AI革新
NVIDIA GeForce RTX 50系列:AI計算機圖形新紀元
$1999 的 RTX 5090 來了

NVIDIA RTX AI Toolkit擁抱LoRA技術
評論