在 RTX AI PC 和工作站上使用最新版 RTX AI Toolkit 微調(diào) LLM,最高可將性能提升至原來的 6 倍。
憑借其快速理解、總結(jié)和生成基于文本的內(nèi)容的能力,大語言模型(LLM)正在推動(dòng) AI 領(lǐng)域中的一些極為激動(dòng)人心的發(fā)展。
LLM 的這些能力可支持各種場景,包括生產(chǎn)力工具、數(shù)字助理、電子游戲中的 NPC 等。但它們并非萬能的解決方案,開發(fā)者通常必須對 LLM 進(jìn)行微調(diào),使 LLM 適應(yīng)他們應(yīng)用的需求。
NVIDIA RTX AI Toolkit 可通過一種名為“低秩自適應(yīng)(LoRA)”的技術(shù),讓用戶輕松地在 RTX AI PC 和工作站上微調(diào)和部署 AI 模型?,F(xiàn)已推出的最新版支持在 NVIDIA TensorRT-LLM AI 加速庫中同時(shí)使用多個(gè) LoRA,最高可將微調(diào)模型的性能提升至原來的 6 倍。
通過微調(diào)提升性能
LLM 必須經(jīng)過精心定制,才能實(shí)現(xiàn)更高的性能并滿足用戶日益增長的需求。
雖然這些基礎(chǔ)模型是基于海量數(shù)據(jù)訓(xùn)練出來的,但它們通常缺乏開發(fā)者的特定場景所需的上下文。例如,通用型 LLM 可以生成游戲?qū)υ挘芸赡軙?huì)忽略文風(fēng)的細(xì)微差別和微妙之處。例如,以一位有著黑暗過往并蔑視權(quán)威的林地精靈的口吻編寫對話時(shí),LLM 很有可能會(huì)忽略需要展現(xiàn)出來的微妙文風(fēng)。
為了獲得更符合自己需求的輸出,開發(fā)者可以使用與應(yīng)用場景相關(guān)的信息對模型進(jìn)行微調(diào)。
以開發(fā)一款利用 LLM 生成游戲內(nèi)對話的應(yīng)用為例。微調(diào)時(shí),首先需要使用預(yù)訓(xùn)練模型的權(quán)重,例如角色可能會(huì)在游戲中說出的內(nèi)容的相關(guān)信息。為使對話符合相應(yīng)文風(fēng),開發(fā)者可以基于較小的示例數(shù)據(jù)集(例如以更詭異或更邪惡的語氣編寫的對話)調(diào)整模型。
在某些情況下,開發(fā)者可能希望同時(shí)運(yùn)行所有不同的微調(diào)流程。例如,他們可能希望為不同的內(nèi)容頻道生成以不同的語氣編寫的營銷文案。同時(shí),他們可能還希望總結(jié)文檔并提出文風(fēng)方面的建議,以及為文生圖工具起草電子游戲場景描述和圖像提示詞。
同時(shí)運(yùn)行多個(gè)模型并不現(xiàn)實(shí),因?yàn)?GPU 顯存無法同時(shí)容納所有模型。即使能同時(shí)容納,模型的推理時(shí)間也會(huì)受制于顯存帶寬(即 GPU 從顯存讀取數(shù)據(jù)的速度)。
擁抱 LoRA 技術(shù)
解決上述問題的常用方法是使用低秩自適應(yīng)(LoRA)等微調(diào)技術(shù)。簡單來說,您可以將這種技術(shù)視為補(bǔ)丁文件,其中包含微調(diào)流程中的定制過程。
訓(xùn)練完畢后,定制的 LoRA 可以在推理過程中與基礎(chǔ)模型無縫集成,額外的性能開銷極少。開發(fā)者可以將多個(gè) LoRA 連接到單個(gè)模型上,以服務(wù)多種場景。這樣既能使顯存占用率保持在較低水平,又能為各個(gè)特定場景提供所需的額外細(xì)節(jié)內(nèi)容。

使用多 LoRA 功能通過單個(gè)基礎(chǔ)模型同時(shí)支持多個(gè)客戶端和場景的架構(gòu)圖
在實(shí)際操作中,這意味著應(yīng)用可以在顯存中只保留一個(gè)基礎(chǔ)模型,同時(shí)使用多個(gè) LoRA 實(shí)現(xiàn)多種定制。
這個(gè)過程稱為多 LoRA 服務(wù)。當(dāng)對模型進(jìn)行多次調(diào)用時(shí),GPU 可以并行處理所有調(diào)用,更大限度地利用其 Tensor Core 并盡可能減少對顯存和帶寬的需求,以便開發(fā)者在工作流中高效使用 AI 模型。使用多 LoRA 的微調(diào)模型的性能最高可提升至原來的 6 倍。

在 GeForce RTX 4090 臺(tái)式電腦 GPU 上運(yùn)行 Llama 3B int4 時(shí),應(yīng)用 LoRA 的 LLM 的推理性能。輸入序列長度為 1,000 個(gè) token,輸出序列長度為 100 個(gè) token。LoRA 最大秩為 64。
在前文所述的游戲內(nèi)對話應(yīng)用的示例中,通過使用多 LoRA 服務(wù),應(yīng)用的范圍可以擴(kuò)展到同時(shí)生成劇情元素和插圖,兩者都是由單個(gè)提示驅(qū)動(dòng)的。
用戶可以輸入基本的劇情創(chuàng)意,然后 LLM 會(huì)充實(shí)這個(gè)概念,在基本創(chuàng)意的基礎(chǔ)上進(jìn)行擴(kuò)展,提供詳細(xì)的基礎(chǔ)劇情。然后,應(yīng)用可以使用相同的模型,并通過兩個(gè)不同的 LoRA 進(jìn)行增強(qiáng),以完善劇情并生成相應(yīng)的圖像。其中一個(gè) LoRA 負(fù)責(zé)生成 Stable Diffusion 提示詞,以便使用本地部署的 Stable Diffusion XL 模型創(chuàng)建視覺效果。同時(shí),另一個(gè)針對劇情寫作進(jìn)行微調(diào)的 LoRA 可以編寫出結(jié)構(gòu)合理、引人入勝的敘事內(nèi)容。
在這種情況下,兩次推理均使用相同的模型,這可確保推理過程所需的空間不會(huì)顯著增加。第二次推理涉及文本和圖像生成,采用批量推理的方式執(zhí)行。這使得整個(gè)過程能夠在 NVIDIA GPU 上異??焖偾腋咝У赝七M(jìn)。這樣一來,用戶便能快速迭代不同版本的劇情,輕松完善敘事和插圖。
LLM 正在成為現(xiàn)代 AI 的一大重要組成部分。隨著采用率和集成率的提升,對于功能強(qiáng)大、速度快、具有特定于應(yīng)用的定制功能的 LLM 的需求也將與日俱增。RTX AI Toolkit 新增的多 LoRA 支持可為開發(fā)者提供強(qiáng)有力的全新方法來加速滿足上述需求。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5592瀏覽量
109711 -
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301349 -
模型
+關(guān)注
關(guān)注
1文章
3751瀏覽量
52097
原文標(biāo)題:不同凡響:NVIDIA RTX AI Toolkit 現(xiàn)提供多 LoRA 支持
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
Lora技術(shù)應(yīng)用領(lǐng)域
lora通信技術(shù)的特點(diǎn)
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA RTX PRO 4500 Blackwell產(chǎn)品特性
NVIDIA RTX AI Toolkit擁抱LoRA技術(shù)
評論