案例簡介
Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓練框架及 Auto Configurator 優(yōu)化工具,高效構(gòu)建了精準的方言及小語種大語言模型 (LLM)。此舉成功解決了數(shù)據(jù)稀缺、語言復雜及計算效率等挑戰(zhàn),為全球數(shù)以百萬計、缺乏數(shù)字化資源的語言使用者提供了技術(shù)支持。
用技術(shù)打破小眾語言數(shù)字化障礙
Votee AI 是一家致力于通過人工智能推動語言多樣性發(fā)展與文化遺產(chǎn)保護的初創(chuàng)公司。全球有超過 6000 種語言,其中大量是缺乏數(shù)字化資源的方言和小語種(如粵語、伊班語、爪哇語等)。Votee AI 的使命是“讓 AI 技術(shù)以用戶的母語服務社區(qū)”,專注于為這些語言開發(fā)先進的 LLM。
Votee AI 提供定制化的 AI 語言解決方案,服務范圍覆蓋教育、媒體、金融、零售、公共服務和文化遺產(chǎn)保護等多個領(lǐng)域。公司自主研發(fā)的粵語 LLM,是一個開源、開放數(shù)據(jù)和開放模型的項目,旨在服務全球的粵語使用者。通過技術(shù)創(chuàng)新,Votee AI 希望打破小眾語言面臨的數(shù)字化障礙,不僅為這些語言社群提供更貼近本土需求的 AI 工具,更以科技力量守護全球的語言多樣性。
小語種 LLM 構(gòu)建的嚴峻挑戰(zhàn)
為粵語等方言和小語種構(gòu)建高性能的 LLM,面臨著幾大嚴峻挑戰(zhàn):
嚴重的數(shù)據(jù)稀缺性與質(zhì)量問題:與英語或普通話等資源豐富的語言相比,粵語等方言和小語種的高質(zhì)量、適用于計算處理的文本數(shù)據(jù)極其有限。現(xiàn)有的網(wǎng)絡爬取數(shù)據(jù)往往充滿噪聲、格式不一致,甚至包含錯誤信息,且可能存在地域或主題偏差,影響模型訓練的基礎(chǔ)和泛化能力。
語言本身的復雜性:粵語等語言擁有豐富的俚語、口語化表達、網(wǎng)絡用語以及獨特的語法結(jié)構(gòu)和聲調(diào)系統(tǒng)(例如粵語的“水文化”習語)。傳統(tǒng) NLP 模型和分詞器難以準確捕捉這些細微差別,容易導致理解錯誤、生成不自然甚至完全錯誤的“幻覺”內(nèi)容。
巨大的計算需求:訓練能夠理解復雜語言細微差別的大規(guī)模 LLM 需要強大的計算能力。傳統(tǒng)的 CPU 計算方案或資源不足的 GPU 環(huán)境會導致訓練周期過長(數(shù)周甚至數(shù)月),使得模型迭代、實驗和優(yōu)化變得極其緩慢和昂貴,難以快速響應需求或改進模型。
評估困難:標準的 NLP 評估指標(如 BLEU、ROUGE)可能不足以全面衡量模型在方言和小語種上的真實表現(xiàn),特別是在理解文化背景和口語地道性方面。需要結(jié)合語言特定指標和成本高昂的人工評估。
NVIDIA 技術(shù)加速方言小語種 LLM 開發(fā)
面對這些挑戰(zhàn),Votee AI 選擇采用端到端的 NVIDIA 技術(shù)進行賦能,利用其硬件和軟件堆棧來加速和優(yōu)化方言和小語種語言 LLM 的開發(fā)流程:
硬件基礎(chǔ):Votee AI 借助 NVIDIA GPU 所具備的大規(guī)模并行計算能力,為數(shù)據(jù)處理與模型訓練提供了核心支撐,成為應對計算密集型任務的底層技術(shù)基礎(chǔ)。
數(shù)據(jù)準備與清洗:為了解決數(shù)據(jù)稀缺和質(zhì)量問題,Votee AI 利用NVIDIA NeMo Curator進行高效的數(shù)據(jù)準備。NeMo Curator 是一個 GPU 加速的數(shù)據(jù)整理庫,能夠處理從數(shù)據(jù)下載、提?。ㄖС?Common Crawl, Wikipedia 等)、清洗(語言識別、格式化、去噪、自定義規(guī)則處理粵語特定字符和表達)、過濾到去重(精確/模糊)的全流程。結(jié)合 NVIDIA RAPIDS cuDF 進行底層加速,數(shù)據(jù)清洗和分詞等預處理任務速度提升了 20 倍,例如,處理 1TB 的粵語語料庫,清理時間從數(shù)周縮短至僅需 2 小時,確保了輸入模型的數(shù)據(jù)質(zhì)量和處理效率。
模型訓練:Votee AI 采用NVIDIA NeMo Framework,這是一個端到端的平臺,用于開發(fā)和訓練大規(guī)模語言模型。利用其 NeMo Megatron 組件,Votee AI 能夠:
a. 高效分布式訓練:在多 GPU 和多節(jié)點環(huán)境上高效擴展訓練,支持張量并行 (TP)、流水線并行 (PP) 等多種并行策略。
b. 混合精度訓練:使用 BF16 混合精度進行訓練,顯著減少內(nèi)存占用并加速計算,使 Votee AI 的 120 億參數(shù)粵語模型訓練時間縮短了 40%(從預計 14 天減少到 8.4 天)。
c. 靈活架構(gòu)與優(yōu)化:支持多種 Transformer 架構(gòu),并允許針對方言和小語種進行調(diào)整(如模型大小、正則化策略、遷移學習)。
優(yōu)化與評估:
a. 自動配置優(yōu)化:使用NVIDIA Auto Configurator自動搜索和推薦影響訓練吞吐量和效率的最佳超參數(shù)組合(如并行策略 TP/PP、微批量大小 MBS 等),簡化了復雜的配置過程,幫助快速找到最優(yōu)訓練方案。
b. 超參數(shù)調(diào)優(yōu):利用NVIDIA cuML(RAPIDS 的一部分)進行加速的自動化超參數(shù)調(diào)優(yōu),以提升模型在下游任務上的性能。這使得模型的困惑度 (Perplexity) 降低了 15%,并在粵語特定評估任務中(如 BLEU 分數(shù))提升了 22%,顯著增強了模型對粵語俚語和口語化表達的理解能力。
通過整合這些 NVIDIA 技術(shù),Votee AI 建立了一個高效、可擴展的工作流程,專用于應對方言和小語種語言 LLM 開發(fā)的獨特挑戰(zhàn)。
使用效果及影響
通過采用 NVIDIA AI 技術(shù),Votee AI 在為方言和小語種(以粵語為起點)構(gòu)建 LLM 方面取得了顯著的成果:
大幅提升研發(fā)效率:借助 NVIDIA GPU和 NeMo 軟件棧,Votee AI 的模型迭代周期縮短了 50%,從原來的平均 6 周減少到僅需 3 周。這使得團隊能夠更快地進行實驗、優(yōu)化模型并響應社區(qū)需求。
顯著提高模型準確性與魯棒性:通過 NeMo Curator 精心準備數(shù)據(jù)和 NeMo Framework 以及 Nemo Megatron 進行優(yōu)化訓練,結(jié)合 cuML 進行超參數(shù)調(diào)優(yōu),所構(gòu)建的粵語 LLM 在理解復雜粵語(包括俚語和口語)方面的準確率從基線的 68% 提高到了 89%。這確保了模型在實際應用中能提供更自然、更精準的交互。
增強應用性能與用戶體驗:GPU 的高效計算能力不僅加速了訓練,還將模型推理速度提高了 3 倍。這意味著基于該 LLM 的應用(如智慧客服、教育工具、媒體內(nèi)容生成)能夠?qū)崟r響應用戶查詢,提供更流暢、更自然的交互體驗。
推動語言包容性與文化傳承:Votee AI 構(gòu)建的高質(zhì)量粵語 LLM 為全球粵語使用者提供先進 AI 工具,既彌合數(shù)字鴻溝,也助力粵語文化遺產(chǎn)保護與傳承。
奠定可擴展的基礎(chǔ):Votee AI 使用 NVIDIA 技術(shù)構(gòu)建的這套方法論和技術(shù)架構(gòu)具有高度可擴展性,正在被應用于開發(fā)其他方言和小語種(如伊班語、爪哇語)的 LLM,推動 AI 技術(shù)在全球多語言環(huán)境中的公平普及和創(chuàng)新應用。
Votee AICTO陳豪杰表示:“借助NVIDIA GPU和NeMo Framework,我們成功克服了方言和小語種建模中數(shù)據(jù)稀缺性和語言復雜性的挑戰(zhàn)。這使得我們能夠高效、精準地開發(fā)AI應用,并使粵語及其他語言的大模型和AI場景能夠真正在世界各地落地應用,賦能全球使用這些語言的社區(qū)?!?/p>
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5430瀏覽量
108209 -
AI
+關(guān)注
關(guān)注
88文章
36980瀏覽量
289814 -
模型
+關(guān)注
關(guān)注
1文章
3609瀏覽量
51411 -
LLM
+關(guān)注
關(guān)注
1文章
337瀏覽量
1131
原文標題:初創(chuàng)加速計劃 | NVIDIA 助力 Votee AI 構(gòu)建方言及小語種語言大模型
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Cadence 借助 NVIDIA DGX SuperPOD 模型擴展數(shù)字孿生平臺庫,加速 AI 數(shù)據(jù)中心部署與運營
全球知名品牌借助NVIDIA技術(shù)規(guī)模化交付個性化廣告
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
NVIDIA攜手諾和諾德借助AI加速藥物研發(fā)
歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型
LM Studio使用NVIDIA技術(shù)加速LLM性能

Wandercraft借助NVIDIA技術(shù)開發(fā)個人外骨骼設備
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
通用汽車和NVIDIA合作構(gòu)建定制化AI系統(tǒng)
NVIDIA AI Foundry服務助力藥物和醫(yī)療設備開發(fā)
NVIDIA發(fā)布Cosmos平臺,加速物理AI開發(fā)
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

評論