來源:NVIDIA英偉達(dá)
數(shù)據(jù)飛輪是一種反饋循環(huán)機(jī)制,通過從交互或流程中收集數(shù)據(jù),持續(xù)優(yōu)化 AI 模型,進(jìn)而產(chǎn)生更優(yōu)的結(jié)果和更有價(jià)值的數(shù)據(jù)。
1AI 數(shù)據(jù)飛輪的工作原理是什么?
AI 數(shù)據(jù)飛輪的工作原理是通過創(chuàng)造循環(huán)機(jī)制,幫助 AI 模型整合機(jī)構(gòu)知識(shí)與用戶反饋,從而實(shí)現(xiàn)持續(xù)的改進(jìn)。當(dāng)模型生成輸出結(jié)果時(shí),數(shù)據(jù)飛輪會(huì)將反饋與新數(shù)據(jù)收集起來,用于模型的優(yōu)化與增強(qiáng)。這一流程涉及數(shù)據(jù)管護(hù)與數(shù)據(jù)質(zhì)量的提升,以便確保 AI 模型的精度和性能均得到持續(xù)改善。
數(shù)據(jù)飛輪:由數(shù)據(jù)處理、模型定制、評(píng)估、護(hù)欄和及部署構(gòu)成的持續(xù)運(yùn)轉(zhuǎn)周期,能夠利用企業(yè)數(shù)據(jù)改進(jìn) AI 系統(tǒng)
此外,數(shù)據(jù)飛輪內(nèi)置 AI 護(hù)欄,以保持?jǐn)?shù)據(jù)的完整性和可靠性,確保輸出結(jié)果準(zhǔn)確、合規(guī)、安全。這種持續(xù)的反饋和增強(qiáng)周期能夠使 AI 模型的效能與日俱增。這一工作流由六大步驟組成:
數(shù)據(jù)處理:AI 數(shù)據(jù)飛輪的基礎(chǔ)是企業(yè)數(shù)據(jù)。這類數(shù)據(jù)形式多樣,包括文本文檔、圖像、視頻、表格和圖表。AI 數(shù)據(jù)飛輪需要通過對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理來提取和優(yōu)化信息。隨后,原始數(shù)據(jù)將接受進(jìn)一步的篩選,去除低質(zhì)量文檔、個(gè)人身份信息 (PII) 與不良、有害數(shù)據(jù),生成高質(zhì)量數(shù)據(jù)。這樣的數(shù)據(jù)管護(hù)能夠有效提高應(yīng)用的準(zhǔn)確性。
模型定制:借助領(lǐng)域自適應(yīng)預(yù)訓(xùn)練 (DAPT) 和監(jiān)督式微調(diào) (SFT) 等大語言模型 (LLM) 技術(shù),您能夠在資源要求較低情況下,快速為模型增添領(lǐng)域特定知識(shí)與任務(wù)專屬技能。到這一步,模型已對(duì)公司的特有詞匯和上下文有了更深的理解。
模型評(píng)估:接下來,您可以評(píng)估模型性能、驗(yàn)證答案(輸出)是否符合應(yīng)用的要求。以迭代的方式執(zhí)行前三步,能夠確保模型質(zhì)量得到改進(jìn),且結(jié)果符合目標(biāo)應(yīng)用的要求。
AI 護(hù)欄實(shí)施:將 AI 護(hù)欄添加到定制模型中,可確保應(yīng)用的部署符合企業(yè)對(duì)隱私、安全保障和安全的特定要求。
自定義模型部署:在同時(shí)部署生成式 AI 和代理式 AI 應(yīng)用時(shí),從不斷擴(kuò)大的數(shù)據(jù)庫中持續(xù)檢索信息。用戶反饋和系統(tǒng)運(yùn)行數(shù)據(jù)會(huì)被反復(fù)收集。借助 AI 數(shù)據(jù)飛輪,您可以在基于應(yīng)用交互構(gòu)建機(jī)構(gòu)知識(shí)的同時(shí),生成經(jīng)優(yōu)化、更智能的答案。
企業(yè)數(shù)據(jù)優(yōu)化:由此產(chǎn)生的結(jié)果就是,隨著時(shí)間推移,機(jī)構(gòu)數(shù)據(jù)會(huì)基于收集自人類反饋和 AI 模型反饋的新數(shù)據(jù)持續(xù)更新。隨著流程的重復(fù),這一過程將反饋到數(shù)據(jù)處理中。
2擴(kuò)展 AI 數(shù)據(jù)飛輪策略的目的是什么?
現(xiàn)實(shí)世界的 AI 智能體系統(tǒng)可能包含數(shù)百至數(shù)千個(gè) AI 智能體,通過同時(shí)工作來實(shí)現(xiàn)流程的自動(dòng)化。數(shù)據(jù)飛輪對(duì)于簡(jiǎn)化智能體操作(如審查新數(shù)據(jù))至關(guān)重要,特別是在業(yè)務(wù)需求發(fā)生變化的情況下。這可確保 AI 智能體編排更加流暢,因?yàn)閷I(yè)化的 AI 智能體團(tuán)隊(duì)可以提供針對(duì)資源優(yōu)化的規(guī)劃,并以更少的人工輸入執(zhí)行這些計(jì)劃。
代理式 AI 的可擴(kuò)展性依賴于由數(shù)據(jù)管護(hù)、模型訓(xùn)練、部署以及機(jī)構(gòu)知識(shí)收集審查構(gòu)成的自動(dòng)化周期,最終實(shí)現(xiàn)智能體性能的不斷提升。
此外,AI 應(yīng)用還涉及若干身擔(dān)特定職責(zé)的人類協(xié)作者:
3為什么數(shù)據(jù)飛輪對(duì)于代理式 AI和生成式 AI 的采用至關(guān)重要?
在采用 AI 智能體和生成式 AI 應(yīng)用時(shí),需要借助數(shù)據(jù)飛輪來推動(dòng)軟件持續(xù)改進(jìn)、提升適應(yīng)性。例如,隨著業(yè)務(wù)需求發(fā)生變化或復(fù)雜性增加,性能和成本往往成為決定商業(yè)成敗的關(guān)鍵。
借助高效的 AI 數(shù)據(jù)飛輪,企業(yè)組織可以:
開發(fā)符合業(yè)務(wù)或客戶需求且經(jīng)濟(jì)高效的應(yīng)用。
對(duì)產(chǎn)品進(jìn)行個(gè)性化和優(yōu)化,改善用戶體驗(yàn)。
達(dá)成切實(shí)的目標(biāo),如提高銷售轉(zhuǎn)化率或通過實(shí)施自動(dòng)化提升生產(chǎn)力。
為保持競(jìng)爭(zhēng)優(yōu)勢(shì),企業(yè)組織可以收集處理新的交互數(shù)據(jù)、優(yōu)化 AI 模型,并逐步提升其 AI 應(yīng)用的性能。從 LLM 到視覺語言模型 (VLM),可用于集成的數(shù)據(jù)類型豐富多樣。
開發(fā)團(tuán)隊(duì)也可以加快模型訓(xùn)練速度,專注于利用其專有數(shù)據(jù)對(duì)現(xiàn)有基礎(chǔ)模型進(jìn)行調(diào)優(yōu)。生成式 AI 微服務(wù)可通過 API 調(diào)用進(jìn)一步簡(jiǎn)化這一流程。
這種方法能夠大幅減少開發(fā)和部署代理式 AI 和生成式 AI 解決方案所需的時(shí)間和資源。
4應(yīng)該在何時(shí)對(duì)數(shù)據(jù)飛輪進(jìn)行加速?
加速 AI 數(shù)據(jù)飛輪對(duì)解決與代理式 AI 技術(shù)相關(guān)的依賴關(guān)系具有重要意義。
例如,如果沒有集中式反饋和日志記錄系統(tǒng),我們就難以對(duì)系統(tǒng)性能進(jìn)行跟蹤和分析,而這有可能影響數(shù)據(jù)飛輪的運(yùn)行速度。如果評(píng)估數(shù)據(jù)集不能準(zhǔn)確反映現(xiàn)實(shí)世界場(chǎng)景,就有可能導(dǎo)致模型性能欠佳。
隨著知識(shí)庫的更新,系統(tǒng)反饋的相關(guān)性可能會(huì)下降,從而使飛輪難以實(shí)現(xiàn)持續(xù)改進(jìn)。人工干預(yù)雖然有益,但需要耗費(fèi)大量資源和時(shí)間。解決這一問題,將有助于在加速數(shù)據(jù)飛輪同時(shí)保持其效能。
這樣一來,當(dāng)系統(tǒng)層面發(fā)生大量影響性能的交互時(shí),加速就變得很有必要。例如,在生成式 AI 應(yīng)用中,準(zhǔn)確性和與符合人類偏好很重要。在代理式 AI 應(yīng)用中,則需要 AI 知識(shí)工作者對(duì)計(jì)劃進(jìn)行簡(jiǎn)化和執(zhí)行。
5如何開始使用數(shù)據(jù)飛輪?
要借助數(shù)據(jù)飛輪構(gòu)建新一代代理式 AI 和生成式 AI 應(yīng)用,需要對(duì)機(jī)構(gòu)數(shù)據(jù)進(jìn)行快速迭代和利用。
NVIDIA NeMo 是一個(gè)用于構(gòu)建數(shù)據(jù)飛輪的端到端平臺(tái),可助力企業(yè)利用最新信息對(duì) AI 智能體進(jìn)行持續(xù)優(yōu)化。
借助 NeMo,企業(yè) AI 開發(fā)者能夠輕松完成對(duì)數(shù)據(jù)的大規(guī)模管護(hù),利用熱門調(diào)優(yōu)技術(shù)定制 LLM,根據(jù)行業(yè)和自定義基準(zhǔn)測(cè)試對(duì)模型進(jìn)行具有一致性的評(píng)估,并在護(hù)欄的保障下得到適用且可靠的輸出結(jié)果。
NeMo 平臺(tái)包含:
NeMo Curator:可高效管護(hù)用于訓(xùn)練 LLM 的高質(zhì)量數(shù)據(jù)集,從而起到提高模型性能、加速 AI 解決方案部署的作用。
NeMo Customizer:一項(xiàng)高性能、可擴(kuò)展的微服務(wù),可運(yùn)用 LoRA、DPO 等熱門參數(shù)高效調(diào)優(yōu)技術(shù),簡(jiǎn)化 LLM 的微調(diào)和校準(zhǔn)工作。
NeMo Evaluator:一項(xiàng)企業(yè)級(jí)微服務(wù),用于提供生成式 AI 模型的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試、合成數(shù)據(jù)生成以及端到端的 RAG 工作流。
NeMo Guardrails:一項(xiàng)面向開發(fā)者的微服務(wù),可幫助開發(fā)者在基于 LLM 的應(yīng)用中實(shí)現(xiàn)強(qiáng)大的安全性和保障措施,確保這些應(yīng)用始終具有可靠性,且符合組織的政策和指南。
NeMo Retriever:一組微服務(wù),可通過可擴(kuò)展的數(shù)據(jù)采集和高精度的隱私保護(hù)檢索為 AI 數(shù)據(jù)飛輪賦能。依靠源自大型數(shù)據(jù)集合、具有上下文感知能力的快速響應(yīng)能力,開發(fā)者能夠?qū)?AI 應(yīng)用與不同數(shù)據(jù)源連接起來,構(gòu)建 AI 查詢引擎,并利用實(shí)時(shí)洞察對(duì) AI 模型進(jìn)行持續(xù)優(yōu)化。
-
AI
+關(guān)注
關(guān)注
88文章
36980瀏覽量
289822 -
模型
+關(guān)注
關(guān)注
1文章
3609瀏覽量
51414 -
智能體
+關(guān)注
關(guān)注
1文章
362瀏覽量
11414
原文標(biāo)題:麗臺(tái)科普丨什么是數(shù)據(jù)飛輪?
文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
FLASH的工作原理與應(yīng)用

評(píng)論