在工作流程中利用人工智能的企業(yè)面臨的主要挑戰(zhàn)之一是管理支持大規(guī)模培訓(xùn)和部署機器學習( ML )模型所需的基礎(chǔ)設(shè)施。為此,NVIDIA FLARE平臺提供了一個解決方案:聯(lián)合學習,使得跨企業(yè)管理復(fù)雜的人工智能工作流變得更加容易。
NVIDIA FLARE 2.3.0 是 NVIDIA 聯(lián)合學習平臺的最新版本,其中包含了令人興奮的新功能和增強功能,如:
使用基礎(chǔ)設(shè)施作為代碼的多云支持( IaC )
自然語言處理( NLP )示例,包括 BERT 和 GPT-2
用于分離數(shù)據(jù)和標簽的拆分學習
這篇文章詳細介紹了這些功能,并探討了它們?nèi)绾螏椭慕M織提升人工智能工作流程,并通過機器學習獲得更好的結(jié)果。
多云部署
有了這個版本,您現(xiàn)在可以使用 IaC 無縫管理您的多云基礎(chǔ)設(shè)施,利用不同云提供商的優(yōu)勢,并分配您的工作負載以提高效率和可靠性。 IaC 使您能夠自動化基礎(chǔ)設(shè)施的管理和部署,從而節(jié)省時間并降低人為錯誤的風險。 NVIDIA FLARE 2.3.0 支持在 Microsoft Azure 和 AWS 云上進行自動部署。
要在云中部署 NVIDIA FLARE,請使用 NVIDIA FLARE CLI 命令創(chuàng)建基礎(chǔ)結(jié)構(gòu)、部署和啟動 Dashboard UI、FL Server 和 FL Client。要在云中創(chuàng)建和部署 NVIDIA FLARE,請按照NVIDIA FLARE 啟動套件,由 NVIDIA FLARE 資源調(diào)配過程生成并分發(fā)給服務(wù)器和客戶端的簽名軟件包。
/start.sh --cloud azure | aws /start.sh --cloud azure | aws nvflare dashboard --cloud azure | aws
這些命令將創(chuàng)建資源組、網(wǎng)絡(luò)、安全、計算運行時實例等(作為代碼的基礎(chǔ)結(jié)構(gòu)),并將 NVIDIA FLARE 客戶端或服務(wù)器部署到新創(chuàng)建的虛擬機( VM )。每個啟動工具包都包含可獨立部署的 FLARE 服務(wù)器或客戶端的唯一配置。這讓用戶可以靈活地在 prem 或混合云服務(wù)提供商(例如 AWS 上的服務(wù)器以及 Azure 和/或 AWS 上的客戶端)上進行部署,以實現(xiàn)簡單的混合多云配置。
圖 1 。用于設(shè)置多云部署的 NVIDIA FLARE 單行 CLI 命令
LLM 和聯(lián)合學習
Large language models(LLM)正在開啟多個行業(yè)的新可能性,比如醫(yī)療保健中的藥物發(fā)現(xiàn)。要了解更多詳情,請參見NVIDIA BioNeMo Service 建立生成式 AI 管道以進行藥物發(fā)現(xiàn)。
在 LLM 培訓(xùn)中利用聯(lián)合學習有許多好處,包括:
保護數(shù)據(jù)隱私:模型可以在數(shù)據(jù)不離開前提的情況下進行訓(xùn)練。即使在同一個組織中,數(shù)據(jù)位于世界不同地區(qū)的不同部門,這一點也可能很重要。例如,考慮到不同的國家隱私法,可能不可能將存儲在歐洲和中國的數(shù)據(jù)復(fù)制到一個集中的數(shù)據(jù)湖中。
避免數(shù)據(jù)移動:即使不關(guān)心隱私,將大量數(shù)據(jù)從一個位置復(fù)制到另一個位置也需要時間和金錢。
利用數(shù)據(jù)多樣性:當不同的站點具有不同類型的數(shù)據(jù)時,通過聯(lián)合學習訓(xùn)練模型可以利用這種數(shù)據(jù)多樣性來改進全局模型。
實現(xiàn)任務(wù)多樣性:具有各種任務(wù)的培訓(xùn)模式可以促進?模型性能。這也可以通過聯(lián)合學習來實現(xiàn)。
計算成本分布:培訓(xùn) LLM 需要大量資源,而且成本可能很高。要找到一個擁有足夠計算資源的機構(gòu)來完成這項任務(wù)是很有挑戰(zhàn)性的。通過聯(lián)合學習,可以利用來自多個位置的計算資源來訓(xùn)練所有參與者共享的模型。
訓(xùn)練并行性:聯(lián)合學習通過橫向數(shù)據(jù)拆分和將模型的不同層拆分到不同位置,實現(xiàn)了模型訓(xùn)練的數(shù)據(jù)和模型并行性。
為了說明這些功能,NVIDIA FLARE 2.3.0 引入了帶有 GPT-2(Generative Pretrained transformer 2)和 BERT(Bidirectional Encoder Representations from transformers)模型的 NLP 命名實體識別(NER)示例。要了解更多詳情,請訪問 GitHub 上的 NVIDIA/NVFlare。參數(shù)高效調(diào)優(yōu)和相關(guān)工作正在進行中,為未來的版本提供更多 LLM 模型示例。
聯(lián)邦 NLP
NVIDIA FLARE 能夠支持具有不同主干模型的各種 NLP 任務(wù),例如 NER 、文本分類和語言生成。
本次發(fā)布的重點是使用 NCBI 疾病數(shù)據(jù)集進行命名實體識別(NER)應(yīng)用,該數(shù)據(jù)集包含生物醫(yī)學研究論文的摘要,并附有疾病提及,通常用于生物醫(yī)學領(lǐng)域的 NER 模型的基準測試。更多詳情,請參閱NCBI 疾病語料庫:疾病名稱識別和概念歸一化的資源。
NER 的任務(wù)包括識別文本中的命名實體,并將其分類到預(yù)定義的類別中。在 NCBI 疾病數(shù)據(jù)集的情況下,目標是識別和捕獲疾病提及。
為了解決 NER 任務(wù), NVIDIA FLARE 示例探討了兩種流行型號 BERT 和 GPT-2 的使用。 BERT 是一種基于預(yù)訓(xùn)練 transformer 的模型,廣泛用于各種 NLP 任務(wù),包括 NER 。 GPT-2 是另一個基于 transformer 的模型,主要用于語言生成,但也可以針對 NER 進行微調(diào)。
BERT 基本無上限模型和 GPT-2 模型分別有 1 . 1 億個和 1 . 24 億個參數(shù)。模型中參數(shù)的數(shù)量是其大小和復(fù)雜性的指示。具有更多參數(shù)的較大模型往往會學習數(shù)據(jù)中更復(fù)雜的關(guān)系。然而,與較小的模型相比,它們也需要更多的計算資源和更長的訓(xùn)練時間。
即將發(fā)布的版本將包括對更大的十億參數(shù)模型和其他任務(wù)的支持。
拆分學習
Split learning是一種技術(shù),可以讓多方在各自的數(shù)據(jù)集上協(xié)作訓(xùn)練機器學習模型,而無需相互共享原始數(shù)據(jù)。該模型分為兩個或多個部分,每個部分都可以在其中一個參與方上運行。
與傳統(tǒng)的 ML 方法相比,這種方法有幾個優(yōu)點,尤其是在數(shù)據(jù)隱私是主要問題的情況下。與聯(lián)合學習一樣,分離學習從不在各方之間共享原始數(shù)據(jù)。這意味著敏感信息可以保密,同時使各方能夠獲得見解并從合作中受益。
NVIDIA FLARE 2.3.0 版本演示了一個分布式學習的示例,其中數(shù)據(jù)和標簽可以分別存放在兩個不同的站點上。通過將模型的一部分放在一個站點上,并向另一個站點發(fā)送激活/嵌入以計算損失,可以實現(xiàn)數(shù)據(jù)和模型的保護。您可以在 CIFAR10 分割學習示例 中查看這項技術(shù)。
開始使用 NVIDIA FLARE 2 . 3 . 0
NVIDIA FLARE 2.3.0 可以幫助您快速部署到多云環(huán)境中,探索 LLM 的 NLP 示例,并展示拆分學習功能。通過將這些功能融入工作流程,可以節(jié)省時間、提高準確性、降低風險,從而促進人工智能工作流程的實施。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5496瀏覽量
109019 -
人工智能
+關(guān)注
關(guān)注
1813文章
49713瀏覽量
261298
發(fā)布評論請先 登錄

聯(lián)合學習使得跨企業(yè)管理復(fù)雜的人工智能工作流更加容易
評論