參數(shù)是機(jī)器學(xué)習(xí)算法的關(guān)鍵。它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)到的模型的一部分。一般來說,在語言領(lǐng)域,參數(shù)的數(shù)量和復(fù)雜性之間的相關(guān)性非常好。例如,OpenAI的GPT-3是有史以來訓(xùn)練了1750億個(gè)參數(shù)的最大語言模型之一,它可以進(jìn)行原始類比、生成配方,甚至完成基本代碼。
近日,谷歌的研究人員開發(fā)了一種技術(shù),并對(duì)其進(jìn)行基準(zhǔn)測試,他們聲稱這種技術(shù)能夠訓(xùn)練包含超過一萬億參數(shù)的語言模型。他們表示,他們的1.6萬億參數(shù)模型是迄今為止最大的,比之前最大的谷歌開發(fā)的語言模型(T5-XXL)快了4倍。
研究人員指出,大規(guī)模訓(xùn)練是建立強(qiáng)大模型的有效途徑。簡單的架構(gòu),大數(shù)據(jù)集和參數(shù)計(jì)數(shù)的支持,超越了更復(fù)雜的算法。但是,大規(guī)模的訓(xùn)練雖然有效,但計(jì)算強(qiáng)度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer,一種“稀疏激活”技術(shù),它只使用模型權(quán)重的子集,或轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)。
Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法(廣泛應(yīng)用于語言模型的數(shù)學(xué)運(yùn)算)設(shè)計(jì)的硬件,如GPU和TPU。在研究人員的分布式訓(xùn)練設(shè)置中,他們的模型將不同的權(quán)重分配到不同的設(shè)備上,這樣權(quán)重就會(huì)隨著設(shè)備數(shù)量的增加而增加,但在每個(gè)設(shè)備上都保持可管理的內(nèi)存和計(jì)算空間。
在一項(xiàng)實(shí)驗(yàn)中,研究人員使用32個(gè)TPU內(nèi)核預(yù)先訓(xùn)練了幾種不同的Switch?Transformer模型,這個(gè)語料是一個(gè)750GB大小的數(shù)據(jù)集,包含從Reddit、Wikipedia和其他網(wǎng)絡(luò)資源上獲取的文本。他們讓這些模型預(yù)測有15%的單詞被掩蓋的段落中遺漏的單詞,以及其他挑戰(zhàn),比如檢索文本回答一系列越來越難的問題。
研究人員聲稱,與包含3950億個(gè)參數(shù)和64名專家的更小的模型(Switch-XXL)相比,他們發(fā)明的擁有2048名專家的1.6萬億參數(shù)模型(Switch-C)則“完全沒有訓(xùn)練不穩(wěn)定性”。
然而,在SQuAD的基準(zhǔn)測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6,研究人員將此歸因于微調(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不明確關(guān)系。
在這種情況下,Switch?Transformer還是在許多下游任務(wù)上的效果有了提升。例如,在使用相同數(shù)量的計(jì)算資源的情況下,它可以使預(yù)訓(xùn)練的速度提高了7倍以上。
同時(shí)研究人員證明,大型稀疏模型可以用來創(chuàng)建更小、更稠密的模型,這些模型可以對(duì)任務(wù)進(jìn)行微調(diào),其質(zhì)量增益只有大型模型的30%?。
在一個(gè)測試中,一個(gè)?Switch?Transformer?模型被訓(xùn)練在100多種不同的語言之間進(jìn)行翻譯,研究人員觀察到其中101種語言都得到了普遍的改善。
在未來的工作中,研究人員計(jì)劃將Switch?Transformer應(yīng)用于新的和不同的形態(tài)中去,包括圖像和文本。他們認(rèn)為,模型稀疏性在一系列不同的媒體和多模態(tài)模型中都具有優(yōu)勢。
責(zé)任編輯:pj
-
谷歌
+關(guān)注
關(guān)注
27文章
6244瀏覽量
110207 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8540瀏覽量
136203 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
9027瀏覽量
142989
發(fā)布評(píng)論請先 登錄
模板驅(qū)動(dòng) 無需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題
谷歌AI模型點(diǎn)亮開發(fā)無限可能
ai_cube訓(xùn)練模型最后部署失敗是什么原因?
海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述
RAKsmart高性能服務(wù)器集群:驅(qū)動(dòng)AI大語言模型開發(fā)的算力引擎
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用
小白學(xué)大模型:訓(xùn)練大語言模型的深度指南

谷歌訓(xùn)練開發(fā)一個(gè)萬億參數(shù)的AI語言模型
評(píng)論