開發(fā)人工智能的語言模型,一直是人工智能的重要細分領域。人工智能語言模型應用包括搜索引擎、文字生成、個性化的對話工具以及軟件生成等。
2020年5月,OpenAI的一組研究人員發(fā)布了具有里程碑意義的AI模型GPT-3。GPT-3就是在570 GB的文本數(shù)據(jù)上訓練的語言模型,因此,就訓練數(shù)據(jù)和生成能力而言,GPT-3截至2020年都是最龐大的公開發(fā)布的語言模型。
此外,OpenAI的GPT-3一反之前死守基礎研究的思路,將 GPT-3 做成了一個服務,提供可以調用的 OpenAI API,并且向開放了少量體驗資格,使得拿到體驗資格的業(yè)界人士或學者等,開發(fā)出了一眾驚人的演示。
包括答題、翻譯、寫文章,甚至是數(shù)學計算和編寫代碼。而由GPT-3所寫的文章幾乎達到了以假亂真的地步,在 OpenAI 的測試中,人類評估人員也很難判斷出這篇新聞的真假,檢測準確率僅為 12%。
但現(xiàn)在,谷歌研究人員開發(fā)出一個新的語言模型,它包含了超過 1.6 萬億個參數(shù),遠超 Open AI 開發(fā)的 GTP-3 的規(guī)模(1750 億個參數(shù)),成為迄今為止最大規(guī)模的人工智能語言模型,比之前谷歌開發(fā)過最大的語言模型 T5-XXL 的效率提高了 4 倍。
該語言模型使用 Switch Transformer 方法進行大規(guī)模訓練,這是一種“稀疏激活”技術,它只使用模型權重的子集或在模型中轉換輸入數(shù)據(jù)的參數(shù),以有效降低計算密集度。
盡管在部分實驗中,該模型相比規(guī)模更小的模型得到了較低分數(shù)。但在相同的計算資源下,預訓練速度提高了7倍。這些改進擴展到多語言設置中,我們在所有101種語言中測量mT5基本版本的增益。最后,我們通過在“巨大的干凈的爬蟲語料庫”上預先訓練多達萬億個參數(shù)的模型,提高了語言模型的當前規(guī)模,并實現(xiàn)了比T5-XXL模型4倍的加速。
研究人員認為,稀疏性可以在未來賦予該模型在一系列不同媒體下多模態(tài)的優(yōu)勢。這也為人工智能語言模型的深入研究提供了更多方向的參考。
責任編輯:xj
-
AI
+關注
關注
89文章
38003瀏覽量
295932 -
人工智能
+關注
關注
1813文章
49706瀏覽量
261177 -
語言模型
+關注
關注
0文章
570瀏覽量
11246
發(fā)布評論請先 登錄
谷歌AI模型點亮開發(fā)無限可能
?Groq LPU 如何讓萬億參數(shù)模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技
萬億參數(shù)!元腦企智一體機率先支持Kimi K2大模型
如何將一個FA模型開發(fā)的聲明式范式應用切換到Stage模型
小白學大模型:訓練大語言模型的深度指南
大模型領域常用名詞解釋(近100個)

谷歌開發(fā)出一個新的語言模型,包含了超過1.6萬億個參數(shù)
評論