chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌開發(fā)出超過一萬億參數(shù)的語言模型,秒殺GPT-3

人工智能與大數(shù)據(jù)技術(shù) ? 來源:新智元 ? 作者:新智元 ? 2021-01-27 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發(fā)的語言模型T5-XXL足足快了4倍。

對于機器學習來說,參數(shù)可以算得上算法的關(guān)鍵:他們是歷史的輸入數(shù)據(jù),經(jīng)過模型訓練得來的結(jié)果,是模型的一部分。

一般來說,在NLP領(lǐng)域,參數(shù)數(shù)量和復雜程度之間具有正相關(guān)性。

迄今為止,OpenAI 的 GPT-3是有史以來最大的語言模型之一,有1750億個參數(shù)。

現(xiàn)在,距離GPT-3問世不到一年的時間,更大更復雜的語言模型又來了——

在對這種相關(guān)性進行最全面測試的基礎(chǔ)上,谷歌的研究人員開發(fā)了一種能夠訓練包含超過一萬億參數(shù)的語言模型:Switch Transformer,并進行了基準測試。

他們表示,1.6萬億參數(shù)模型是迄今為止最大的,并比之前最大的、由google開發(fā)的語言模型T5-XXL足足快了4倍。

5d825108-6001-11eb-8b86-12bb97331649.png

圖:Switch 模型設(shè)計和預(yù)訓練表現(xiàn)

研究人員在論文中表示,對于強大模型來說,進行大規(guī)模訓練是一個非常有效的途徑。

盡管在大數(shù)據(jù)集和參數(shù)支撐下的簡單的架構(gòu)可以超越一些復雜的算法,然而,高效且大規(guī)模的訓練卻屬于極度的計算密集型。

5db674a6-6001-11eb-8b86-12bb97331649.png

而這,也正是Google的研究者發(fā)明Switch Transformer的原因。

5e0e1de6-6001-11eb-8b86-12bb97331649.png

圖:Switch Transformer編碼塊

Switch Transformer使用了一種叫做稀疏激活(sparsely activated)的技術(shù),這個技術(shù)只使用了模型權(quán)重的子集,或者是轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù),即可達成相同的效果。

此外,Switch Transformer還主要建立在混合專家(Mix of Expert)的基礎(chǔ)上。

5e4d3a44-6001-11eb-8b86-12bb97331649.png

圖:Token動態(tài)路由示例

什么是“混合專家”呢?

混合專家(Mix of Expert,MoE)是90年代初首次提出的人工智能模型范式。

在MoE中,對于不同的輸入,會選擇不同的參數(shù)。多個專家(或者專門從事不同任務(wù)的模型)被保留在一個更大的模型中,針對任何給定的數(shù)據(jù),由一個“門控網(wǎng)絡(luò)”來選擇咨詢哪些專家。

其結(jié)果是一個稀疏激活的模型——具有數(shù)量驚人的參數(shù),但計算成本不變。然而,盡管MoE取得了一些顯著的成功,但其廣泛采用仍然受到復雜性、通信成本和訓練不穩(wěn)定性的阻礙。而Switch Transformer則解決了這些問題。

Switch Transformer的新穎之處,在于它有效地利用了為密集矩陣乘法(廣泛應(yīng)用于語言模型的數(shù)學運算)設(shè)計的硬件,如GPU和谷歌的TPU。

5e91fe36-6001-11eb-8b86-12bb97331649.png

圖:數(shù)據(jù)和權(quán)重劃分策略

在研究人員的分布式訓練設(shè)置中,他們的模型將不同的權(quán)重分配到不同的設(shè)備上,因此,雖然權(quán)重會隨著設(shè)備數(shù)量的增加而增加,但是每個設(shè)備卻可以保持可管理的內(nèi)存和計算足跡。

在一項實驗中,研究人員使用了32個TPU核,在“Colossal Clean Crawled Corpus”,也就是 C4 數(shù)據(jù)集上,預(yù)先訓練了幾種不同的Switch Transformer模型。

C4是一個750gb大小的數(shù)據(jù)集,包含從Reddit、Wikipedia和其他web資源上獲取的文本。

研究人員讓這些Switch Transformer模型去預(yù)測有15%的單詞被掩蓋的段落中遺漏的單詞,除此之外,還為模型布置了許多其他挑戰(zhàn),如檢索文本來回答一系列越來越難的問題等等。

研究人員聲稱,和包含3950億個參數(shù)和64名專家的更小的模型(Switch-XXL)相比,他們發(fā)明的擁有2,048名專家的1.6萬億參數(shù)模型(Switch-C)則“完全沒有訓練不穩(wěn)定性”。

然而,在SQuAD的基準測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6。

對此,研究人員將此歸因于微調(diào)質(zhì)量、計算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下,Switch Transformer還是在許多下游任務(wù)上的效果有了提升。例如,根據(jù)研究人員的說法,在使用相同數(shù)量的計算資源的情況下,它可以使預(yù)訓練的速度提高了7倍以上。

5f28a390-6001-11eb-8b86-12bb97331649.png

圖:所有模型均在32個TPU上進行訓練

同時研究人員證明,大型稀疏模型可以用來創(chuàng)建更小、更稠密的模型,這些模型可以對任務(wù)進行微調(diào),其質(zhì)量增益只有大型模型的30% 。

在一個測試中,一個 Switch Transformer 模型被訓練在100多種不同的語言之間進行翻譯,研究人員觀察到其中101種語言都得到了“普遍的改善”,91% 的語言受益于超過baseline模型4倍以上的速度。

5f8a406e-6001-11eb-8b86-12bb97331649.png

圖:101種語言的多語言預(yù)訓練

研究人員在論文中寫道: “雖然這項工作主要集中在超大型模型上,但我們也發(fā)現(xiàn),只有兩個專家的模型能夠提高性能,同時很容易適應(yīng)常用 GPU 或 TPU 的內(nèi)存約束?!?/p>

“我們不能完全保證模型的質(zhì)量,但是通過將稀疏模型蒸餾成稠密模型,同時達到專家模型質(zhì)量增益的30%的情況下 ,是可以達到10到100倍壓縮率的?!?/p>

在未來的工作中,研究人員計劃將Switch Transformer應(yīng)用到新的和跨越不同的模態(tài)中去,包括圖像和文本。他們認為,模型稀疏性可以賦予各種不同媒介以及多模態(tài)模型一些優(yōu)勢。

在論文的最后,Google的研究人員還表示:

總的來說,Switch Transformers是一個可擴展的,高效的自然語言學習模型。

通過簡化MoE,得到了一個易于理解、易于訓練的體系結(jié)構(gòu),該結(jié)構(gòu)還比同等大小的密集模型具有更大的采樣效率。

這些模型在一系列不同的自然語言任務(wù)和不同的訓練機制中,包括預(yù)訓練、微調(diào)和多任務(wù)訓練,都表現(xiàn)出色。

這些進步使得使用數(shù)千億到萬億參數(shù)訓練模型成為可能,相對于密集的T5基準,這些模型可以實現(xiàn)顯著的加速。

谷歌的研究人員表示,希望他們的工作能夠激勵稀疏模型成為一種有效的架構(gòu),并鼓勵研究人員和實踐者在自然語言任務(wù)中考慮這些靈活的模型。

原文標題:1.6萬億參數(shù),秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍

文章出處:【微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6244

    瀏覽量

    110208
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49708

    瀏覽量

    261232
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3645

    瀏覽量

    51685

原文標題:1.6萬億參數(shù),秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大
    的頭像 發(fā)表于 11-13 15:49 ?523次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    繼續(xù)追本溯源,與騰訊學堂合作撰寫本文,嘗試讓人人都能懂大語言模型的基礎(chǔ)原理。1、大語言模型簡述截止到2025年“大模型”一般泛指“超大
    的頭像 發(fā)表于 09-02 13:34 ?3032次閱讀
    <b class='flag-5'>3</b>萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    谷歌AI模型點亮開發(fā)無限可能

    在 2025 年的 Google 谷歌開發(fā)者大會上,AI 不是一門“技術(shù)”,更是一股徹底改變開發(fā)范式的“力量”,助力開發(fā)者們在海外市場更上一層樓。AI 已經(jīng)不僅僅是生成幾行代碼,它正在
    的頭像 發(fā)表于 08-29 09:29 ?838次閱讀

    面向萬億參數(shù)模型,“超節(jié)點”涌現(xiàn)

    C UniPoD系列超節(jié)點產(chǎn)品,旨在為萬億參數(shù)模型的訓練與推理提供更強勁、更智能且更綠色的算力支持。 ? H3C UniPoD系列超節(jié)點產(chǎn)品基于領(lǐng)先的Scale-up南向互聯(lián)技術(shù),
    的頭像 發(fā)表于 08-03 02:37 ?8272次閱讀
    面向<b class='flag-5'>萬億</b>級<b class='flag-5'>參數(shù)</b>大<b class='flag-5'>模型</b>,“超節(jié)點”涌現(xiàn)

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分
    的頭像 發(fā)表于 03-17 15:32 ?7501次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    在 AI 技術(shù)日新月異的當下,新的模型與突破不斷涌現(xiàn)。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開發(fā)者圈子里引發(fā)熱議。作為一款強大的語言
    發(fā)表于 02-14 17:42

    OpenAI即將推出GPT-5模型

    先進技術(shù),其中包括備受矚目的o3工具。通過整合這些技術(shù),GPT-5模型將實現(xiàn)更加強大的功能和性能。 值得一提的是,GPT-5模型將被廣泛應(yīng)用
    的頭像 發(fā)表于 02-13 11:21 ?898次閱讀

    OpenAI:GPT-4o及4o-mini模型性能下降,正展開調(diào)查

    ,并承諾將盡快發(fā)布最新的調(diào)查結(jié)果和解決方案。這一事件不僅對OpenAI自身的技術(shù)聲譽產(chǎn)生了影響,也引發(fā)了業(yè)界對于大型語言模型穩(wěn)定性和可靠性的擔憂。 GPT-4o及4o-mini作為OpenAI推出的先進
    的頭像 發(fā)表于 01-21 10:34 ?927次閱讀

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?566次閱讀

    ADS54J60不能輸出超過450M的信號嗎?

    這張圖沒有看懂,ADS54J60不能輸出超過450M的信號嗎?
    發(fā)表于 01-01 08:19

    OpenAI GPT-5開發(fā)滯后:訓練成本高昂

    近日,據(jù)最新消息,OpenAI在推進其備受期待的下一代旗艦模型GPT-5的開發(fā)進程上遇到了困難。由于計算成本高昂且高質(zhì)量訓練數(shù)據(jù)稀缺,GPT-5的
    的頭像 發(fā)表于 12-23 11:04 ?1408次閱讀

    AI大語言模型開發(fā)步驟

    開發(fā)一個高效、準確的大語言模型是一個復雜且多階段的過程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計、訓練與優(yōu)化、評估與調(diào)試等多個環(huán)節(jié)。接下來,AI部落小編為大家詳細闡述AI大
    的頭像 發(fā)表于 12-19 11:29 ?1203次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?811次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大
    的頭像 發(fā)表于 12-04 11:44 ?1027次閱讀

    云端語言模型開發(fā)方法

    云端語言模型開發(fā)是一個復雜而系統(tǒng)的過程,涉及數(shù)據(jù)準備、模型選擇、訓練優(yōu)化、部署應(yīng)用等多個環(huán)節(jié)。下面,AI部落小編為您分享云端語言
    的頭像 發(fā)表于 12-02 10:48 ?901次閱讀