chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌訓(xùn)練開發(fā)一個(gè)萬億參數(shù)的AI語言模型

lhl545545 ? 來源:比特網(wǎng) ? 作者:Yu ? 2021-01-18 16:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

參數(shù)是機(jī)器學(xué)習(xí)算法的關(guān)鍵。它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)到的模型的一部分。一般來說,在語言領(lǐng)域,參數(shù)的數(shù)量和復(fù)雜性之間的相關(guān)性非常好。例如,OpenAI的GPT-3是有史以來訓(xùn)練了1750億個(gè)參數(shù)的最大語言模型之一,它可以進(jìn)行原始類比、生成配方,甚至完成基本代碼。

近日,谷歌的研究人員開發(fā)了一種技術(shù),并對其進(jìn)行基準(zhǔn)測試,他們聲稱這種技術(shù)能夠訓(xùn)練包含超過一萬億參數(shù)的語言模型。他們表示,他們的1.6萬億參數(shù)模型是迄今為止最大的,比之前最大的谷歌開發(fā)的語言模型(T5-XXL)快了4倍。

研究人員指出,大規(guī)模訓(xùn)練是建立強(qiáng)大模型的有效途徑。簡單的架構(gòu),大數(shù)據(jù)集和參數(shù)計(jì)數(shù)的支持,超越了更復(fù)雜的算法。但是,大規(guī)模的訓(xùn)練雖然有效,但計(jì)算強(qiáng)度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer,一種“稀疏激活”技術(shù),它只使用模型權(quán)重的子集,或轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法(廣泛應(yīng)用于語言模型的數(shù)學(xué)運(yùn)算)設(shè)計(jì)的硬件,如GPU和TPU。在研究人員的分布式訓(xùn)練設(shè)置中,他們的模型將不同的權(quán)重分配到不同的設(shè)備上,這樣權(quán)重就會(huì)隨著設(shè)備數(shù)量的增加而增加,但在每個(gè)設(shè)備上都保持可管理的內(nèi)存和計(jì)算空間。

在一項(xiàng)實(shí)驗(yàn)中,研究人員使用32個(gè)TPU內(nèi)核預(yù)先訓(xùn)練了幾種不同的Switch?Transformer模型,這個(gè)語料是一個(gè)750GB大小的數(shù)據(jù)集,包含從Reddit、Wikipedia和其他網(wǎng)絡(luò)資源上獲取的文本。他們讓這些模型預(yù)測有15%的單詞被掩蓋的段落中遺漏的單詞,以及其他挑戰(zhàn),比如檢索文本回答一系列越來越難的問題。

研究人員聲稱,與包含3950億個(gè)參數(shù)和64名專家的更小的模型(Switch-XXL)相比,他們發(fā)明的擁有2048名專家的1.6萬億參數(shù)模型(Switch-C)則“完全沒有訓(xùn)練不穩(wěn)定性”。

然而,在SQuAD的基準(zhǔn)測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6,研究人員將此歸因于微調(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下,Switch?Transformer還是在許多下游任務(wù)上的效果有了提升。例如,在使用相同數(shù)量的計(jì)算資源的情況下,它可以使預(yù)訓(xùn)練的速度提高了7倍以上。

同時(shí)研究人員證明,大型稀疏模型可以用來創(chuàng)建更小、更稠密的模型,這些模型可以對任務(wù)進(jìn)行微調(diào),其質(zhì)量增益只有大型模型的30%?。

在一個(gè)測試中,一個(gè)?Switch?Transformer?模型被訓(xùn)練在100多種不同的語言之間進(jìn)行翻譯,研究人員觀察到其中101種語言都得到了普遍的改善。

在未來的工作中,研究人員計(jì)劃將Switch?Transformer應(yīng)用于新的和不同的形態(tài)中去,包括圖像和文本。他們認(rèn)為,模型稀疏性在一系列不同的媒體和多模態(tài)模型中都具有優(yōu)勢。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111608
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8558

    瀏覽量

    137070
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9077

    瀏覽量

    143886
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【瑞薩AI挑戰(zhàn)賽】手寫數(shù)字識(shí)別模型在RA8P1 Titan Board上的部署

    最終的板端部署與運(yùn)行,完整實(shí)現(xiàn)手寫數(shù)字識(shí)別模型的端側(cè)落地,為嵌入式AI開發(fā)提供可參考的實(shí)踐方案。 、RA8P1 Titan Board開發(fā)
    發(fā)表于 03-15 20:42

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。個(gè)萬億
    的頭像 發(fā)表于 02-05 16:07 ?910次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬億級別)、使用海量數(shù)據(jù)訓(xùn)練
    的頭像 發(fā)表于 02-02 16:36 ?1001次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    文了解Mojo編程語言

    Mojo 是種由 Modular AI 公司開發(fā)的編程語言,旨在將 Python 的易用性與 C 語言的高性能相結(jié)合,特別適合人工智能(
    發(fā)表于 11-07 05:59

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為
    發(fā)表于 10-22 07:03

    文看懂AI訓(xùn)練、推理與訓(xùn)推體的底層關(guān)系

    (Inference)。它們就像“學(xué)霸的高考備考”和“考試當(dāng)天的答題表現(xiàn)”,缺不可。1、什么是AI訓(xùn)練(Training)?通過大量數(shù)據(jù)訓(xùn)練模型
    的頭像 發(fā)表于 09-19 11:58 ?2605次閱讀
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>、推理與訓(xùn)推<b class='flag-5'>一</b>體的底層關(guān)系

    模板驅(qū)動(dòng) 無需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開發(fā)難題

    。但是這個(gè)平臺(tái)不適用于小樣本AI模型開發(fā),特別是些特殊行業(yè),數(shù)據(jù)本來就不多,但又有著需求,因此陷于兩難。面臨這種市場困境,慧視光電推出了
    的頭像 發(fā)表于 09-09 17:57 ?1445次閱讀
    模板驅(qū)動(dòng)  無需<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)  SmartDP解決小樣本<b class='flag-5'>AI</b>算法<b class='flag-5'>模型</b><b class='flag-5'>開發(fā)</b>難題

    谷歌AI模型點(diǎn)亮開發(fā)無限可能

    在 2025 年的 Google 谷歌開發(fā)者大會(huì)上,AI 不是門“技術(shù)”,更是股徹底改變開發(fā)
    的頭像 發(fā)表于 08-29 09:29 ?1193次閱讀

    Cognizant加速AI模型企業(yè)級開發(fā)

    -Cognizant推出AI Training Data Services,助力企業(yè)級AI模型加速開發(fā) Cognizant是數(shù)據(jù)與AI
    的頭像 發(fā)表于 07-31 17:25 ?747次閱讀

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    萬億參數(shù)!元腦企智體機(jī)率先支持Kimi K2大模型

    應(yīng)用大模型提供高處理性能和完善的軟件工具平臺(tái)支持。 ? Kimi K2是月之暗面推出的開源萬億參數(shù)模型,創(chuàng)新使用了MuonClip優(yōu)化器進(jìn)行訓(xùn)練
    的頭像 發(fā)表于 07-22 09:27 ?586次閱讀
    <b class='flag-5'>萬億</b><b class='flag-5'>參數(shù)</b>!元腦企智<b class='flag-5'>一</b>體機(jī)率先支持Kimi K2大<b class='flag-5'>模型</b>

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機(jī),進(jìn)行
    發(fā)表于 04-28 11:11

    RAKsmart智能算力架構(gòu):異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級

    AI模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。R
    的頭像 發(fā)表于 04-17 09:29 ?802次閱讀

    RAKsmart高性能服務(wù)器集群:驅(qū)動(dòng)AI語言模型開發(fā)的算力引擎

    RAKsmart高性能服務(wù)器集群憑借其創(chuàng)新的硬件架構(gòu)與全棧優(yōu)化能力,成為支撐大語言模型開發(fā)的核心算力引擎。下面,AI部落小編帶您了解RAKsmart如何為
    的頭像 發(fā)表于 04-15 09:40 ?735次閱讀

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型全鏈路分析功能,針對AI應(yīng)用開發(fā)的三大痛點(diǎn)逐個(gè)擊破。 當(dāng)前AI應(yīng)用開發(fā)者在使用開發(fā)工具時(shí)會(huì)
    發(fā)表于 04-13 19:52