chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google Brain和DeepMind聯(lián)手發(fā)布可以分布式訓(xùn)練模型的框架

中科院長(zhǎng)春光機(jī)所 ? 來(lái)源:reddit ? 作者:reddit ? 2021-06-26 15:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】AI模型進(jìn)入大數(shù)據(jù)時(shí)代,單機(jī)早已不能滿足訓(xùn)練模型的要求,最近Google Brain和DeepMind聯(lián)手發(fā)布了一個(gè)可以分布式訓(xùn)練模型的框架Launchpad,堪稱AI界的MapReduce。

正如吳恩達(dá)所言,當(dāng)代機(jī)器學(xué)習(xí)算法的成功很大程度上是由于模型和數(shù)據(jù)集大小的增加,在大規(guī)模數(shù)據(jù)下進(jìn)行分布式訓(xùn)練也逐漸變得普遍,而如何在大規(guī)模數(shù)據(jù)、大模型的情況下進(jìn)行計(jì)算,還是一個(gè)挑戰(zhàn)。

分布式學(xué)習(xí)過(guò)程也會(huì)使實(shí)現(xiàn)過(guò)程復(fù)雜化,這對(duì)于許多不熟悉分布式系統(tǒng)機(jī)制的機(jī)器學(xué)習(xí)從業(yè)者來(lái)說(shuō)是個(gè)問(wèn)題,尤其是那些具有復(fù)雜通信拓?fù)浣Y(jié)構(gòu)的機(jī)器學(xué)習(xí)從業(yè)者。

在arxiv上一篇新論文中,來(lái)自 DeepMind 和 Google Brain 的研究團(tuán)隊(duì)用 Launchpad 解決了這個(gè)問(wèn)題,Launchpad 是一種編程模型,它簡(jiǎn)化了定義和啟動(dòng)分布式計(jì)算實(shí)例的過(guò)程。

論文的第一作者是來(lái)自DeepMind的華人Yang Fan,畢業(yè)于香港中文大學(xué)。

Launchpad 將分布式系統(tǒng)的拓?fù)涿枋鰹橐粋€(gè)圖形數(shù)據(jù)結(jié)構(gòu),這樣圖中的每個(gè)節(jié)點(diǎn)都代表一個(gè)服務(wù),即研究人員正在運(yùn)行的基本計(jì)算單元。

將句柄構(gòu)造為節(jié)點(diǎn)的引用,將客戶端表示為尚未構(gòu)造的服務(wù)。

圖的邊表示兩個(gè)服務(wù)之間的通信,并在構(gòu)建時(shí)將與一個(gè)節(jié)點(diǎn)相關(guān)聯(lián)的句柄給予另一個(gè)節(jié)點(diǎn)時(shí)創(chuàng)建。

通過(guò)這種方式,Launchpad 可以通過(guò)傳遞節(jié)點(diǎn)句柄來(lái)定義跨服務(wù)通信。Launchpad 的計(jì)算構(gòu)建塊由不同的服務(wù)類型表示,每種服務(wù)類型由特定于該類型的節(jié)點(diǎn)和句柄類表示。

8bf59634-d5af-11eb-9e57-12bb97331649.png

論文中提出的 Launchpad 的生命周期可以分為三個(gè)階段: 設(shè)置、啟動(dòng)和執(zhí)行。設(shè)置階段構(gòu)造程序數(shù)據(jù)結(jié)構(gòu); 在啟動(dòng)階段,處理這個(gè)數(shù)據(jù)結(jié)構(gòu)以分配資源、地址等,并啟動(dòng)指定服務(wù); 然后執(zhí)行階段運(yùn)行服務(wù),例如為服務(wù)通信創(chuàng)建客戶端。

Launchpad 是用流行的編程語(yǔ)言 Python 實(shí)現(xiàn)的,它簡(jiǎn)化了定義程序和節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu)以及為單個(gè)平臺(tái)啟動(dòng)的過(guò)程。Launchpad 框架還可以很容易地用任何其他宿主語(yǔ)言實(shí)現(xiàn),包括 c/c + + 等低級(jí)編程語(yǔ)言。

8cd0f1fc-d5af-11eb-9e57-12bb97331649.png

Launchpad 編程模型非常豐富,足以容納各種各樣的分布式系統(tǒng),包括參數(shù)服務(wù)器、 MapReduce和 Evolution Strategies。

研究人員用簡(jiǎn)潔的代碼詳細(xì)描述了如何將 Launchpad 應(yīng)用到這些常見(jiàn)的分布式系統(tǒng)范例中,并說(shuō)明了該框架在簡(jiǎn)化本研究領(lǐng)域常用機(jī)器學(xué)習(xí)算法和組件的設(shè)計(jì)過(guò)程方面的能力。

總的來(lái)說(shuō),Launchpad 是一個(gè)實(shí)用的、用戶友好的、表達(dá)性強(qiáng)的框架,用于機(jī)器學(xué)習(xí)研究人員和實(shí)踐者詳細(xì)說(shuō)明分布式系統(tǒng),作者表示,這個(gè)框架能夠處理日益復(fù)雜的機(jī)器學(xué)習(xí)模型。其他框架

2020年,DeepMind 發(fā)布過(guò)一個(gè)強(qiáng)化學(xué)習(xí)優(yōu)化框架Acme,可以讓AI驅(qū)動(dòng)的智能體在不同的執(zhí)行規(guī)模上運(yùn)行,從而簡(jiǎn)化強(qiáng)化學(xué)習(xí)算法的開(kāi)發(fā)過(guò)程。

強(qiáng)化學(xué)習(xí)可以讓智能體與環(huán)境互動(dòng),生成他們自己的訓(xùn)練數(shù)據(jù),這在電子游戲、機(jī)器人技術(shù)、自動(dòng)駕駛機(jī)器人出租車等領(lǐng)域取得了突破。

隨著所使用的訓(xùn)練數(shù)據(jù)量的增加,這促使設(shè)計(jì)了一個(gè)系統(tǒng),使智能體與環(huán)境實(shí)例相互作用,迅速積累經(jīng)驗(yàn)。DeepMind 斷言,將算法的單進(jìn)程原型擴(kuò)展到分布式系統(tǒng)通常需要重新實(shí)現(xiàn)相關(guān)的智能體,這就是 Acme 框架的用武之地。

DeepMind研究員寫(xiě)道,「Acme 是一個(gè)用于構(gòu)建可讀、高效、面向研究的 RL 算法的框架。Acme 的核心是設(shè)計(jì)用于簡(jiǎn)單描述 RL 智能體,這些智能體可以在不同規(guī)模的執(zhí)行中運(yùn)行,包括分布式智能體。」

Determined AI也是一個(gè)深度學(xué)習(xí)神器。Determined使深度學(xué)習(xí)工程師可以集中精力大規(guī)模構(gòu)建和訓(xùn)練模型,而無(wú)需擔(dān)心DevOps,或者為常見(jiàn)任務(wù)(如容錯(cuò)或?qū)嶒?yàn)跟蹤)編寫(xiě)代碼。更快的分布式訓(xùn)練,智能的超參優(yōu)化,實(shí)驗(yàn)跟蹤和可視化。

一萬(wàn)億模型要來(lái)了?谷歌大腦和DeepMind聯(lián)手發(fā)布分布式訓(xùn)練框架Launchpad

Determined主要運(yùn)用了Horovod,以Horovod為起點(diǎn),研究人員運(yùn)用了多年的專業(yè)知識(shí)和經(jīng)驗(yàn),使得整個(gè)訓(xùn)練過(guò)程比庫(kù)存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式訓(xùn)練框架,由Uber 構(gòu)建并開(kāi)源,目前已經(jīng)運(yùn)行于Uber 的Michelangelo 機(jī)器學(xué)習(xí)即服務(wù)平臺(tái)上。Horovod 能夠簡(jiǎn)化并加速分布式深度學(xué)習(xí)項(xiàng)目的啟動(dòng)與運(yùn)行。當(dāng)數(shù)據(jù)較多或者模型較大時(shí),為提高機(jī)器學(xué)習(xí)模型訓(xùn)練效率,一般采用多 GPU 的分布式訓(xùn)練。TensorFlow 集群存在諸多缺點(diǎn),如概念太多、學(xué)習(xí)曲線陡峭、修改的代碼量大、性能損失較大等,而 Horovod 則讓深度學(xué)習(xí)變得更加美好,隨著規(guī)模增大,Horovod 性能基本是線性增加的,損失遠(yuǎn)小于 TensorFlow。

2019年,字節(jié)跳動(dòng)AI lab開(kāi)源了一款高性能分布式框架BytePS,在性能上顛覆了過(guò)去幾年allreduce流派一直占據(jù)上風(fēng)的局面,超出目前其他所有分布式訓(xùn)練框架一倍以上的性能,且同時(shí)能夠支持Tensorflow、PyTorch、MXNet等開(kāi)源庫(kù)。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用戶只要在代碼中引用BytePS的插件,就可以獲得高性能的分布式訓(xùn)練。BytePS的核心邏輯,則實(shí)現(xiàn)在BytePS core里。具體的通信細(xì)節(jié),完全由BytePS完成,用戶完全不需要操心。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5090

    瀏覽量

    134387
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4018

    瀏覽量

    45537
  • 分布式
    +關(guān)注

    關(guān)注

    1

    文章

    1061

    瀏覽量

    76395
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8540

    瀏覽量

    136202
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    812

    瀏覽量

    14663
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    摩爾線程發(fā)布模型訓(xùn)練仿真工具SimuMax v1.0

    近日,摩爾線程正式發(fā)布并開(kāi)源大模型分布式訓(xùn)練仿真工具SimuMax 1.0版本。該版本在顯存和性能仿真精度上實(shí)現(xiàn)突破性提升,同時(shí)引入多項(xiàng)關(guān)鍵功能,進(jìn)一步增強(qiáng)了
    的頭像 發(fā)表于 09-11 18:19 ?3306次閱讀
    摩爾線程<b class='flag-5'>發(fā)布</b>大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>仿真工具SimuMax v1.0

    【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應(yīng)用

    分布式光伏本地和遠(yuǎn)程通信方案,并研究分布式光伏采集模型的構(gòu)建、多源數(shù)據(jù)融合估計(jì)、面向分布式光伏的有功、無(wú)功功率優(yōu)化控制等關(guān)鍵技術(shù),實(shí)現(xiàn)了對(duì)小容量工商業(yè)
    的頭像 發(fā)表于 08-23 08:04 ?3292次閱讀
    【節(jié)能學(xué)院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中應(yīng)用

    雙電機(jī)分布式驅(qū)動(dòng)汽車高速穩(wěn)定性機(jī)電耦合控制

    力矩,實(shí)現(xiàn)極限工況下的整車高速穩(wěn)定性控制。結(jié)果表明,采用機(jī)電耦合控制,除了可以實(shí)現(xiàn)兩側(cè)分布式驅(qū)動(dòng)系統(tǒng)的動(dòng)力耦合,起到增強(qiáng)車輛高速穩(wěn)定性的作用,還能夠協(xié)調(diào)兩側(cè)驅(qū)動(dòng)系統(tǒng)的轉(zhuǎn)矩輸出,抑制驅(qū)動(dòng)力矩波動(dòng),降低電機(jī)
    發(fā)表于 06-18 16:37

    潤(rùn)和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例

    江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)自主研發(fā)的StackRUNS異構(gòu)分布式推理框架已在實(shí)際場(chǎng)景中取得顯著成效,成功應(yīng)用于大型園區(qū)多模態(tài)模型演練及高校滿血版DeepSeek-MoE 671B的運(yùn)行,有效推動(dòng)了大
    的頭像 發(fā)表于 06-13 09:11 ?1070次閱讀
    潤(rùn)和軟件StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的應(yīng)用案例

    潤(rùn)和軟件發(fā)布StackRUNS異構(gòu)分布式推理框架

    當(dāng)下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應(yīng)用場(chǎng)景日益復(fù)雜,企業(yè)正面臨異構(gòu)算力資源碎片化帶來(lái)的嚴(yán)峻挑戰(zhàn)。為應(yīng)對(duì)行業(yè)痛點(diǎn),江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱“潤(rùn)和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構(gòu)分布式推理
    的頭像 發(fā)表于 06-13 09:10 ?1175次閱讀
    潤(rùn)和軟件<b class='flag-5'>發(fā)布</b>StackRUNS異構(gòu)<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    曙光存儲(chǔ)領(lǐng)跑中國(guó)分布式存儲(chǔ)市場(chǎng)

    近日,賽迪顧問(wèn)發(fā)布《中國(guó)分布式存儲(chǔ)市場(chǎng)研究報(bào)告(2025)》,指出2024 年中國(guó)分布式存儲(chǔ)市場(chǎng)首次超過(guò)集中式存儲(chǔ),規(guī)模達(dá) 198.2 億元,增速 43.7%。
    的頭像 發(fā)表于 05-19 16:50 ?990次閱讀

    分布式光伏發(fā)運(yùn)維系統(tǒng)實(shí)際應(yīng)用案例分享

    和可持續(xù)發(fā)展的重要推動(dòng)力量。國(guó)家能源局于2025年1月發(fā)布了《分布式光伏發(fā)電開(kāi)發(fā)建設(shè)管理辦法》,對(duì)分布式光伏的分類、上網(wǎng)模式、備案管理、電網(wǎng)接入等進(jìn)行了詳細(xì)規(guī)定,未來(lái)分布式光伏將進(jìn)一步
    的頭像 發(fā)表于 04-09 14:46 ?964次閱讀
    <b class='flag-5'>分布式</b>光伏發(fā)運(yùn)維系統(tǒng)實(shí)際應(yīng)用案例分享

    淺談工商企業(yè)用電管理的分布式儲(chǔ)能設(shè)計(jì)

    文章設(shè)計(jì)了一種新的用于工商業(yè)用電管理的分布式儲(chǔ)能系統(tǒng)。由于儲(chǔ)能系統(tǒng)硬件置換成本高,選擇在傳統(tǒng)儲(chǔ)能系統(tǒng)的硬件框架基礎(chǔ)上,對(duì)控制軟件進(jìn)行優(yōu)化設(shè)計(jì),建立分布式儲(chǔ)能系統(tǒng)模型,分析發(fā)電量、儲(chǔ)電量
    的頭像 發(fā)表于 03-24 15:43 ?3256次閱讀
    淺談工商企業(yè)用電管理的<b class='flag-5'>分布式</b>儲(chǔ)能設(shè)計(jì)

    分布式存儲(chǔ)有哪幾種類型?

    分布式存儲(chǔ)有哪幾種類型?分布式存儲(chǔ)系統(tǒng)是一種將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立節(jié)點(diǎn)上的技術(shù),根據(jù)數(shù)據(jù)模型可分為鍵值存儲(chǔ)、列式存儲(chǔ)、文檔存儲(chǔ)和圖形存儲(chǔ)等類型;按數(shù)據(jù)存儲(chǔ)單位可分為基于文件、塊和對(duì)象的存儲(chǔ);按
    的頭像 發(fā)表于 02-20 11:00 ?1107次閱讀

    分布式云化數(shù)據(jù)庫(kù)有哪些類型

    分布式云化數(shù)據(jù)庫(kù)有哪些類型?分布式云化數(shù)據(jù)庫(kù)主要類型包括:關(guān)系型分布式數(shù)據(jù)庫(kù)、非關(guān)系型分布式數(shù)據(jù)庫(kù)、新SQL分布式數(shù)據(jù)庫(kù)、以列方式存儲(chǔ)數(shù)據(jù)、
    的頭像 發(fā)表于 01-15 09:43 ?848次閱讀

    模型訓(xùn)練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一個(gè)用于簡(jiǎn)化和加速深度學(xué)習(xí)模型訓(xùn)練的庫(kù),它支持在多種硬件配置上進(jìn)行分布式訓(xùn)練,包括 CPU、GPU、TPU 等。Accelerat
    的頭像 發(fā)表于 01-14 14:24 ?1759次閱讀

    基于ptp的分布式系統(tǒng)設(shè)計(jì)

    在現(xiàn)代分布式系統(tǒng)中,精確的時(shí)間同步對(duì)于確保數(shù)據(jù)一致性、系統(tǒng)穩(wěn)定性和性能至關(guān)重要。PTP(Precision Time Protocol)是一種網(wǎng)絡(luò)協(xié)議,用于在分布式系統(tǒng)中實(shí)現(xiàn)高精度的時(shí)間同步
    的頭像 發(fā)表于 12-29 10:09 ?950次閱讀

    HarmonyOS Next 應(yīng)用元服務(wù)開(kāi)發(fā)-分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù)權(quán)限與基礎(chǔ)數(shù)據(jù)

    使用分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù),當(dāng)需要遷移的數(shù)據(jù)較大(100KB以上)或需要遷移文件時(shí),可以使用分布式數(shù)據(jù)對(duì)象。原理與接口說(shuō)明詳見(jiàn)分布式數(shù)據(jù)對(duì)象跨設(shè)備數(shù)據(jù)同步。 說(shuō)明:自API 12起,由
    發(fā)表于 12-24 09:40

    大語(yǔ)言模型開(kāi)發(fā)框架是什么

    大語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言模型開(kāi)發(fā)
    的頭像 發(fā)表于 12-06 10:28 ?810次閱讀

    Google DeepMind發(fā)布Genie 2:打造交互3D虛擬世界

    在OpenAI宣布即將發(fā)布模型和新功能后,Google DeepMind也不甘落后,于近日推出了大型基礎(chǔ)世界模型——Genie 2。這款
    的頭像 發(fā)表于 12-05 14:16 ?1566次閱讀