chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

7nm制程,比GPU效率高,Meta發(fā)布第一代AI推理加速器

AI智勝未來(lái) ? 來(lái)源:機(jī)器之心 ? 2023-05-26 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,Meta 透露了其在人工智能方面取得的最新進(jìn)展。

人們提起 Meta 時(shí),通常會(huì)想到其應(yīng)用程序,包括 Facebook、Instagram、WhatsApp 或即將推出的元宇宙。但許多人不知道的是這家公司設(shè)計(jì)和構(gòu)建了非常復(fù)雜的數(shù)據(jù)中心來(lái)運(yùn)營(yíng)這些服務(wù)。

與 AWS、GCP 或 Azure 等云服務(wù)提供商不同,Meta 不需要披露有關(guān)其硅芯選擇、基礎(chǔ)設(shè)施或數(shù)據(jù)中心設(shè)計(jì)的細(xì)節(jié),除了其 OCP 設(shè)計(jì)用來(lái)給買(mǎi)家留下深刻印象。Meta 的用戶(hù)希望獲得更好、更一致的體驗(yàn),而不關(guān)心它是如何實(shí)現(xiàn)的。

在 Meta,AI 工作負(fù)載無(wú)處不在,它們構(gòu)成了廣泛用例的基礎(chǔ),包括內(nèi)容理解、信息流、生成式 AI 和廣告排名。這些工作負(fù)載在 PyTorch 上運(yùn)行,具有一流的 Python 集成、即時(shí)模式(eager-mode)開(kāi)發(fā)和 API 簡(jiǎn)潔性。特別是深度學(xué)習(xí)推薦模型(DLRMs),對(duì)于改善 Meta 的服務(wù)和應(yīng)用體驗(yàn)非常重要。但隨著這些模型的大小和復(fù)雜性的增加,底層的硬件系統(tǒng)需要在保持高效的同時(shí)提供指數(shù)級(jí)增長(zhǎng)的內(nèi)存和計(jì)算能力。

Meta 發(fā)現(xiàn),對(duì)于目前規(guī)模的 AI 運(yùn)算和特定的工作負(fù)載,GPU 的效率不高,并不是最佳選擇。因此,該公司提出了推理加速器 MTIA,幫助更快地訓(xùn)練 AI 系統(tǒng)。

MTIA V1

4ca17d8c-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1(推理)芯片(die)

2020 年,Meta 為其內(nèi)部工作負(fù)載設(shè)計(jì)了第一代 MTIA ASIC 推理加速器。該推理加速器是其全棧解決方案的一部分,整個(gè)解決方案包括芯片、PyTorch 和推薦模型。

MTIA 加速器采用 TSMC 7nm 工藝制造,運(yùn)行頻率為 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的熱設(shè)計(jì)功耗 (TDP) 為 25 W。

MTIA 加速器由處理元件 (PE)、片上和片外存儲(chǔ)器資源以及互連組成。該加速器配備了運(yùn)行系統(tǒng)固件的專(zhuān)用控制子系統(tǒng)。固件管理可用的計(jì)算和內(nèi)存資源,通過(guò)專(zhuān)用主機(jī)接口與主機(jī)通信,協(xié)調(diào)加速器上的 job 執(zhí)行。

內(nèi)存子系統(tǒng)使用 LPDDR5 作為片外 DRAM 資源,可擴(kuò)展至 128 GB。該芯片還有 128 MB 的片上 SRAM,由所有 PE 共享,為頻繁訪問(wèn)的數(shù)據(jù)和指令提供更高的帶寬和更低的延遲。

MTIA 加速器網(wǎng)格包含以 8x8 配置組織的 64 個(gè) PE,這些 PE 相互連接,并通過(guò)網(wǎng)狀網(wǎng)絡(luò)連接到內(nèi)存塊。整個(gè)網(wǎng)格可以作為一個(gè)整體來(lái)運(yùn)行一個(gè) job,也可以分成多個(gè)可以運(yùn)行獨(dú)立 job 的子網(wǎng)格。

每個(gè) PE 配備兩個(gè)處理器內(nèi)核(其中一個(gè)配備矢量擴(kuò)展)和一些固定功能單元,這些單元經(jīng)過(guò)優(yōu)化以執(zhí)行關(guān)鍵操作,例如矩陣乘法、累加、數(shù)據(jù)移動(dòng)和非線(xiàn)性函數(shù)計(jì)算。處理器內(nèi)核基于 RISC-V 開(kāi)放指令集架構(gòu) (ISA),并經(jīng)過(guò)大量定制以執(zhí)行必要的計(jì)算和控制任務(wù)。

每個(gè) PE 還具有 128 KB 的本地 SRAM 內(nèi)存,用于快速存儲(chǔ)和操作數(shù)據(jù)。該架構(gòu)最大限度地提高了并行性和數(shù)據(jù)重用性,這是高效運(yùn)行工作負(fù)載的基礎(chǔ)。

該芯片同時(shí)提供線(xiàn)程和數(shù)據(jù)級(jí)并行性(TLP 和 DLP),利用指令級(jí)并行性 (ILP),并通過(guò)允許同時(shí)處理大量?jī)?nèi)存請(qǐng)求來(lái)實(shí)現(xiàn)大量的內(nèi)存級(jí)并行性 (MLP)。

4d2fdce4-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1 系統(tǒng)設(shè)計(jì)

MTIA 加速器安裝在小型雙 M.2 板上,可以更輕松地集成到服務(wù)器中。這些板使用 PCIe Gen4 x8 鏈接連接到服務(wù)器上的主機(jī) CPU,功耗低至 35 W。

4d5ef182-fb2c-11ed-90ce-dac502259ad0.png

帶有 MTIA 的樣品測(cè)試板

托管這些加速器的服務(wù)器使用來(lái)自開(kāi)放計(jì)算項(xiàng)目的 Yosemite V3 服務(wù)器規(guī)范。每臺(tái)服務(wù)器包含 12 個(gè)加速器,這些加速器連接到主機(jī) CPU,并使用 PCIe 交換機(jī)層級(jí)相互連接。因此,不同加速器之間的通信不需要涉及主機(jī) CPU。此拓?fù)湓试S將工作負(fù)載分布在多個(gè)加速器上并并行運(yùn)行。加速器的數(shù)量和服務(wù)器配置參數(shù)經(jīng)過(guò)精心選擇,以最適合執(zhí)行當(dāng)前和未來(lái)的工作負(fù)載。

MTIA 軟件棧

MTIA 軟件(SW)棧旨在提供給開(kāi)發(fā)者更好的開(kāi)發(fā)效率和高性能體驗(yàn)。它與 PyTorch 完全集成,給用戶(hù)提供了一種熟悉的開(kāi)發(fā)體驗(yàn)。使用基于 MTIA 的 PyTorch 與使用 CPU 或 GPU 的 PyTorch 一樣簡(jiǎn)單。并且,得益于蓬勃發(fā)展的 PyTorch 開(kāi)發(fā)者生態(tài)系統(tǒng)和工具,現(xiàn)在 MTIA SW ??梢允褂?PyTorch FX IR 執(zhí)行模型級(jí)轉(zhuǎn)換和優(yōu)化,并使用 LLVM IR 進(jìn)行低級(jí)優(yōu)化,同時(shí)還支持 MTIA 加速器自定義架構(gòu)和 ISA。

下圖為 MTIA 軟件棧框架圖:

4e236b98-fb2c-11ed-90ce-dac502259ad0.png

作為 SW 棧的一部分,Meta 還為性能關(guān)鍵型 ML 內(nèi)核開(kāi)發(fā)了一個(gè)手動(dòng)調(diào)整和高度優(yōu)化的內(nèi)核庫(kù),例如完全連接和嵌入包運(yùn)算符。在 SW 棧的更高層級(jí)可以選擇在編譯和代碼生成過(guò)程中實(shí)例化和使用這些高度優(yōu)化的內(nèi)核。

此外,MTIA SW 棧隨著與 PyTorch 2.0 的集成而不斷發(fā)展,PyTorch 2.0 更快、更 Python 化,但一如既往地動(dòng)態(tài)。這將啟用新功能,例如 TorchDynamo 和 TorchInductor。Meta 還在擴(kuò)展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 進(jìn)行內(nèi)部表示和高級(jí)優(yōu)化。

MTIA 性能

Meta 比較了 MTIA 與其他加速器的性能,結(jié)果如下:

4e597684-fb2c-11ed-90ce-dac502259ad0.png

Meta 使用五種不同的 DLRMs(復(fù)雜度從低到高)來(lái)評(píng)估 MTIA

此外,Meta 還將 MTIA 與 NNPI 以及 GPU 進(jìn)行了比較,結(jié)果如下:

4e63c922-fb2c-11ed-90ce-dac502259ad0.png

評(píng)估發(fā)現(xiàn),與 NNPI 和 GPU 相比,MTIA 能夠更高效地處理低復(fù)雜度(LC1 和 LC2)和中等復(fù)雜度(MC1 和 MC2)的模型。此外,Meta 尚未針對(duì)高復(fù)雜度(HC)模型進(jìn)行 MTIA 的優(yōu)化。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    839

    瀏覽量

    40108
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135498
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    813

    瀏覽量

    14853

原文標(biāo)題:7nm制程,比GPU效率高,Meta發(fā)布第一代AI推理加速器

文章出處:【微信號(hào):AI智勝未來(lái),微信公眾號(hào):AI智勝未來(lái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專(zhuān)用 AI 加速器,對(duì) TensorFlow Lite 模型可實(shí)現(xiàn)最高約 15× 推理
    發(fā)表于 01-31 23:16

    曦望發(fā)布一代推理GPU芯片,單位Token推理成本降低90%

    電子發(fā)燒友網(wǎng)報(bào)道 1月27日,國(guó)產(chǎn)GPU廠商曦望(Sunrise)重磅發(fā)布一代推理GPU芯片——啟望S3。這是曦望在近
    的頭像 發(fā)表于 01-28 17:38 ?8680次閱讀

    今日看點(diǎn):消息稱(chēng) AMD、通考慮導(dǎo)入 SOCAMM 內(nèi)存;曦望發(fā)布一代推理GPU芯片啟望S3

    曦望發(fā)布一代推理GPU芯片啟望S3 近日,浙江杭州GPU創(chuàng)企曦望(Sunrise)發(fā)布
    發(fā)表于 01-28 11:09 ?401次閱讀

    d-Matrix與Andes晶心科技合作打造下一代AI推理加速器

    數(shù)據(jù)中心生成式 AI 推理計(jì)算的先驅(qū) d-Matrix,以及高效率、低功耗 RISC-V 處理核心的領(lǐng)先供應(yīng)商、RISC-V 國(guó)際協(xié)會(huì)的創(chuàng)始首席會(huì)員 Andes 晶心科技 (Ande
    的頭像 發(fā)表于 12-17 10:47 ?897次閱讀

    邊緣計(jì)算中的AI加速器類(lèi)型與應(yīng)用

    人工智能正在推動(dòng)對(duì)更快速、更智能、更高效計(jì)算的需求。然而,隨著每秒產(chǎn)生海量數(shù)據(jù),將所有數(shù)據(jù)發(fā)送至云端處理已變得不切實(shí)際。這正是邊緣計(jì)算中AI加速器變得不可或缺的原因。這種專(zhuān)用硬件能夠直接在邊緣設(shè)備上
    的頭像 發(fā)表于 11-06 13:42 ?818次閱讀
    邊緣計(jì)算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>類(lèi)型與應(yīng)用

    國(guó)產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“算力是AI的命門(mén)”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實(shí)測(cè)下來(lái)有點(diǎn)超出預(yù)期——7nm工藝下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    發(fā)表于 10-27 13:12

    今日看點(diǎn)丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車(chē)出口暴增130%

    ? ? 降低HBM依賴(lài),華為發(fā)布AI推理創(chuàng)新技術(shù)UCM ? 日前,華為正式發(fā)布AI推理創(chuàng)新技術(shù)U
    發(fā)表于 08-13 09:45 ?5336次閱讀

    PCIe協(xié)議分析儀能測(cè)試哪些設(shè)備?

    /ASIC加速器 測(cè)試場(chǎng)景:分析專(zhuān)用AI推理加速器與主系統(tǒng)的PCIe通信,優(yōu)化數(shù)據(jù)傳輸和指令下發(fā)效率。 應(yīng)用價(jià)值:提高
    發(fā)表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動(dòng)AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    直擊Computex 2025:英特爾重磅發(fā)布一代GPU,圖形和AI性能躍升3.4倍

    電子發(fā)燒友原創(chuàng)? 章鷹 5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理GPU)和AI加速器產(chǎn)品系列。包括全新英
    的頭像 發(fā)表于 05-21 00:57 ?7482次閱讀
    直擊Computex 2025:英特爾重磅<b class='flag-5'>發(fā)布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    直擊Computex2025:英特爾重磅發(fā)布一代GPU,圖形和AI性能躍升3.4倍

    5月19日,在Computex 2025上,英特爾發(fā)布了最新全新圖形處理GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro B系
    的頭像 發(fā)表于 05-20 12:27 ?5453次閱讀
    直擊Computex2025:英特爾重磅<b class='flag-5'>發(fā)布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    英特爾發(fā)布全新GPUAI和工作站迎來(lái)新選擇

    英特爾推出面向準(zhǔn)專(zhuān)業(yè)用戶(hù)和AI開(kāi)發(fā)者的英特爾銳炫Pro GPU系列,發(fā)布英特爾? Gaudi 3 AI加速器機(jī)架級(jí)和PCIe部署方案 ? 2
    發(fā)表于 05-20 11:03 ?1846次閱讀

    第一代半導(dǎo)體被淘汰了嗎

    在半導(dǎo)體產(chǎn)業(yè)的百年發(fā)展歷程中,“第一代半導(dǎo)體是否被淘汰”的爭(zhēng)議從未停歇。從早期的鍺晶體管到如今的硅基芯片,以硅為代表的第一代半導(dǎo)體材料,始終以不可替代的產(chǎn)業(yè)基石角色,支撐著全球95%以上的電子設(shè)備
    的頭像 發(fā)表于 05-14 17:38 ?1098次閱讀
    <b class='flag-5'>第一代</b>半導(dǎo)體被淘汰了嗎

    谷歌第七TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    谷歌第七TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命 Google 發(fā)布了 Ironwood,這是其第七張量處理單元 (TP
    的頭像 發(fā)表于 04-12 11:10 ?3745次閱讀
    谷歌第七<b class='flag-5'>代</b>TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時(shí)代的硬件革命

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    Triton 推理服務(wù)的后續(xù)產(chǎn)品,NVIDIA Dynamo 是款全新的 AI 推理服務(wù)軟件,旨在為部署
    的頭像 發(fā)表于 03-20 15:03 ?1239次閱讀