chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hold住千億參數(shù)大模型,Gaudi?2 有何優(yōu)勢(shì)

英特爾中國(guó) ? 來(lái)源:未知 ? 2023-09-15 19:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日在北京舉行的2023年中國(guó)國(guó)際服務(wù)貿(mào)易交易會(huì)(下文簡(jiǎn)稱:服貿(mào)會(huì))上,作為英特爾人工智能產(chǎn)品組合的重要成員,Habana Gaudi2實(shí)力亮相,它在海內(nèi)外諸多大語(yǔ)言模型(Large Language Model,下文簡(jiǎn)稱:LLM)的加速上,已展現(xiàn)了出眾實(shí)力,成為業(yè)界焦點(diǎn)。

AI技術(shù)飛速發(fā)展,LLM風(fēng)起云涌,但由于AI模型尤其是LLM的訓(xùn)練與推理需要消耗大量資源和成本,在生產(chǎn)環(huán)境部署和使用這些模型變得極具挑戰(zhàn)。如何提升性能降低開(kāi)銷(xiāo),使AI技術(shù)更快普及,是行業(yè)內(nèi)共同關(guān)注的話題。

wKgZomUEQWiAP6hmAAH7mC8BB3E152.jpg

專為加速LLM的訓(xùn)練和推理設(shè)計(jì)

Habana Gaudi2 正是專為高性能、高效率大規(guī)模深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的AI加速器,具備24個(gè)可編程Tensor處理器核心(TPCs)、21個(gè)100Gbps(RoCEv2)以太網(wǎng)接口、96GB HBM2E內(nèi)存容量、2.4TB/秒的總內(nèi)存帶寬、48MB片上SRAM,并集成多媒體處理引擎。該加速器能夠通過(guò)性能更高的計(jì)算架構(gòu)、更先進(jìn)的內(nèi)存技術(shù)和集成RDMA實(shí)現(xiàn)縱向擴(kuò)展,為中國(guó)用戶提供更高的深度學(xué)習(xí)效率與更優(yōu)性價(jià)比。Gaudi2 的計(jì)算速度十分出色,它的架構(gòu)能讓加速器并行執(zhí)行通用矩陣乘法 (GeMM) 和其他運(yùn)算,從而加快深度學(xué)習(xí)工作流。這些特性使 Gaudi2 成為 LLM 訓(xùn)練和推理的理想選擇,亦將成為大規(guī)模部署AI的更優(yōu)解。

wKgZomUEQWiAD_IvAAHwyqm3CR4823.jpg

在服貿(mào)會(huì)上,英特爾展示了Habana Gaudi2 對(duì)ChatGLM2-6B的加速能力。ChatGLM2-6B是開(kāi)源中英雙語(yǔ)對(duì)話模型ChatGLM-6B的第二代版本,加強(qiáng)了初代模型對(duì)話流暢等優(yōu)質(zhì)特性。得益于專為深度學(xué)習(xí)設(shè)計(jì)的架構(gòu),Habana Gaudi2 可以靈活地滿足單節(jié)點(diǎn)、多節(jié)點(diǎn)的大規(guī)模分布式大語(yǔ)言模型訓(xùn)練,在ChatGLM2-6B上,能夠支持更長(zhǎng)的上下文,并帶來(lái)極速對(duì)話體驗(yàn)。

在千億參數(shù)大模型上大顯身手

實(shí)際上,Habana Gaudi2 的卓越性能早已嶄露頭角。在今年6月公布的MLCommonsMLPerf基準(zhǔn)測(cè)試中,Gaudi2在GPT-3模型、計(jì)算機(jī)視覺(jué)模型ResNet-50(使用8個(gè)加速器)、Unet3D(使用8個(gè)加速器),以及自然語(yǔ)言處理模型BERT(使用8個(gè)和64個(gè)加速器)上均取得了優(yōu)異結(jié)果。近日,MLCommons又繼續(xù)公布了針對(duì)60億參數(shù)大語(yǔ)言模型及計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理模型GPT-J的MLPerf推理v3.1性能基準(zhǔn)測(cè)試結(jié)果,其中包括基于Habana Gaudi2加速器、第四代英特爾至強(qiáng)可擴(kuò)展處理器,以及英特爾至強(qiáng)CPU Max系列的測(cè)試結(jié)果。

數(shù)據(jù)顯示,Habana Gaudi2在GPT-J-99 和GPT-J-99.9 上的服務(wù)器查詢和離線樣本的推理性能分別為78.58 次/秒和84.08 次/秒。該測(cè)試采用 FP8數(shù)據(jù)類型,并在這種新數(shù)據(jù)類型上達(dá)到了 99.9% 的準(zhǔn)確率,這無(wú)疑再一次印證了Gaudi2的出色性能。此外,基于第四代英特爾至強(qiáng)可擴(kuò)展處理器的7個(gè)推理基準(zhǔn)測(cè)試也顯示出其對(duì)于通用AI工作負(fù)載的出色性能。截至目前,英特爾仍是唯一一家使用行業(yè)標(biāo)準(zhǔn)的深度學(xué)習(xí)生態(tài)系統(tǒng)軟件提交公開(kāi)CPU結(jié)果的廠商。

另一個(gè)讓Habana Gaudi2 大顯身手的模型是BLOOMZ。BLOOM是一個(gè)擁有 1760 億參數(shù)的自回歸模型,訓(xùn)練后可用于生成文本序列,它可以處理 46 種語(yǔ)言和 13 種編程語(yǔ)言,而B(niǎo)LOOMZ是與BLOOM架構(gòu)完全相同的模型,它是BLOOM基于多個(gè)任務(wù)的調(diào)優(yōu)版本。Habana與著名AI平臺(tái)Hugging Face合作進(jìn)行了 Gaudi2 在BLOOMZ模型上的基準(zhǔn)測(cè)試1。如圖1所示,對(duì)于參數(shù)量達(dá)1760億的模型 BLOOMZ(BLOOMZ-176B),Gaudi2性能表現(xiàn)出色,時(shí)延僅為約3.7 秒;對(duì)于參數(shù)量為 70 億的較小模型 BLOOMZ-7B,Gaudi2 的時(shí)延優(yōu)勢(shì)更加顯著,單設(shè)備約為第一代 Gaudi 的37.21%,而當(dāng)設(shè)備數(shù)量都增加為8后,這一百分比進(jìn)一步下降至約24.33%。

wKgZomUEQWiAHiZiAAFknVTYkmY555.png

圖 1. BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的推理時(shí)延測(cè)試結(jié)果

此外,在Meta發(fā)布的開(kāi)源大模型Llama 2上,Gaudi2的表現(xiàn)依然出眾。圖2顯示了70億參數(shù)和130億參數(shù)兩種Llama 2模型的推理性能。模型分別在一臺(tái)Habana Gaudi2設(shè)備上運(yùn)行,batch size=1,輸出token長(zhǎng)度256,輸入token長(zhǎng)度不定,使用BF16精度。報(bào)告的性能指標(biāo)為每個(gè)token的延遲(不含第一個(gè))。對(duì)于128至2000輸入token,在70億參數(shù)模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒,而對(duì)于130億參數(shù)模型,范圍為每token 15.5-20.4毫秒2。

wKgZomUEQWmAKhF5AAGHaOrFSeA987.png

圖 2.基于HabanaGaudi2,70億和130億參數(shù)Llama 2模型的推理性能

值得一提的是,Habana 的SynapseAI 軟件套件在模型部署和優(yōu)化的過(guò)程中起到了至關(guān)重要的作用。SynapseAI 軟件套件不僅支持使用 PyTorch 和 DeepSpeed 來(lái)加速LLM的訓(xùn)練和推理,還支持 HPU Graph和DeepSpeed-inference,這兩者都非常適合時(shí)延敏感型應(yīng)用。因此,在Habana Gaudi2上部署模型非常簡(jiǎn)單,尤其是對(duì)LLM等數(shù)十億以上參數(shù)的模型推理具有較優(yōu)的速度優(yōu)勢(shì),且無(wú)需編寫(xiě)復(fù)雜的腳本。

LLM的成功堪稱史無(wú)前例。有人說(shuō),LLM讓AI技術(shù)朝著通用人工智能(AGI)的方向邁進(jìn)了一大步,而因此面臨的算力挑戰(zhàn)也催生了更多技術(shù)的創(chuàng)新。Habana Gaudi2 正是在這一背景下應(yīng)運(yùn)而生,以其強(qiáng)大的性能和性價(jià)比優(yōu)勢(shì)加速深度學(xué)習(xí)工作負(fù)載。Habana Gaudi2的出色表現(xiàn)更進(jìn)一步顯示了英特爾AI產(chǎn)品組合的競(jìng)爭(zhēng)優(yōu)勢(shì),以及英特爾對(duì)加速?gòu)脑频骄W(wǎng)絡(luò)到邊緣再到端的工作負(fù)載中大規(guī)模部署AI的承諾。英特爾將持續(xù)引領(lǐng)產(chǎn)品技術(shù)創(chuàng)新,豐富和優(yōu)化包括英特爾 至強(qiáng) 可擴(kuò)展處理器、英特爾 數(shù)據(jù)中心GPU等在內(nèi)的AI產(chǎn)品組合,助力中國(guó)本地AI市場(chǎng)發(fā)展。

參考資料:

1.https://huggingface.co/blog/zh/habana-gaudi-2-bloom

2.Habana Gaudi2深度學(xué)習(xí)加速器:所有測(cè)量使用了一臺(tái)HLS2 Gaudi2服務(wù)器上的Habana SynapseAI 1.10版和optimum-habana 1.6版,該服務(wù)器具有八個(gè)Habana Gaudi2 HL-225H Mezzanine卡和兩個(gè)英特爾 至強(qiáng) 白金8380 CPU@2.30GHz以及1TB系統(tǒng)內(nèi)存。2023年7月進(jìn)行測(cè)量。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10193

    瀏覽量

    174641
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11075

    瀏覽量

    216974

原文標(biāo)題:Hold住千億參數(shù)大模型,Gaudi?2 有何優(yōu)勢(shì)

文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ON Semiconductor MC14013BDTR2G 雙D型觸發(fā)器參數(shù)特性 EDA模型 數(shù)據(jù)手冊(cè)

    ON Semiconductor MC14013BDTR2G 雙D型觸發(fā)器參數(shù)特性 EDA模型 數(shù)據(jù)手冊(cè)
    的頭像 發(fā)表于 05-29 14:41 ?199次閱讀
    ON Semiconductor MC14013BDTR<b class='flag-5'>2</b>G  雙D型觸發(fā)器<b class='flag-5'>參數(shù)</b>特性 EDA<b class='flag-5'>模型</b> 數(shù)據(jù)手冊(cè)

    英特爾Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    近日,DeepSeek公司發(fā)布了備受矚目的Janus Pro模型,其憑借超強(qiáng)性能和高精度在業(yè)界引發(fā)了廣泛關(guān)注。為了進(jìn)一步提升該模型的應(yīng)用效能,英特爾宣布其Gaudi 2D AI加速器已
    的頭像 發(fā)表于 02-10 11:10 ?622次閱讀

    DeepSeek發(fā)布Janus Pro模型,英特爾Gaudi 2D AI加速器優(yōu)化支持

    Gaudi 2D AI加速器現(xiàn)已針對(duì)該模型進(jìn)行了全面優(yōu)化。這一優(yōu)化舉措使得AI開(kāi)發(fā)者能夠更輕松地實(shí)現(xiàn)復(fù)雜任務(wù)的部署與優(yōu)化,從而有效滿足行業(yè)應(yīng)用對(duì)于推理算力的迫切需求。 英特爾Gaudi
    的頭像 發(fā)表于 02-08 14:35 ?618次閱讀

    誰(shuí)能詳細(xì)介紹一下track-and-hold

    在運(yùn)放和ADC芯片的數(shù)據(jù)手冊(cè)中經(jīng)??吹絫rack-and-hold,誰(shuí)能詳細(xì)介紹一下track-and-hold?
    發(fā)表于 01-20 09:10

    ADS7864 HOLD信號(hào)的頻率應(yīng)該是多少?

    ADS7864的DATASHEET上說(shuō),外部時(shí)鐘為8MHz,A/D采樣頻率為500kHz。ADS7864A、B、C三對(duì)通道,每對(duì)兩個(gè)通道,共六個(gè)通道,請(qǐng)問(wèn)這里所說(shuō)的500kHz采樣頻率是每個(gè)
    發(fā)表于 01-15 07:26

    【「大模型啟示錄」閱讀體驗(yàn)】+開(kāi)啟智能時(shí)代的新鑰匙

    那些擁有數(shù)十億甚至數(shù)千億參數(shù)的大規(guī)模模型成為了現(xiàn)實(shí)可能。Transformer 等機(jī)制模型架構(gòu)的橫空出世,徹底改變了模型訓(xùn)練的效率和性能。
    發(fā)表于 12-24 13:10

    階躍星辰發(fā)布國(guó)內(nèi)首個(gè)千億參數(shù)端到端語(yǔ)音大模型

    近日,階躍星辰在官方公眾號(hào)上宣布了一項(xiàng)重大突破——推出Step-1o千億參數(shù)端到端語(yǔ)音大模型。該模型被譽(yù)為“國(guó)內(nèi)首個(gè)千億
    的頭像 發(fā)表于 12-17 13:43 ?743次閱讀

    你聽(tīng)說(shuō)過(guò)MIPS嗎?它和ARM區(qū)別?

    導(dǎo)讀探索MX2000-BBGA核心版為何選用MIPS指令集的君正X2000處理器,MIPS相較于ARM哪方面優(yōu)勢(shì)?前段時(shí)間ZLG致遠(yuǎn)電子推出了MX2000-BBGA核心版,這款產(chǎn)品的核心芯片搭載了
    的頭像 發(fā)表于 11-23 01:05 ?778次閱讀
    你聽(tīng)說(shuō)過(guò)MIPS嗎?它和ARM<b class='flag-5'>有</b><b class='flag-5'>何</b>區(qū)別?

    【迅為電子】龍芯LS2K1000LA和LS2K1000區(qū)別?

    【迅為電子】龍芯LS2K1000LA和LS2K1000區(qū)別?
    的頭像 發(fā)表于 11-13 14:13 ?734次閱讀
    【迅為電子】龍芯LS<b class='flag-5'>2</b>K1000LA和LS<b class='flag-5'>2</b>K1000<b class='flag-5'>有</b><b class='flag-5'>何</b>區(qū)別?

    電阻R2什么用

    電阻R2什么用請(qǐng)各位大俠觀一下給本人講解一下對(duì)次感謝各位觀看
    發(fā)表于 10-26 09:42

    AI大模型在圖像識(shí)別中的優(yōu)勢(shì)

    AI大模型在圖像識(shí)別中展現(xiàn)出了顯著的優(yōu)勢(shì),這些優(yōu)勢(shì)主要源于其強(qiáng)大的計(jì)算能力、深度學(xué)習(xí)算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對(duì)AI大模型在圖像識(shí)別中優(yōu)勢(shì)
    的頭像 發(fā)表于 10-23 15:01 ?2412次閱讀

    英特爾發(fā)布Gaudi3 AI加速器,押注低成本優(yōu)勢(shì)挑戰(zhàn)市場(chǎng)

    英特爾近期震撼發(fā)布了專為AI工作負(fù)載設(shè)計(jì)的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門(mén)型號(hào)H100與H200 GPU,但英特爾巧妙地將競(jìng)爭(zhēng)優(yōu)勢(shì)聚焦于其更為親民的價(jià)格與總擁有成本(TCO)上。
    的頭像 發(fā)表于 09-26 16:16 ?1177次閱讀

    英偉達(dá)震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級(jí)

    8月23日,英偉達(dá)宣布,其全新AI模型面世,該模型參數(shù)規(guī)模高達(dá)80億,具有精度高、計(jì)算效益大等優(yōu)勢(shì),適用于GPU加速的數(shù)據(jù)中心、云及工作站環(huán)境。
    的頭像 發(fā)表于 08-23 16:08 ?1091次閱讀

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期發(fā)布了最新開(kāi)放模型 Gemma 2,目前與同等規(guī)模的開(kāi)放模型相比,取得了明顯的優(yōu)勢(shì),同時(shí)在安全可控性上得到了顯著的增強(qiáng)。
    的頭像 發(fā)表于 08-09 17:04 ?1299次閱讀
    Google Gemma <b class='flag-5'>2</b><b class='flag-5'>模型</b>的部署和Fine-Tune演示

    Yuan2.0千億模型在通用服務(wù)器NF8260G7上的推理部署

    巨量模型的智能生產(chǎn)力正在逐步滲透到各行各業(yè),但它們的部署和運(yùn)行通常需要專用的AI加速卡,能否在CPU上運(yùn)行千億模型,對(duì)千行百業(yè)智能化轉(zhuǎn)型的深化與普惠至關(guān)重要。
    的頭像 發(fā)表于 07-30 14:26 ?1190次閱讀
    Yuan2.0<b class='flag-5'>千億</b>大<b class='flag-5'>模型</b>在通用服務(wù)器NF8260G7上的推理部署