chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達Blackwell可支持10萬億參數(shù)模型AI訓練,實時大語言模型推理

Carol Li ? 來源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-09-04 09:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網報道(文/李彎彎)在近日的Hot Chips 2024大會上,英偉達公布了下一代GPU架構Blackwell的更多細節(jié)信息,以及未來的產品路線圖。

英偉達Blackwell是通用計算全棧矩陣的終極解決方案,由多個英偉達芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網絡接口卡、NVLink交換機、Spectrum以太網交換機和Quantum InfiniBand交換機。

英偉達稱,Blackwell擁有6項革命性技術,可支持多達10萬億參數(shù)的模型進行AI訓練和實時大語言模型(LLM)推理。

NVIDIA Blackwell 的技術特點

NVIDIA Blackwell 架構是NVIDIA于2024年3月在NVIDIA GTC大會上發(fā)布的全新架構,是NVIDIA繼Hopper架構之后推出的全新架構,旨在推動生成式AI和加速計算領域的發(fā)展。Blackwell架構擁有六項革命性技術,這些技術共同構成了其強大的計算能力和高效性。

一、它是全球最強大的芯片,擁有2080億個晶體管,這確保了芯片具有極高的計算能力和復雜性。它采用臺積電4納米工藝制造,提高了芯片的集成度,降低了功耗和發(fā)熱量。配備192GB的HBM3E顯存,極大提升了芯片的數(shù)據(jù)處理能力和效率。

第二代Transformer引擎,結合Blackwell Tensor Core技術和TensorRT-LLM及NeMo Megatron框架中的英偉達先進動態(tài)范圍管理算法,Blackwell通過新的4位浮點AI支持雙倍的計算和模型大小推理能力。

第五代NVLink,為每個GPU提供了突破性的1.8TB/s雙向吞吐量,確保最復雜LLM之間多達576個GPU之間的無縫高速通信。

四、RAS引擎,Blackwell支持的GPU包含一個專用引擎,實現(xiàn)可靠性、可用性和服務性。此外,Blackwell架構還增加了芯片級功能,利用基于AI的預防性維護進行診斷和預測可靠性問題,從而延長系統(tǒng)正常運行時間并提高大規(guī)模部署AI的彈性。

五、安全人工智能,先進的機密計算功能可在不影響性能的情況下保護AI模型和客戶數(shù)據(jù),并支持新的本機接口加密協(xié)議,進一步增強了芯片的安全性。

六、解壓縮引擎,專用解壓縮引擎支持最新格式,加快數(shù)據(jù)庫查詢,提供數(shù)據(jù)分析和數(shù)據(jù)科學的最高性能。

生態(tài)系統(tǒng)方面,Blackwell不僅是系統(tǒng)的核心芯片,更是一個全新的平臺。它涵蓋了從CPU和GPU計算到用于互連的不同類型的網絡,是通用計算全棧矩陣的終極解決方案。

Blackwell架構將助推數(shù)據(jù)處理、工程模擬、電子設計自動化、計算機輔助藥物設計、量子計算和生成式AI等領域實現(xiàn)突破。

NVIDIA已經展示了基于Blackwell架構的GPU GB200 NVL72等產品,該產品專為萬億參數(shù)AI而設計,對大語言模型(LLM)推理性能提升高達30倍。隨著AI模型尺寸的增加,在多個GPU上拆分工作負載勢在必行。而Blackwell足夠強大,可以在一個GPU中處理專家模型。

相比Hopper架構的優(yōu)勢

NVIDIA Blackwell架構相比其上一個NVIDIA Hopper架構具有多方面的優(yōu)勢。NVIDIA Hopper架構是NVIDIA在2022年推出的GPU架構,該架構旨在取代之前的NVIDIA Ampere架構,并為新一代工作負載提供強大的加速計算平臺。

Hopper架構采用了先進的臺積電4N工藝制造,集成了超過800億個晶體管,這為高性能計算提供了堅實的基礎。

Hopper架構通過Transformer引擎推進了Tensor Core技術的發(fā)展,旨在加速AI模型訓練。Transformer引擎能夠應用混合的FP8和FP16精度,以大幅加速Transformer模型的AI計算。

與上一代相比,Hopper架構在TF32、FP64、FP16和INT8精度的每秒浮點運算(FLOPS)上提高了3倍。這種性能提升使得Hopper在處理大規(guī)模AI模型時更加高效。

Hopper架構引入了第四代NVLink技術,可通過NVIDIA DGX和HGX服務器擴展多GPU輸入和輸出(IO),每個GPU的雙向傳輸速率可達900GB/s,比PCIe 5.0的帶寬高7倍。

第三代NVIDIA NVSwitch支持SHARP網絡計算技術,打破了該技術只能通過InfiniBand提供的傳統(tǒng)限制。這使得Hopper架構在處理大規(guī)模HPC和AI工作負載時能夠實現(xiàn)更高的互連效率和通信帶寬。

相比較而言,晶體管數(shù)量與計算能力方面,Blackwell架構GPU擁有2080億個晶體管,比Hopper架構的GPU多出顯著數(shù)量,這直接提升了其計算能力。

Blackwell架構的單個芯片計算能力達到了20 petaFLOPS,這使其在處理大規(guī)模AI模型時具有更高的實時性能和效率。

內存與帶寬方面,Blackwell架構配備了更大的HBM3e內存(如192GB)和更高的顯存帶寬(如8TB/s),相比Hopper架構,這進一步增強了數(shù)據(jù)處理和傳輸?shù)乃俣取?br />
寫在最后

NVIDIA Blackwell架構相比其上一個架構在性能、計算能力、技術創(chuàng)新、特性增強以及生態(tài)系統(tǒng)與應用拓展等方面均具有顯著優(yōu)勢。應用方面,Blackwell架構將助推數(shù)據(jù)處理、工程模擬、電子設計自動化、計算機輔助藥物設計、量子計算和生成式AI等領域實現(xiàn)突破。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5035

    瀏覽量

    133737
  • AI
    AI
    +關注

    關注

    88

    文章

    37013

    瀏覽量

    290045
  • 英偉達
    +關注

    關注

    23

    文章

    4014

    瀏覽量

    96791
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型推理顯存和計算量估計方法研究

    過程中需要占用大量顯存,導致推理速度變慢,甚至無法進行。 計算量過大:大模型的計算量較大,導致推理速度慢,難以滿足實時性要求。 為了解決這些問題,本文將針對大
    發(fā)表于 07-03 19:43

    首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手

    Studio提供了最優(yōu)解。Neuron Studio針對模型到應用,提供一站式、全鏈路、自動化的開發(fā)協(xié)助,不僅讓AI應用開發(fā)的全流程可視化,更帶來整個多種工具的一站式開發(fā)能力,還支持
    發(fā)表于 04-13 19:52

    英偉Cosmos-Reason1 模型深度解讀

    英偉近期發(fā)布的 Cosmos-Reason1 模型在物理常識推理領域引發(fā)廣泛關注。作為專為物理世界交互設計的多模態(tài)大語言
    的頭像 發(fā)表于 03-29 23:29 ?2472次閱讀

    英偉GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數(shù)據(jù)工具的重大更新

    模型實現(xiàn)物理 AI 的預測、可控世界生成和推理。 兩款全新Blueprint為機器人和自動駕駛汽車后訓練提供海量物理
    的頭像 發(fā)表于 03-20 19:01 ?1053次閱讀

    英偉GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代

    英偉GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
    的頭像 發(fā)表于 03-20 15:35 ?1066次閱讀

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    ) 擴展上下文+結構化推理支持更長復雜輸入) 響應控制 通用流暢性優(yōu)先 強化分步解釋與中間過程可解釋性 3. 技術架構差異 技術點 DeepSeek-V3 DeepSeek-R1 訓練數(shù)據(jù) 通用語料+部分
    發(fā)表于 02-14 02:08

    新品| LLM630 Compute Kit,AI語言模型推理開發(fā)平臺

    LLM630LLM推理,視覺識別,開發(fā),靈活擴展···LLM630ComputeKit是一款AI語言模型
    的頭像 發(fā)表于 01-17 18:48 ?1043次閱讀
    新品| LLM630 Compute Kit,<b class='flag-5'>AI</b> 大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>開發(fā)平臺

    英偉發(fā)布Nemotron-CC大型AI訓練數(shù)據(jù)庫

    ,Nemotron-CC數(shù)據(jù)庫總計包含了驚人的6.3萬億個Token,其中1.9萬億為精心合成的數(shù)據(jù)。這一龐大的數(shù)據(jù)量不僅為AI模型訓練
    的頭像 發(fā)表于 01-14 14:14 ?676次閱讀

    英偉推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數(shù)據(jù)問題

    CES 2025展會上,英偉推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡稱WFM。 物理 AI
    的頭像 發(fā)表于 01-14 11:04 ?1838次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>推出基石世界<b class='flag-5'>模型</b>Cosmos,解決智駕與機器人具身智能<b class='flag-5'>訓練</b>數(shù)據(jù)問題

    NaVILA:加州大學與英偉聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉,共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導航領域展現(xiàn)出了獨特的應用潛力,為智能機
    的頭像 發(fā)表于 12-13 10:51 ?856次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練推理和部署大型語言模型的軟件工具和庫。下面,
    的頭像 發(fā)表于 12-06 10:28 ?713次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1950次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    AI模型訓練數(shù)據(jù)來源分析

    AI模型訓練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對于構建和優(yōu)化AI模型至關重要。以下是對AI
    的頭像 發(fā)表于 10-23 15:32 ?5351次閱讀

    如何訓練自己的AI模型

    訓練AI模型之前,需要明確自己的具體需求,比如是進行自然語言處理、圖像識別、推薦系統(tǒng)還是其他任務。 二、數(shù)據(jù)收集與預處理 數(shù)據(jù)收集 根據(jù)任務需求,收集并準備好足夠的數(shù)據(jù)集。 可以選
    的頭像 發(fā)表于 10-23 15:07 ?6030次閱讀