亚洲综合蜜芽在线一区二区,黑帽门主人公现状,日韩AV一区二区三区高清

4月12日上午，英偉達(dá)召開了春季GPU技術(shù)大會，圖形和加速器設(shè)計(jì)師宣布他們將再次設(shè)計(jì)自己的基于Arm的CPU。這款CPU以計(jì)算機(jī)編程先驅(qū)、美國海軍少將格蕾絲?霍珀（Grace Hopper）的名字命名，它是英偉達(dá)在全面垂直整合硬件堆棧方面的最新嘗試，能夠在提供常規(guī)GPU產(chǎn)品的同時提供高性能CPU。據(jù)英偉達(dá)介紹，該芯片是專為大規(guī)模神經(jīng)網(wǎng)絡(luò)工作負(fù)載設(shè)計(jì)的，預(yù)計(jì)將于2023年在英偉達(dá)的產(chǎn)品中使用。

距離芯片準(zhǔn)備就緒還有兩年的時間，英偉達(dá)這次表現(xiàn)得相對低調(diào)，只提供了芯片的部分細(xì)節(jié)。例如，它將基于Arm的Neoverse內(nèi)核的未來迭代產(chǎn)品，因?yàn)槟壳案嚓P(guān)注的是英偉達(dá)未來的工作流模式，而不是速度和輸出。至少目前，英偉達(dá)已經(jīng)明確表示，Grace是英偉達(dá)的內(nèi)部產(chǎn)品，將作為其大型服務(wù)器產(chǎn)品的一部分。該公司并沒有直接瞄準(zhǔn)英特爾Xeon或AMD EPYC服務(wù)器市場，相反，他們正在建造自己的芯片來補(bǔ)充他們的GPU產(chǎn)品，創(chuàng)造一種可以直接連接他們的GPU的專用芯片，幫助處理參數(shù)規(guī)模達(dá)到萬億級的人工智能模型。

總的來說，Grace的設(shè)計(jì)是為了填補(bǔ)英偉達(dá)人工智能服務(wù)器中CPU的空缺。公司的GPU非常適合于特定的深度學(xué)習(xí)模型，但不是所有模型都必須依賴于GPU。英偉達(dá)當(dāng)前的服務(wù)器產(chǎn)品通常依賴于AMD的EPYC處理器，該處理器對于一般的計(jì)算目的來說速度非?？?，但缺少英偉達(dá)尋找的那種高速I/O和深度學(xué)習(xí)優(yōu)化。更重要的是，英偉達(dá)目前因使用PCI Express進(jìn)行CPU-GPU連接而遇到瓶頸。它們的GPU可以通過NVLink在彼此之間快速對話，但不能返回主機(jī)CPU或系統(tǒng)RAM。

這個問題的解決方案是使用NVLink進(jìn)行CPU-GPU通信，就像Grace之前的情況一樣。正是出于這個原因，英偉達(dá)曾與OpenPOWER基金會合作，將NVLink引入到POWER9中。然而，隨著POWER的流行度下降，以及POWER10跳過了NVLink，這種關(guān)系似乎正在逐漸消失。而英偉達(dá)正在以自己的方式構(gòu)建帶有NVLink功能的Arm服務(wù)器CPU。

根據(jù)英偉達(dá)的說法，最終的結(jié)果將是一種高性能、高帶寬的CPU與未來一代的英偉達(dá)服務(wù)器GPU協(xié)同工作。在英偉達(dá)談?wù)搶⒚總€英偉達(dá) GPU與一個Grace CPU集成在一塊板上的情況下（類似于今天的夾層卡），不僅CPU性能和系統(tǒng)內(nèi)存隨GPU的數(shù)量而增加，而且通過回旋方式，Grace可以用作英偉達(dá) GPU的各種協(xié)處理器。這是一個非常英偉達(dá)解決方案，不僅可以提高性能，而且在AMD或Intel的CPU與GPU嘗試類似的集成與融合的情況下，可以給他們一個反擊。

到2023年，英偉達(dá)將達(dá)到NVLink 4， SoC和GPU之間的累積帶寬將至少達(dá)到900GB/秒，Grace SoC之間的累積帶寬將超過600GB/秒。關(guān)鍵是，這大于SoC的內(nèi)存帶寬，意味著英偉達(dá)的GPU將有一個到CPU的高速緩存鏈接，可以在全帶寬下訪問系統(tǒng)內(nèi)存，同時也允許整個系統(tǒng)擁有一個單一的共享內(nèi)存地址空間。英偉達(dá)將此描述為平衡系統(tǒng)中可用的帶寬數(shù)量。擁有內(nèi)置CPU是增加內(nèi)存有效量的主要手段，因?yàn)橛ミ_(dá)的GPU仍然是大型神經(jīng)網(wǎng)絡(luò)的主要限制因素，由于內(nèi)存容量的限制，只能有效地運(yùn)行與本地內(nèi)存池一樣大的網(wǎng)絡(luò)。

而且，這種以內(nèi)存為中心的策略也反映在Grace的內(nèi)存池設(shè)計(jì)中。由于英偉達(dá)將CPU與GPU放在一個共享的軟件包中，因此他們打算將RAM放在它旁邊。配備Grace的GPU模塊將包括一定數(shù)量的LPDDR5x內(nèi)存，而英偉達(dá)的目標(biāo)是至少500GB /秒的內(nèi)存帶寬。在2023年，LPDDR5x可能會成為帶寬最高的非顯卡存儲器選項(xiàng)，此外，由于LPDDR5x技術(shù)的根源是移動設(shè)備，而且追蹤長度非常短，英偉達(dá)還在大力宣傳使用LPDDR5x可以提高能源效率。而且，由于這是服務(wù)器部分，Grace的內(nèi)存也將啟用ECC。

至于CPU性能，實(shí)際上這是英偉達(dá)所說得最少的部分。該公司將使用下一代Arm的Neoverse CPU內(nèi)核，，在這方面，最初的N1設(shè)計(jì)已經(jīng)吸引了大量眼球。除此之外，該公司還表示，在SPECrate2017_int_base的吞吐量基準(zhǔn)測試中，這款處理器的內(nèi)核將突破300點(diǎn)，與AMD的一些第二代64核EPYC處理器相當(dāng)。該公司也沒有透露太多關(guān)于CPU是如何配置的，或者針對神經(jīng)網(wǎng)絡(luò)處理的優(yōu)化是如何添加的。但由于Grace的目的是支持英偉達(dá)的GPU，預(yù)計(jì)它會在GPU普遍較弱的情況下變得更強(qiáng)。

另外，如前所述，英偉達(dá)為Grace設(shè)計(jì)的遠(yuǎn)大目標(biāo)是大大減少了大型神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練所需的時間。英偉達(dá)的目標(biāo)是在1萬億參數(shù)模型上提高10倍的性能，

而他們對64個模塊的Grace+A100系統(tǒng)（具有理論上的NVLink 4支持）的性能預(yù)測將把這種模型的訓(xùn)練時間從一個月縮短至三天?；蛘?，能夠在8個模塊的系統(tǒng)上對5000億個參數(shù)模型進(jìn)行實(shí)時推斷。

總體而言，這是英偉達(dá)在數(shù)據(jù)中心CPU市場的第二次真正嘗試，也是第一次有可能成功。英偉達(dá)的Project Denver計(jì)劃最初是在十年前宣布的，但從未像英偉達(dá)預(yù)期的那樣取得真正的成果。定制的Arm內(nèi)核家族從來都不夠好，也從未使用英偉達(dá)的移動SoC制成。相比之下，Grace對于英偉達(dá)來說是一個更安全的項(xiàng)目。它們只是授予Arm內(nèi)核許可，而不是構(gòu)建自己的內(nèi)核，這些內(nèi)核也將被其他許多方使用。因此，英偉達(dá)的風(fēng)險降低了，主要是在I/O和內(nèi)存方面做得很好，并保持最終設(shè)計(jì)的節(jié)能效果。

如果一切都按計(jì)劃進(jìn)行，那么有望在2023年見到Grace。英偉達(dá)已經(jīng)確認(rèn)Grace模塊將可用于HGX載板，以及擴(kuò)展為DGX和所有其他使用這些板的系統(tǒng)。因此，盡管我們還沒有看到英偉達(dá)Grace計(jì)劃的全部內(nèi)容，但很明顯，他們正在計(jì)劃使其成為未來服務(wù)器產(chǎn)品的核心部分。

兩個超級計(jì)算機(jī)客戶：CSCS和LANL

盡管Grace要到2023年才能發(fā)貨，但英偉達(dá)已經(jīng)找到了首批客戶，而且他們都是超級計(jì)算機(jī)的客戶。瑞士國家超級計(jì)算中心（CSCS）和洛斯阿拉莫斯國家實(shí)驗(yàn)室今天宣布，他們將訂購基于Grace的超級計(jì)算機(jī)。這兩套系統(tǒng)都將由惠普的克雷集團(tuán)（Cray group）建造，預(yù)計(jì)將于2023年上線。

CSCS的系統(tǒng)稱為Alps，將替換其當(dāng)前的Piz Daint系統(tǒng)，即Xeon和英偉達(dá) P100集群。根據(jù)兩家公司的說法，Alps將提供20 ExaFLOPS的AI性能，大概是CPU，CUDA內(nèi)核和張量內(nèi)核吞吐量的組合。推出時，Alps應(yīng)該是世界上最快的以人工智能為中心的超級計(jì)算機(jī)。

有趣的是，CSCS對系統(tǒng)的雄心壯志不僅限于機(jī)器學(xué)習(xí)工作負(fù)載。該研究所表示，他們將把Alps作為通用系統(tǒng)，從事更傳統(tǒng)的HPC類型任務(wù)以及以AI為重點(diǎn)的任務(wù)。這包括CSCS對天氣和氣候的傳統(tǒng)研究，而AI之前的Piz Daint也已用于該研究。

如前所述，Alps將由HPE建造，后者將基于其先前宣布的Cray EX架構(gòu)。這將使英偉達(dá)的Grace與AMD的EPYC處理器一起成為Cray EX的第二個CPU選項(xiàng)。

與此同時，Los Alamos的系統(tǒng)正在開發(fā)，作為實(shí)驗(yàn)室與英偉達(dá)之間持續(xù)合作的一部分，而LANL將成為美國第一個使用Grace系統(tǒng)的客戶。盡管實(shí)驗(yàn)室計(jì)劃利用Grace提供的最大數(shù)據(jù)集規(guī)模來計(jì)劃將其用于3D仿真，但LANL并未討論系統(tǒng)的預(yù)期性能是否超出“領(lǐng)導(dǎo)級別”的事實(shí)。LANL系統(tǒng)定于2023年初交付。

原文標(biāo)題：Grace：英偉達(dá)數(shù)據(jù)中心CPU市場的第一次成功嘗試！

文章出處：【微信公眾號：ssdfans】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴