chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá) H100 vs 蘋果M2 大模型訓(xùn)練,哪款性價(jià)比更高?

GPU視覺識(shí)別 ? 來(lái)源:GPU視覺識(shí)別 ? 作者:GPU視覺識(shí)別 ? 2023-07-28 16:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

M1芯片 | Uitra| AMD| A100

M2芯片|ARM| A800 | H100

關(guān)鍵詞:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英偉達(dá)、Nvidia、英特爾、AMD、高性能計(jì)算、高性能服務(wù)器、藍(lán)海大腦、多元異構(gòu)算力、高性能計(jì)算、大模型訓(xùn)練、大型語(yǔ)言模型、通用人工智能、GPU服務(wù)器、GPU集群、大模型訓(xùn)練GPU集群、大語(yǔ)言模型

摘要:訓(xùn)練和微調(diào)大型語(yǔ)言模型對(duì)于硬件資源的要求非常高。目前,主流的大模型訓(xùn)練硬件通常采用英特爾的CPU和英偉達(dá)的GPU。然而,最近蘋果的M2 Ultra芯片和AMD的顯卡進(jìn)展給我們帶來(lái)了一些新的希望。

蘋果的M2 Ultra芯片是一項(xiàng)重要的技術(shù)創(chuàng)新,它為蘋果設(shè)備提供了卓越的性能和能效。與此同時(shí),基于AMD軟硬件系統(tǒng)的大模型訓(xùn)練體系也在不斷發(fā)展,為用戶提供了更多選擇。盡管英偉達(dá)沒(méi)有推出與蘋果相媲美的200G顯卡,但他們?cè)陲@卡領(lǐng)域的競(jìng)爭(zhēng)仍然激烈。對(duì)比蘋果芯片與英偉達(dá)、英特爾、AMD的最新硬件和生態(tài)建設(shè),我們可以看到不同廠商在性價(jià)比方面帶來(lái)了全新的選擇。

藍(lán)海大腦為生成式AI應(yīng)用提供了極具吸引力的算力平臺(tái),與英特爾緊密協(xié)作,為客戶提供強(qiáng)大的大模型訓(xùn)練和推理能力,加速AIGC創(chuàng)新步伐、賦力生成式AI產(chǎn)業(yè)創(chuàng)新。

wKgaomTDeA2AAHc3AAhJqmH5QqU790.png

基于英特爾CPU+英偉達(dá)GPU大模型訓(xùn)練基礎(chǔ)架構(gòu)

一、深度學(xué)習(xí)架構(gòu)大模型的主要優(yōu)勢(shì)

當(dāng)前主流大模型架構(gòu)都是基于深度學(xué)習(xí)transformer的架構(gòu)模型,使用GPU訓(xùn)練深度學(xué)習(xí)架構(gòu)的大模型主要有以下優(yōu)勢(shì):

1、高性能計(jì)算

深度學(xué)習(xí)中的大部分計(jì)算都是浮點(diǎn)計(jì)算,包括矩陣乘法和激活函數(shù)的計(jì)算。GPU在浮點(diǎn)計(jì)算方面表現(xiàn)出色,具有高性能計(jì)算能力。

2、并行計(jì)算能力

GPU具有高度并行的計(jì)算架構(gòu),能夠同時(shí)執(zhí)行多個(gè)計(jì)算任務(wù)。深度學(xué)習(xí)模型通常需要執(zhí)行大量的矩陣乘法和向量運(yùn)算,這些操作可以高度并行的方式進(jìn)行,從而提高深度學(xué)習(xí)模型訓(xùn)練效率。

3、高內(nèi)存帶寬

GPU提供高達(dá)幾百GB/s的內(nèi)存帶寬,滿足深度學(xué)習(xí)模型對(duì)數(shù)據(jù)大容量訪問(wèn)需求。這種高內(nèi)存帶寬能夠加快數(shù)據(jù)傳輸速度,提高模型訓(xùn)練的效率。

wKgaomTDeA6ARyl4AAAAK9URceg317.gif

wKgZomTDeBCAQpPnAAvK8MKbjXE514.png

二、當(dāng)前大多數(shù)大模型采用英特爾的CPU加英偉達(dá)的GPU作為計(jì)算基礎(chǔ)設(shè)施的原因

盡管GPU在訓(xùn)練大模型時(shí)發(fā)揮著重要作用,但單靠GPU遠(yuǎn)遠(yuǎn)不夠。除GPU負(fù)責(zé)并行計(jì)算和深度學(xué)習(xí)模型訓(xùn)練外,CPU在訓(xùn)練過(guò)程中也扮演著重要角色,其主要負(fù)責(zé)數(shù)據(jù)的預(yù)處理、后處理以及管理整個(gè)訓(xùn)練過(guò)程的任務(wù)。通過(guò)GPU和CPU之間的協(xié)同工作,可以實(shí)現(xiàn)高效的大規(guī)模模型訓(xùn)練。

1、強(qiáng)大的性能

英特爾最新CPU采用Alder Lake架構(gòu),具備出色的通用計(jì)算能力。而英偉達(dá)最新GPU H100擁有3.35TB/s的顯存帶寬、80GB的顯存大小和900GB/s的顯卡間通信速度,對(duì)大數(shù)據(jù)吞吐和并行計(jì)算提供友好的支持。

2、廣泛的支持和生態(tài)系統(tǒng)

基于英特爾CPU提供的AVX2指令集和基于英偉達(dá)GPU提供的CUDA并行計(jì)算平臺(tái)和編程模型,構(gòu)建優(yōu)秀的底層加速庫(kù)如PyTorch等上層應(yīng)用。

3、良好的兼容性和互操作性

在硬件和軟件設(shè)計(jì)上考慮彼此配合使用的需求,能夠有效地協(xié)同工作。這種兼容性和互操作性使得英特爾的CPU和英偉達(dá)的GPU成為流行的組合選擇,在大規(guī)模模型訓(xùn)練中得到廣泛應(yīng)用。

蘋果的M2 Ultra統(tǒng)一內(nèi)存架構(gòu)

在WWDC2023開發(fā)者大會(huì)上蘋果推出M2 Ultra芯片,以及搭載該芯片的新款Mac Studio和Mac Pro。這款芯片采用了第二代5nm制程工藝技術(shù),是蘋果迄今為止最大且最強(qiáng)大的芯片。

去年3月,蘋果展示了一種將兩塊M1芯片“粘”在一起的設(shè)計(jì),發(fā)布集成1140億顆晶體管、20核CPU、最高64核GPU、32核神經(jīng)網(wǎng)絡(luò)引擎、2.5TB/s數(shù)據(jù)傳輸速率、800GB/s內(nèi)存帶寬、128GB統(tǒng)一內(nèi)存的“至尊版”芯片M1 Ultra。延續(xù)M1 Ultra的設(shè)計(jì)思路,M2 Ultra芯片通過(guò)采用突破性的UltraFusion架構(gòu),將兩塊M2 Max芯片拼接到一起,擁有1340億個(gè)晶體管,比上一代M1 Ultra多出200億個(gè)。

UltraFusion是蘋果在定制封裝技術(shù)方面的領(lǐng)先技術(shù),其使用硅中介層(interposer)將芯片與超過(guò)10000個(gè)信號(hào)連接起來(lái),從而提供超過(guò)2.5TB/s的低延遲處理器間帶寬。基于這一技術(shù),M2 Ultra芯片在內(nèi)存方面比M1 Ultra高出了50%,達(dá)到192GB的統(tǒng)一內(nèi)存,并且擁有比M2 Max芯片高兩倍的800GB/s內(nèi)存帶寬。以往由于內(nèi)存不足,即使是最強(qiáng)大的獨(dú)立GPU也無(wú)法處理大型模型。然而,蘋果通過(guò)將超大內(nèi)存帶寬集成到單個(gè)SoC中,實(shí)現(xiàn)單臺(tái)設(shè)備可以運(yùn)行龐大的機(jī)器學(xué)習(xí)工作負(fù)載,如大型Transformer模型等。

wKgaomTDeA6ARyl4AAAAK9URceg317.gif

AMD的大模型訓(xùn)練生態(tài)

除蘋果的M2 Ultra在大模型訓(xùn)練方面取得了顯著進(jìn)展之外,AMD的生態(tài)系統(tǒng)也在加速追趕。

據(jù)7月3日消息,NVIDIA以其顯著的優(yōu)勢(shì)在顯卡領(lǐng)域獲得了公認(rèn)的地位,無(wú)論是在游戲還是計(jì)算方面都有著顯著的優(yōu)勢(shì),而在AI領(lǐng)域更是幾乎壟斷。然而,有好消息傳來(lái),AMD已經(jīng)開始發(fā)力,其MI250顯卡性能已經(jīng)達(dá)到了NVIDIA A100顯卡的80%。 AMD在AI領(lǐng)域的落后主要是因?yàn)槠滠浖鷳B(tài)無(wú)法跟上硬件發(fā)展的步伐。盡管AMD的顯卡硬件規(guī)格很高,但其運(yùn)算環(huán)境與NVIDIA的CUDA相比仍然存在巨大的差距。最近,AMD升級(jí)了MI250顯卡,使其更好地支持PyTorch框架。

MosaicML的研究結(jié)果顯示,MI250顯卡在優(yōu)化后的性能提升顯著,大語(yǔ)言模型訓(xùn)練速度已達(dá)到A100顯卡的80%。AMD指出,他們并未為MosaicML進(jìn)行這項(xiàng)研究提供資助,但表示將繼續(xù)與初創(chuàng)公司合作,以優(yōu)化軟件支持。 但需要注意的是,NVIDIA A100顯卡是在2020年3月發(fā)布的,已經(jīng)是上一代產(chǎn)品,而NVIDIA目前最新的AI加速卡是H100,其AI性能有數(shù)倍至數(shù)十倍的提升。AMD的MI250顯卡也不是最新產(chǎn)品,其在2021年底發(fā)布,采用CDNA2架構(gòu),6nm工藝,擁有208個(gè)計(jì)算單元和13312個(gè)流處理器核心,各項(xiàng)性能指標(biāo)比MI250X下降約5.5%,其他規(guī)格均未變動(dòng)。

AMD體系的特點(diǎn)如下:

一、LLM訓(xùn)練非常穩(wěn)定

使用AMD MI250和NVIDIA A100在MPT-1B LLM模型上進(jìn)行訓(xùn)練時(shí),從相同的檢查點(diǎn)開始,損失曲線幾乎完全相同。

二、性能與現(xiàn)有的A100系統(tǒng)相媲美

MosaicML對(duì)MPT模型的1B到13B參數(shù)進(jìn)行了性能分析發(fā)現(xiàn)MI250每個(gè)GPU的訓(xùn)練吞吐量在80%的范圍內(nèi)與A100-40GB相當(dāng),并且與A100-80GB相比在73%的范圍內(nèi)。隨著AMD軟件的改進(jìn),預(yù)計(jì)這一差距將會(huì)縮小。

三、基本無(wú)需代碼修改

得益于PyTorch對(duì)ROCm的良好支持,基本上不需要修改現(xiàn)有代碼。

英偉達(dá)顯卡與蘋果M2 Ultra 相比性能如何

一、英偉達(dá)顯卡與M2 Ultra相比性能如何

在傳統(tǒng)英特爾+英偉達(dá)獨(dú)立顯卡架構(gòu)下,CPU與GPU之間的通信通常通過(guò)PCIe進(jìn)行。最強(qiáng)大的H100支持PCIe Gen5,傳輸速度為128GB/s,而A100和4090則支持PCIe 4,傳輸速度為64GB/s。

另一個(gè)重要的參數(shù)是GPU的顯存帶寬,即GPU芯片與顯存之間的讀寫速度。顯存帶寬是影響訓(xùn)練速度的關(guān)鍵因素。例如,英偉達(dá)4090顯卡的顯存帶寬為1.15TB/s,而A100和H100的顯存帶寬分別為1.99TB/s和3.35TB/s。

最后一個(gè)重要的參數(shù)是顯存大小,它指的是顯卡上的存儲(chǔ)容量。目前,4090是消費(fèi)級(jí)顯卡的頂級(jí)選擇,顯存大小為24GB,而A100和H100單張顯卡的顯存大小均為80GB。這個(gè)參數(shù)對(duì)于存儲(chǔ)大規(guī)模模型和數(shù)據(jù)集時(shí)非常重要。

wKgaomTDeA6ARyl4AAAAK9URceg317.gif

wKgZomTDeBKAD3rnAASTVfeCPpo994.png

M2 Ultra的芯片參數(shù)和4090以及A100的對(duì)比(CPU采用英特爾最新的i9-13900KS)

從這些參數(shù)來(lái)看,蘋果的M2 Ultra相對(duì)于英偉達(dá)的4090來(lái)說(shuō)性能稍低,與專業(yè)級(jí)顯卡相比則較為遜色。然而,M2 Ultra最重要的優(yōu)勢(shì)在于統(tǒng)一內(nèi)存,即CPU讀寫的內(nèi)存可以直接被顯卡用作顯存。因此,擁有192GB的顯存幾乎相當(dāng)于8個(gè)4090或者2.5個(gè)A100/H100的顯存。這意味著單個(gè)M2 Ultra芯片可以容納非常大的模型。例如,當(dāng)前開源的LLaMA 65B模型需要120GB的顯存才能進(jìn)行推理。這意味著蘋果的M2 Ultra可以直接適用于LLaMA 65B,而目前沒(méi)有其他芯片能夠單獨(dú)承載如此龐大的模型,甚至包括最新的H100。

wKgaomTDeBOADgkMAAprJYqhjJ0162.png

從上述參數(shù)對(duì)比來(lái)看,M2 Ultra在其他指標(biāo)接近4090的情況下,顯存大小成為其最大的優(yōu)勢(shì)。盡管M2 Ultra并非專為大模型訓(xùn)練而設(shè)計(jì),但其架構(gòu)非常適合進(jìn)行大模型訓(xùn)練。

在上層生態(tài)方面,進(jìn)展也非常良好。2022年5月18日,PyTorch宣布支持蘋果芯片,并開始適配M1 Ultra,利用蘋果提供的芯片加速庫(kù)MPS進(jìn)行加速Ultra上使用PyTorch進(jìn)行訓(xùn)練。以文本生成圖片為例,它能夠一次性生成更多且更高精度的圖片。

二、NVIDIA為什么不推出一款200GB顯存以上的GPU?

主要原因可以分為以下幾點(diǎn):

1、大語(yǔ)言模型火起來(lái)還沒(méi)多久;

2、顯存容量和算力是要匹配的,空有192GB顯存,但是算力不足并無(wú)意義;

3、蘋果大內(nèi)存,適合在本地進(jìn)行推理,有希望引爆在端側(cè)部署AI的下一輪熱潮。

從2022年11月ChatGPT火起來(lái)到現(xiàn)在,時(shí)間也不過(guò)才半年時(shí)間。從項(xiàng)目立項(xiàng),到確定具體的規(guī)格,再到設(shè)計(jì)產(chǎn)品,并且進(jìn)行各種測(cè)試,最終上市的全流程研發(fā)時(shí)間至少在一年以上??陀^上講,大語(yǔ)言模型形成全球范圍的熱潮,一定會(huì)帶動(dòng)對(duì)于顯存容量的需求。英偉達(dá)未來(lái)顯存容量的升級(jí)速度一定會(huì)提速。

過(guò)去之所以消費(fèi)級(jí)顯卡的顯存容量升級(jí)較慢,根本原因是沒(méi)有應(yīng)用場(chǎng)景。8GB的消費(fèi)級(jí)顯卡用來(lái)打游戲足矣,加速一些視頻剪輯也綽綽有余。更高的顯存容量,只能服務(wù)于少量科研人員,而且大多都去買了專業(yè)卡專門應(yīng)用?,F(xiàn)在有了大語(yǔ)言模型,可以在本地部署一個(gè)開源的模型。有了對(duì)于顯存的明確需求,未來(lái)一定會(huì)快速提升顯存容量的。

其次,蘋果有192GB的統(tǒng)一內(nèi)存可以用于大語(yǔ)言模型的“訓(xùn)練”。這個(gè)認(rèn)知是完全錯(cuò)誤的。AI模型可以分為訓(xùn)練(train)、微調(diào)(fine-tune)和推理(inference)。簡(jiǎn)單來(lái)說(shuō),訓(xùn)練就是研發(fā)人員研發(fā)AI模型的過(guò)程,推理就是用戶部署在設(shè)備上來(lái)用。從算力消耗上來(lái)說(shuō),是訓(xùn)練>微調(diào)>推理,訓(xùn)練要比推理的算力消耗高至少3個(gè)數(shù)量級(jí)以上。

訓(xùn)練也不純粹看一個(gè)顯存容量大小,而是和芯片的算力高度相關(guān)的。因?yàn)閷?shí)際訓(xùn)練的過(guò)程當(dāng)中,將海量的數(shù)據(jù)切塊成不同的batch size,然后送入顯卡進(jìn)行訓(xùn)練。顯存大,意味著一次可以送進(jìn)更大的數(shù)據(jù)塊。但是芯片算力如果不足,單個(gè)數(shù)據(jù)塊就需要更長(zhǎng)的等待時(shí)間。

顯存和算力,必須要相輔相成。在有限的產(chǎn)品成本內(nèi),兩者應(yīng)當(dāng)是恰好在一個(gè)平衡點(diǎn)上?,F(xiàn)階段英偉達(dá)的H100能夠廣泛用于各大廠商的真實(shí)模型訓(xùn)練,而不是只存在于幾個(gè)自媒體玩具級(jí)別的視頻里面,說(shuō)明H100能夠滿足廠商的使用需要。

要按蘋果的顯存算法,一塊Grace Hopper就超過(guò)了啊。一塊Grace Hopper的統(tǒng)一內(nèi)存高達(dá)512GB,外加Hopper還有96GB的獨(dú)立顯存,早就超了。

wKgZomTDeBOAGEnUAAmXFmbztj0005.png

使用NVIDIA H100訓(xùn)練ChatGPT大模型僅用11分鐘

AI技術(shù)的蓬勃發(fā)展使得NVIDIA的顯卡成為市場(chǎng)上備受矚目的熱門產(chǎn)品。尤其是高端的H100加速卡,其售價(jià)超過(guò)25萬(wàn)元,然而市場(chǎng)供不應(yīng)求。該加速卡的性能也非常驚人,最新的AI測(cè)試結(jié)果顯示,基于GPT-3的大語(yǔ)言模型訓(xùn)練任務(wù)刷新了記錄,完成時(shí)間僅為11分鐘。

據(jù)了解,機(jī)器學(xué)習(xí)及人工智能領(lǐng)域的開放產(chǎn)業(yè)聯(lián)盟MLCommons發(fā)布了最新的MLPerf基準(zhǔn)評(píng)測(cè)。包括8個(gè)負(fù)載測(cè)試,其中就包含基于GPT-3開源模型的LLM大語(yǔ)言模型測(cè)試,這對(duì)于評(píng)估平臺(tái)的AI性能提出了很高的要求。

參與測(cè)試的NVIDIA平臺(tái)由896個(gè)Intel至強(qiáng)8462Y+處理器和3584個(gè)H100加速卡組成,是所有參與平臺(tái)中唯一能夠完成所有測(cè)試的。并且,NVIDIA平臺(tái)刷新了記錄。在關(guān)鍵的基于GPT-3的大語(yǔ)言模型訓(xùn)練任務(wù)中,H100平臺(tái)僅用了10.94分鐘,與之相比,采用96個(gè)至強(qiáng)8380處理器和96個(gè)Habana Gaudi2 AI芯片構(gòu)建的Intel平臺(tái)完成同樣測(cè)試所需的時(shí)間為311.94分鐘。

H100平臺(tái)的性能幾乎是Intel平臺(tái)的30倍,當(dāng)然,兩套平臺(tái)的規(guī)模存在很大差異。但即便只使用768個(gè)H100加速卡進(jìn)行訓(xùn)練,所需時(shí)間仍然只有45.6分鐘,遠(yuǎn)遠(yuǎn)超過(guò)采用Intel平臺(tái)的AI芯片。

H100加速卡采用GH100 GPU核心,定制版臺(tái)積電4nm工藝制造,擁有800億個(gè)晶體管。它集成了18432個(gè)CUDA核心、576個(gè)張量核心和60MB的二級(jí)緩存,支持6144-bit HBM高帶寬內(nèi)存以及PCIe 5.0接口。

wKgaomTDeA6ARyl4AAAAK9URceg317.gif

wKgZomTDeBWAM9KoAAbs4ovuNQQ833.png

H100計(jì)算卡提供SXM和PCIe 5.0兩種樣式。SXM版本擁有15872個(gè)CUDA核心和528個(gè)Tensor核心,而PCIe 5.0版本則擁有14952個(gè)CUDA核心和456個(gè)Tensor核心。該卡的功耗最高可達(dá)700W。

就性能而言,H100加速卡在FP64/FP32計(jì)算方面能夠達(dá)到每秒60萬(wàn)億次的計(jì)算能力,而在FP16計(jì)算方面達(dá)到每秒2000萬(wàn)億次的計(jì)算能力。此外,它還支持TF32計(jì)算,每秒可達(dá)到1000萬(wàn)億次,是A100的三倍。而在FP8計(jì)算方面,H100加速卡的性能可達(dá)每秒4000萬(wàn)億次,是A100的六倍。

藍(lán)海大腦大模型訓(xùn)練平臺(tái)

藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)?,滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時(shí)可以擴(kuò)展至萬(wàn)卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯(cuò)誤警告(如斷電、電涌,過(guò)熱),自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM(超低頻模式,以實(shí)現(xiàn)最低功耗)。致力于通過(guò)“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

wKgaomTDeA6ARyl4AAAAK9URceg317.gif

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場(chǎng)景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)模化生產(chǎn)

3、靈活定制場(chǎng)景

通過(guò)舉例子的方式,定制大模型海量的應(yīng)用場(chǎng)景

4、標(biāo)注數(shù)據(jù)更少

通過(guò)學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求

二、平臺(tái)特點(diǎn)

1、異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過(guò)強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過(guò)分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透?jìng)魑锢砭W(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉(cāng)庫(kù)的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過(guò)程中,提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

目前大模型訓(xùn)練多常用H100、H800、A800、A100等GPU顯卡,其中H100 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過(guò)結(jié)合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點(diǎn)加速每個(gè) GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴(kuò)展性。

搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計(jì)算能力,并利用 NVLink 和 NVSwitch 每個(gè) GPU 3 TB/s 的顯存帶寬和可擴(kuò)展性,憑借高性能應(yīng)對(duì)數(shù)據(jù)分析以及通過(guò)擴(kuò)展支持龐大的數(shù)據(jù)集。通過(guò)結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大型工作負(fù)載。

1、H100工作站常用配置

CPU:英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

內(nèi)存:動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器64GB DDR5 4800兆赫 *24

存儲(chǔ):固態(tài)硬盤3.2TB U.2 PCIe第4代 *4

GPU :Nvidia Vulcan PCIe H100 80GB *8

平臺(tái) :HD210 *1

散熱 :CPU+GPU液冷一體散熱系統(tǒng) *1

網(wǎng)絡(luò) :英偉達(dá)IB 400Gb/s單端口適配器 *8

電源:2000W(2+2)冗余高效電源 *1

2、A800工作站常用配置

CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

內(nèi)存:DDR4 3200 64G *32

數(shù)據(jù)盤:960G 2.5 SATA 6Gb R SSD *2

硬盤:3.84T 2.5-E4x4R SSD *2

網(wǎng)絡(luò):雙口10G光纖網(wǎng)卡(含模塊)*1

雙口25G SFP28無(wú)模塊光纖網(wǎng)卡(MCX512A-ADAT )*1

GPU:HV HGX A800 8-GPU 8OGB *1

電源:3500W電源模塊*4

其他:25G SFP28多模光模塊 *2

單端口200G HDR HCA卡(型號(hào):MCX653105A-HDAT) *4

2GB SAS 12Gb 8口 RAID卡 *1

16A電源線纜國(guó)標(biāo)1.8m *4

托軌 *1

主板預(yù)留PCIE4.0x16接口 *4

支持2個(gè)M.2 *1

原廠質(zhì)保3年 *1

3、A100工作站常用配置

CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM:64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16

SSD1:480GB 2.5英寸SATA固態(tài)硬盤 *1

SSD2:3.84TB 2.5英寸NVMe固態(tài)硬盤 *2

GPU:NVIDIA TESLA A100 80G SXM *8

網(wǎng)卡1:100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2

網(wǎng)卡2:25G CX5雙口網(wǎng)卡 *1

4、H800工作站常用配置

CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

內(nèi)存 :64GB 3200MHz RECC DDR4 DIMM *32

系統(tǒng)硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU: NVIDIA Tesla H800 -80GB HBM2 *8

GPU網(wǎng)絡(luò): NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存儲(chǔ)網(wǎng)絡(luò) :雙端口 200GbE IB *1

網(wǎng)卡 :25G網(wǎng)絡(luò)接口卡 雙端口 *1

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10245

    瀏覽量

    178149
  • 蘋果
    +關(guān)注

    關(guān)注

    61

    文章

    24580

    瀏覽量

    206203
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37044

    瀏覽量

    290101
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4015

    瀏覽量

    96802
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1327

    瀏覽量

    16407
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3351

    瀏覽量

    4720
  • H100
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    543
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    端側(cè)AI SoC需求爆發(fā)!從海思到瑞芯微,一文匯總九潛力旗艦芯片

    電子發(fā)燒友原創(chuàng) 章鷹 近日,知名蘋果分析師郭明錤發(fā)文指出,DeepSeek爆紅后,端側(cè)AI趨勢(shì)將加速。DeepSeek的爆紅直接提升英偉達(dá)H100
    的頭像 發(fā)表于 02-08 01:16 ?5421次閱讀
    端側(cè)AI SoC需求爆發(fā)!從海思到瑞芯微,一文匯總九<b class='flag-5'>款</b>潛力旗艦芯片

    今日看點(diǎn):蘋果認(rèn)證中國(guó)快充品牌遭美調(diào)查;英偉達(dá)擬向OpenAI投資最高1000億美元

    系統(tǒng)建設(shè)并部署至少10吉瓦的人工智能(AI)數(shù)據(jù)中心,用于訓(xùn)練和運(yùn)行下一代模型。這一耗電量相當(dāng)于800萬(wàn)戶美國(guó)家庭的用電量。 英偉達(dá)CEO黃仁勛曾表示,10吉瓦相當(dāng)于400萬(wàn)至500萬(wàn)
    發(fā)表于 09-23 10:09 ?185次閱讀

    英偉達(dá) H100 GPU 掉卡?做好這五點(diǎn),讓算力穩(wěn)如泰山!

    H100服務(wù)器停工一天損失的算力成本可能比維修費(fèi)還高。今天,我們給大家總結(jié)一套“防掉卡秘籍”,從日常管理到環(huán)境把控,手把手教你把掉卡風(fēng)險(xiǎn)壓到最低。一、供電是“生命線”,這3點(diǎn)必須盯緊H100滿載功耗
    的頭像 發(fā)表于 09-05 11:03 ?479次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> <b class='flag-5'>H100</b> GPU 掉卡?做好這五點(diǎn),讓算力穩(wěn)如泰山!

    英偉達(dá)被傳暫停生產(chǎn)H20芯片 外交部回應(yīng)

    韓國(guó)三星電子、美國(guó)安靠科技、富士康等關(guān)鍵零部件供應(yīng)商。 據(jù)悉,美國(guó)安靠科技(Amkor)負(fù)責(zé)H20芯片的封裝,而三星電子負(fù)責(zé)提供高帶寬的內(nèi)存芯片。 業(yè)界人士分析稱,一方面英偉達(dá)H20芯
    的頭像 發(fā)表于 08-22 15:58 ?2276次閱讀

    搞定英偉達(dá) H100 ECC 報(bào)錯(cuò):從原理到維修,一步到位解煩憂

    最近,捷智算GPU維修室收到了不少H100服務(wù)器需要維修,故障問(wèn)題集中為ECC報(bào)錯(cuò)。為了幫大家更好地認(rèn)識(shí)和了解情況,下面就詳細(xì)分享一下ECC報(bào)錯(cuò)系統(tǒng)化排查方法和維修流程。一、ECC報(bào)錯(cuò)
    的頭像 發(fā)表于 08-14 18:05 ?936次閱讀
    搞定<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> <b class='flag-5'>H100</b> ECC 報(bào)錯(cuò):從原理到維修,一步到位解煩憂

    H20中國(guó)區(qū)賣爆!英偉達(dá)緊急向臺(tái)積電加訂30萬(wàn)塊

    ,性能上相當(dāng)于英偉達(dá)另一主流GPU芯片H100的20%左右。 ? 盡管如此,在美國(guó)解禁對(duì)H20芯片的出口后,需求仍然超出了想象。據(jù)路透社報(bào)
    的頭像 發(fā)表于 07-30 08:08 ?2791次閱讀

    GPU 維修干貨 | 英偉達(dá) GPU H100 常見故障有哪些?

    上漲,英偉達(dá)H100GPU憑借其強(qiáng)大的算力,成為AI訓(xùn)練、高性能計(jì)算領(lǐng)域的核心硬件。然而,隨著使用場(chǎng)景的復(fù)雜化,H100服務(wù)器故障率也逐漸攀
    的頭像 發(fā)表于 05-05 09:03 ?2030次閱讀
    GPU 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> GPU <b class='flag-5'>H100</b> 常見故障有哪些?

    如何高效訓(xùn)練AI模型?這些常用工具你必須知道!

    模型的發(fā)展同樣面臨瓶頸,訓(xùn)練所需的硬件資源日益增加,比如英偉達(dá)的芯片、電力等(這也可能是ChatGPT5遲遲沒(méi)有出來(lái)的原因)。業(yè)界有觀點(diǎn)認(rèn)為,在大多數(shù)情況下,并不需要全能的大
    的頭像 發(fā)表于 04-17 16:43 ?2164次閱讀
    如何高效<b class='flag-5'>訓(xùn)練</b>AI<b class='flag-5'>模型</b>?這些常用工具你必須知道!

    特朗普要叫停英偉達(dá)對(duì)華特供版 英偉達(dá)H20出口限制 或損失55億美元

    是“中國(guó)特供版”人工智能芯片;是英偉達(dá)公司為符合美國(guó)出口規(guī)定專門為中國(guó)市場(chǎng)開發(fā)的定制芯片,H20芯片在訓(xùn)練AI模型方面不如
    的頭像 發(fā)表于 04-16 16:59 ?1716次閱讀

    英偉達(dá)A100H100比較

    英偉達(dá)A100H100都是針對(duì)高性能計(jì)算和人工智能任務(wù)設(shè)計(jì)的GPU,但在性能和特性上存在顯著差異。以下是對(duì)這兩GPU的比較: 1. 架構(gòu)
    的頭像 發(fā)表于 02-10 17:05 ?1w次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>A<b class='flag-5'>100</b>和<b class='flag-5'>H100</b>比較

    英偉達(dá)發(fā)布Nemotron-CC大型AI訓(xùn)練數(shù)據(jù)庫(kù)

    近日,英偉達(dá)在其官方博客上宣布了一項(xiàng)重大進(jìn)展,推出了一名為Nemotron-CC的大型英文AI訓(xùn)練數(shù)據(jù)庫(kù)。這一數(shù)據(jù)庫(kù)的發(fā)布,標(biāo)志著英偉
    的頭像 發(fā)表于 01-14 14:14 ?678次閱讀

    英偉達(dá)推出基石世界模型Cosmos,解決智駕與機(jī)器人具身智能訓(xùn)練數(shù)據(jù)問(wèn)題

    CES 2025展會(huì)上,英偉達(dá)推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡(jiǎn)稱WFM。 物理 AI
    的頭像 發(fā)表于 01-14 11:04 ?1842次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出基石世界<b class='flag-5'>模型</b>Cosmos,解決智駕與機(jī)器人具身智能<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)問(wèn)題

    英偉達(dá)超越蘋果成為市值最高 英偉達(dá)取代英特爾加入道指

    蘋果公司的市值,重新成為全球市值最高的公司。 在AI領(lǐng)域,英偉達(dá)正瘋狂奔跑,我們看到有外媒報(bào)道英偉達(dá)正在與馬斯克旗下的人工智能初創(chuàng)公司xAI
    的頭像 發(fā)表于 11-05 15:22 ?972次閱讀

    英偉達(dá)H100芯片市場(chǎng)降溫

    隨著英偉達(dá)新一代AI芯片GB200需求的不斷攀升,其上一代明星產(chǎn)品H100芯片卻遭遇了市場(chǎng)的冷落。據(jù)業(yè)內(nèi)人士透露,搭載H100的服務(wù)器通常以8卡的形式進(jìn)行出售或出租,而在去年,這類服務(wù)
    的頭像 發(fā)表于 10-28 15:42 ?2245次閱讀

    英偉達(dá)市值飆升,逼近蘋果

    。 這一里程碑式的成就,不僅彰顯了英偉達(dá)在人工智能領(lǐng)域的深厚積累和卓越貢獻(xiàn),也反映了全球市場(chǎng)對(duì)英偉達(dá)未來(lái)發(fā)展的高度期待。目前,英偉
    的頭像 發(fā)表于 10-23 09:31 ?874次閱讀