云提供商正在組建 GPU 大軍,以儲備更多的 AI 火力。在與微軟爭奪 AI 霸權的斗爭中,谷歌開始投入更多資源以進行反攻。在微軟將 OpenAI 的技術應用于 Bing 搜索和辦公應用程序之后,谷歌加速了其 AI 開發(fā)。
在前段時間舉辦的谷歌年度I/O 開發(fā)者大會上,谷歌宣布了一款 AI 超級計算機“A3 ”,這臺超級計算機擁有大約 26000 個英偉達 H100 Hopper GPU。
*世界上最快的超級計算機Frontier擁有 37000 個 AMD Instinct 250X GPU。
谷歌表示A3是專為訓練和運行現(xiàn)時的生成式AI和大語言模型而打造的,可提供26 exaFlops的AI性能。
A3 是第一個使用谷歌與英特爾聯(lián)合定制設計的 200 Gbps IPU的 GPU 實例,它可以讓GPU和GPU之間的數(shù)據(jù)繞過CPU,并可在其他虛擬機網(wǎng)絡和數(shù)據(jù)流的接口上傳輸。與A2 VM 相比,這可實現(xiàn)高達 10 倍的網(wǎng)絡帶寬,同時具有低尾延遲和高帶寬穩(wěn)定性。
谷歌的Jupiter數(shù)據(jù)中心網(wǎng)絡結構能讓數(shù)以萬計的GPU高度互連,而且能夠按需調整網(wǎng)絡拓撲,這有利于成本的降低。
A3 超級計算機的規(guī)模提供高達 26 exaFlops 的 AI 性能,這大大減少了訓練大型 ML 模型的時間和成本。
A3 GPU VM 專門為當今的 ML 工作負載提供最高性能的訓練,配備現(xiàn)代 CPU、改進的主機內存、下一代英偉達 GPU 和主要網(wǎng)絡升級。以下是 A3 的主要特點:
8 個 H100 GPU,利用英偉達的 Hopper 架構,提供 3 倍的計算吞吐量
通過英偉達 NVSwitch 和 NVLink 4.0,A3 的 8 個 GPU 之間的對分帶寬為 3.6 TB/s
第 4 代英特爾至強可擴展處理器
2TB 主機內存,通過 4800 MHz DDR5 DIMM
由支持硬件的 IPU、專門的服務器間 GPU 通信堆棧和 NCCL 優(yōu)化提供支持的網(wǎng)絡帶寬增加 10 倍
GPU 的數(shù)量已經(jīng)成為云提供商推廣其 AI 計算服務的重要名片。
微軟與OpenAI合作開發(fā)的Azure AI超級計算機擁有285000 個CPU內核和10000 個 GPU。Oracle 的云服務提供512 個 GPU 集群的訪問,并且正在開發(fā)新技術以提高 GPU 通信的速度。
此外,許多云提供商都在部署 H100 GPU。英偉達 H100 上的訓練模型比上一代 A100 GPU 更快、更便宜。AI服務公司 MosaicML 進行的一項研究發(fā)現(xiàn),H100 在其 70 億參數(shù)的 MosaicGPT 大型語言模型上比 A100 的成本效益高 30%,速度快 3 倍。
英偉達在 3 月份推出了自己的 DGX 云服務,與租用上一代 A100 GPU 相比,該服務價格昂貴。

|搭載8顆H100 Hopper GPU的英偉達DGX H100系統(tǒng)底板
谷歌一直在大力宣傳其TPU v4 AI芯片,這些芯片被用于運行帶有 LLM 的內部AI應用程序,例如谷歌的 Bard 產(chǎn)品。(點擊閱讀:對打英偉達A100,谷歌公布TPU v4技術細節(jié))

|谷歌TPU v4
谷歌表示,A3 超算是對現(xiàn)有配備英偉達A100 GPU的A2虛擬機提供的計算資源的重大升級。谷歌正在將所有分布在不同地理位置的 A3 計算實例匯集到一臺超級計算機中。
相比A2,谷歌的 A3 超級計算機用途廣泛,可以針對廣泛的 AI 應用程序和 LLM 進行調整?!拌b于這些工作負載的高要求,一刀切的方法是不夠的,需要專為 AI 構建的基礎設施?!笨蛻艨梢酝ㄟ^ A3 虛擬機運行 AI 應用程序,并通過 Vertex AI、Google Kubernetes Engine 和 Google Compute Engine 服務使用谷歌的 AI 開發(fā)和管理服務。
此外,I/O 開發(fā)者大會上,谷歌還發(fā)布了最新大語言模型PaLM 2。2022 年4月谷歌推出擁有5400 億參數(shù)的大型語言模型PaLM。最新PaLM 2 基于Pathways 架構,使用TPU v4 芯片和JAX 框架訓練,在代碼和數(shù)學,分類和問答,翻譯和多語言能力以及自然語言生成高級任務方面都比前一代PaLM 表現(xiàn)得更好,在推理和數(shù)學領域與GPT-4 相當。PaLM 2與A3 超級計算機的推出,使谷歌在AI 領域綜合實力大幅增強。
AI 市場競爭激烈,微軟近年來加大了對AI 的投資和研發(fā)力度,在深度學習、自然語言處理、計算機視覺等領域的技術已經(jīng)達到了較高的水平。谷歌也推出了一系列AI 產(chǎn)品和服務,旨在通過提供全棧式的AI 解決方案來占據(jù)更加主導的地位。雙方都在不斷加強自己的技術研發(fā)和產(chǎn)品布局,以期在未來的市場競爭中獲得更多的話語權。
審核編輯 :李倩
-
gpu
+關注
關注
28文章
5099瀏覽量
134461 -
超級計算機
+關注
關注
2文章
479瀏覽量
43152 -
AI
+關注
關注
89文章
38100瀏覽量
296624 -
英偉達
+關注
關注
23文章
4040瀏覽量
97670
原文標題:擁有 26000 個 GPU的“A3”超級計算機,能為谷歌贏下AI反攻戰(zhàn)嗎?
文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
使用NVIDIA技術驅動的超級計算機助力開放科學研究
【作品合集】賽昉科技VisionFive 2單板計算機開發(fā)板測評
NVIDIA助力AI超級計算機Isambard-AI投入使用
NVIDIA驅動的現(xiàn)代超級計算機如何突破速度極限并推動科學發(fā)展
Blue Lion超級計算機將在NVIDIA Vera Rubin上運行
NVIDIA技術賦能歐洲最快超級計算機JUPITER
NVIDIA助力全球最大量子研究超級計算機
NVIDIA GTC2025 亮點 NVIDIA推出 DGX Spark個人AI計算機
NVIDIA 宣布推出 DGX Spark 個人 AI 計算機
荷蘭與英偉達攜手推進AI超級計算機設施建設
NVIDIA推出個人AI超級計算機Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個人AI超級計算機設計NVIDIA GB10超級芯片
NVIDIA發(fā)布高性價比生成式AI超級計算機
NVIDIA 推出高性價比的生成式 AI 超級計算機

擁有26000個GPU的“A3”超級計算機,能為谷歌贏下AI反攻戰(zhàn)嗎?
評論