人工智能正在改變世界。然而,它需要大量的處理能力。需求每 100 天翻一番,這推動了人工智能基礎(chǔ)設(shè)施的投資熱潮。
數(shù)據(jù)中心是未來人工智能創(chuàng)新的基礎(chǔ),其性能備受矚目。由于涉及的規(guī)模和復(fù)雜性,確保數(shù)據(jù)中心的穩(wěn)健性和可靠性是一項(xiàng)艱巨的任務(wù)。從芯片到 GPU,再到服務(wù)器、網(wǎng)絡(luò)組件和軟件,基礎(chǔ)設(shè)施的每一個(gè)元素都必須在網(wǎng)絡(luò)層面進(jìn)行單獨(dú)和綜合評估,以確保其無縫運(yùn)行并消除任何薄弱環(huán)節(jié)。這給服務(wù)提供商帶來了沉重的負(fù)擔(dān);然而,考慮到其中的利害關(guān)系,每一次效率的提高都意義重大。
在深入探討測試的必要性之前,我們先來看看人工智能是如何給數(shù)據(jù)中心帶來負(fù)擔(dān)的。當(dāng)前AI技術(shù)的迅猛發(fā)展,源于其應(yīng)用所依賴的復(fù)雜算法與模型體系;與特定任務(wù)軟件相比,它們消耗了更多的計(jì)算資源,因此也消耗了更多的能源。這是因?yàn)橛?xùn)練支持生成式人工智能的大語言模型(LLMs)需要龐大的計(jì)算資源。而且,隨著人工智能解決方案變得越來越精細(xì)和復(fù)雜,對更多處理資源和數(shù)據(jù)存儲的需求并沒有緩解的跡象。
例如,Sam Altman 最近聲稱,由于公司 "缺少 GPU",OpenAI 最新模型的推廣速度放緩。更重要的是,高盛預(yù)測,到 2030 年,人工智能將推動數(shù)據(jù)中心電力增長 165%。這使得基礎(chǔ)設(shè)施成為業(yè)界關(guān)注的焦點(diǎn),因?yàn)闃I(yè)界正在尋找各種方法來創(chuàng)建一個(gè)能夠支持未來迭代的技術(shù)環(huán)境。
前方道路上的坑洼
人工智能數(shù)據(jù)中心需要滿足和管理對計(jì)算資源前所未有的需求;這些集群必須高效地支持智能時(shí)代,并提供必要的計(jì)算、內(nèi)存和網(wǎng)絡(luò)性能。測試在幫助克服挑戰(zhàn)方面具有舉足輕重的作用。要驗(yàn)證、優(yōu)化和提高人工智能數(shù)據(jù)中心的性能,需要能夠再現(xiàn)人工智能工作負(fù)載的復(fù)雜性和規(guī)模的系統(tǒng)級仿真器。隨著基礎(chǔ)設(shè)施的發(fā)展,系統(tǒng)級評估對于確保性能的穩(wěn)健性和可靠性至關(guān)重要。
規(guī)模:數(shù)據(jù)中心運(yùn)營的各個(gè)方面都必須增長,包括電力、冷卻、基礎(chǔ)設(shè)施、存儲和帶寬。實(shí)現(xiàn)這一目標(biāo)的一個(gè)關(guān)鍵方面是解決分布式計(jì)算環(huán)境中的延遲問題。人工智能 集群(在 GPU 上分配任務(wù))很容易因尾部延遲(系統(tǒng)最慢組件的滯后時(shí)間)而出現(xiàn)性能瓶頸。有效的擴(kuò)展需要通過工作負(fù)載均衡來檢測并盡量減少這種情況。
然而,僅僅符合標(biāo)準(zhǔn)是不夠的,還必須對組件的性能進(jìn)行評估,看它是如何處理網(wǎng)絡(luò)協(xié)議數(shù)據(jù)和前向糾錯(cuò)的。例如,符合標(biāo)準(zhǔn)的收發(fā)器可能會因?yàn)闆]有在協(xié)議/網(wǎng)絡(luò)層進(jìn)行適當(dāng)測試而失效。
測試可幫助服務(wù)商識別系統(tǒng)效率低下的問題,優(yōu)化資源分配,并確保系統(tǒng)在所有節(jié)點(diǎn)上都能保持高性能。通過微調(diào),數(shù)據(jù)中心可以在發(fā)展過程中提高效率,改善運(yùn)營和資源利用率。
專用硬件:人工智能專用硬件對于提供更多計(jì)算資源至關(guān)重要。例如,Nvidia 的最新超級芯片將性能提高了 30 倍,同時(shí)能耗降低了 25 倍。不僅是芯片,AI要求所有組件全面提速——從互連架構(gòu)、內(nèi)存模塊、網(wǎng)絡(luò)推理卡到交換機(jī),均需提升運(yùn)行速度,同時(shí)能效要求也需同步提升。
然而,這些技術(shù)進(jìn)步需要超越合規(guī)性測試的嚴(yán)格評估,以驗(yàn)證峰值負(fù)載下的性能表現(xiàn)。系統(tǒng)級驗(yàn)證對確保設(shè)備在實(shí)際運(yùn)行環(huán)境中穩(wěn)定可靠至關(guān)重要。壓力測試可確保AI設(shè)備的性能,而互連架構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化(通過網(wǎng)絡(luò)驗(yàn)證)能避免瓶頸;內(nèi)存與存儲評估則保障快速數(shù)據(jù)訪問。通過整合全方位測試,服務(wù)提供商可實(shí)現(xiàn)高效擴(kuò)展。
智能工作負(fù)載:要滿足計(jì)算需求,就必須采用分解式架構(gòu),以便動態(tài)分配資源。測試可以驗(yàn)證智能管理,并應(yīng)結(jié)合仿真技術(shù),對網(wǎng)絡(luò)結(jié)構(gòu)以及動態(tài)資源分配和自動縮放進(jìn)行基準(zhǔn)測試。
要確保網(wǎng)絡(luò)性能,就必須使用真實(shí)世界模型進(jìn)行壓力測試、制定基準(zhǔn)并找出尾部延遲,所有這些都能改善工作負(fù)載分配。這使服務(wù)商能夠?qū)崿F(xiàn)性能目標(biāo),同時(shí)根據(jù)當(dāng)前和預(yù)測的需求動態(tài)管理資源。在堆棧中添加先進(jìn)的軟件對于最大限度地提高性能至關(guān)重要。
可靠性是關(guān)鍵
人工智能模型將繼續(xù)推動更多計(jì)算資源的指數(shù)級增長,這也推動了基礎(chǔ)設(shè)施現(xiàn)代化的軍備競賽。然而,要想讓高盛的預(yù)測成為現(xiàn)實(shí),就必須在組件和系統(tǒng)層面進(jìn)行嚴(yán)格評估,以發(fā)現(xiàn)效率低下的問題,確保數(shù)據(jù)中心的每個(gè)方面都穩(wěn)健、可靠,并在必要的規(guī)模上進(jìn)行優(yōu)化。
作者:
Marie Hattar
是德科技高級副總裁兼首席市場官
是德科技全新KAI系列解決方案
旨在幫助客戶通過仿真真實(shí)世界的AI工作負(fù)載來驗(yàn)證AI集群組件,從而擴(kuò)展數(shù)據(jù)中心的AI處理能力,洞察系統(tǒng)的性能和效率。
AI數(shù)據(jù)中心構(gòu)建器通過模擬真實(shí)工作負(fù)載驗(yàn)證AI基礎(chǔ)設(shè)施的性能,通過評估新算法、組件或協(xié)議提高AI訓(xùn)練的性能。
KAI數(shù)據(jù)中心構(gòu)建器的工作負(fù)載模擬功能將大型語言模型(LLM)和其他人工智能(AI)模型訓(xùn)練所需要的工作負(fù)載集成到AI基礎(chǔ)設(shè)施組件的設(shè)計(jì)和驗(yàn)證中——包括網(wǎng)絡(luò)、主機(jī)和加速器。該解決方案實(shí)現(xiàn)了硬件設(shè)計(jì)、協(xié)議、架構(gòu)和AI訓(xùn)練算法之間的更緊密協(xié)同,提升系統(tǒng)性能。
KAI數(shù)據(jù)中心構(gòu)建器的工作負(fù)載仿真解決方案再現(xiàn)了真實(shí)AI訓(xùn)練任務(wù)的網(wǎng)絡(luò)通信模式,加速模型訓(xùn)練優(yōu)化所需的學(xué)習(xí)曲線,并更深入洞察性能下降的原因,這些是現(xiàn)實(shí)AI訓(xùn)練任務(wù)過程中難以獲得的。
?產(chǎn)品頁面:KAI數(shù)據(jù)中心構(gòu)建器
互連與網(wǎng)絡(luò)性能測試儀1600GE(INPT-1600GE)硬件流量仿真器可運(yùn)行先進(jìn)的軟件解決方案,可驗(yàn)證200GE到1600GE的AI基礎(chǔ)設(shè)施、網(wǎng)絡(luò)組件和數(shù)據(jù)中心互連。
新的互連和網(wǎng)絡(luò)性能測試系統(tǒng)通過INPT-1600GE搭配ITS軟件,可以作為一個(gè)整體系統(tǒng),智能地組織、存儲和使用數(shù)據(jù),實(shí)現(xiàn)高速以太網(wǎng)網(wǎng)絡(luò)和AI數(shù)據(jù)中心中的互連自動化驗(yàn)證。
?產(chǎn)品頁面:互連與網(wǎng)絡(luò)性能測試儀1600GE(INPT-1600GE)
全新采樣示波器可優(yōu)化1.6T光學(xué)收發(fā)器測試效率,用于研發(fā)和制造下一代數(shù)據(jù)中心AI集群光互連。
DCA-M采樣示波器提供高達(dá)240 Gbps/通道的高速光信號分析,并且專為滿足1.6T收發(fā)器光學(xué)測試的嚴(yán)格要求而設(shè)計(jì),具有高光學(xué)測量靈敏度和集成時(shí)鐘恢復(fù)功能,支持高達(dá)120 GBaud的數(shù)據(jù)速率,專門針對數(shù)據(jù)中心AI集群的下一代光互連的研發(fā)和制造需求。
?解決方案頁面:DCA-M解決方案概述
關(guān)于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司,我們提供先進(jìn)的設(shè)計(jì)、仿真和測試解決方案,旨在幫助工程師在整個(gè)產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時(shí)控制好風(fēng)險(xiǎn)。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個(gè)安全互聯(lián)的世界。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48509瀏覽量
245334 -
是德科技
+關(guān)注
關(guān)注
21文章
967瀏覽量
83009 -
算力
+關(guān)注
關(guān)注
1文章
1114瀏覽量
15379
原文標(biāo)題:算力突圍:破解人工智能的基礎(chǔ)設(shè)施困局
文章出處:【微信號:是德科技KEYSIGHT,微信公眾號:是德科技KEYSIGHT】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論