硬件是基礎,軟件是靈魂。在9月25日召開的2025京東全球科技探索者大會(JDD)上,京東集團再次升級了自身AI戰(zhàn)略,明確詮釋了“以零售為基礎的技術與服務企業(yè)”的集團戰(zhàn)略定位。為支撐新戰(zhàn)略落地,京東集團不僅將自研的“言犀”大模型擴充為“JoyAI”大模型家族,更宣布了JoyAgent 3.0、JoyCode 2.0等一系列智能體新品。同時,京東集團也表示,將未來三年持續(xù)投入,帶動形成萬億規(guī)模的人工智能生態(tài)。
顯然,AI戰(zhàn)略和大量AI業(yè)務的落地需要強大基礎設施作為支撐。在本次大會的展區(qū)中,華為首次對外展示了全新研發(fā)的高密128*400GE盒式以太交換機、400G/800G高速星聯(lián)光模塊等多款AI基礎設施新品;這彰顯了華為在AI基礎設施層面的領先實力,也展現(xiàn)了京東集團與華為有著廣闊的合作及聯(lián)創(chuàng)前景。
AI是算力挑戰(zhàn)
更是網絡挑戰(zhàn)
伴隨京東集團AI戰(zhàn)略升級和AI業(yè)務需求量的快速增長,智算集群建設也進入擴張期。在從千卡到萬卡甚至十萬卡的規(guī)模躍遷過程中,網絡的組網規(guī)模、負載均衡、運維管理已成為影響京東智算集群效率的關鍵因素。
組網規(guī)模:在交換機端口數(shù)量不變的情況下,集群規(guī)模增長就意味著網絡設備數(shù)量的增加,而這就會產生越來越多的機架空間占用和TCO的增加,且會提高網絡復雜度。與此同時,節(jié)點對網絡帶寬的需求也在快速提升。
負載均衡:在智算集群中,一旦出現(xiàn)網絡擁塞,集群性能可能會大幅下降,因此,如何通過負載均衡來降低網絡擁塞,就成為了大規(guī)模集群組網需要首先考慮的問題。并且,在MoE等新一代模型技術廣泛應用之后,實現(xiàn)整網負載均衡的難度也越來越大。
運維管理:集群規(guī)模的增長和網絡復雜度的提升會帶來更大的網絡運維工作量,并導致成本提升。在AI已經成為互聯(lián)網企業(yè)關鍵業(yè)務的當下,如何提高運維質量和響應效率也成為用戶關心的問題。
面對AI所帶來的多重網絡挑戰(zhàn),包括京東集團在內的互聯(lián)網用戶迫切需要更先進的網絡產品和解決方案來應對。華為星河AI高算效數(shù)據中心網絡正是在這一背景下應運而生,以網強算,加速客戶智算集群算力釋放。
用高密400GE網絡
構建超大規(guī)模智算集群
隨著京東AI業(yè)務增長,需要更大規(guī)模智算集群支撐,而在智算集群組網中扮演關鍵角色的正是華為高密128*400GE盒式交換機和高密576*400GE框式交換機,兩層組網集群規(guī)模最大可達3.6萬卡。對比三層組網架構,華為兩層框盒組網方案所需的400GE光模塊數(shù)量減少了40%,光互聯(lián)成本也隨之降低40%。
用全局負載均衡
提高智算集群性能
網絡負載均衡是保障智算集群性能的前提,而華為星河AI高算效數(shù)據中心網絡全新升級的NSLB-DP動態(tài)負載均衡方案,通過動態(tài)調度算法實現(xiàn)本地和全局的鏈路負載均衡,解決了以往靜態(tài)算法缺乏全局調度能力的問題。并在京東網絡中開展了性能測試。
NSLB-DP測試結果如下:在集合通信測試場景,NSLB-DP算法相較此前的NSLB-S(靜態(tài)算法)在常用算子Allreduce、ReduceScatter、Allgather的算法帶寬均有提升,最高可達24.62%;模型測試場景,NSLB-DP算法相較NSLB-S在訓練性能上(每秒訓練樣本數(shù))也均有提升,最高可達7.32%。
用智能運維
讓智算集群提質增效
傳統(tǒng)運維系統(tǒng)所使用的Telemetry技術在高負載、大規(guī)模集群中的指標上報能力有限,往往會導致網絡運維團隊花費數(shù)小時來分析和定位網絡故障。難以滿足京東智算集群運維要求。
為解決這一痛點,華為星河AI高算效數(shù)據中心網絡在運維系統(tǒng)中增加了iFIT(隨流檢測),和Packet-Event(丟包及超時延可視)方案。其中,iFIT能夠將智算集群業(yè)務流拓撲可視化,丟包與轉發(fā)時延支持實時逐跳監(jiān)測,讓運維團隊能夠快速將網絡故障定位到具體設備;Packet-Event則能深入芯片層面,直接向運維系統(tǒng)上報丟包根因與超時延流信息。兩種技術疊加,運維團隊便可在故障發(fā)生時實現(xiàn)典型問題的分鐘級的定位定因,繼而提高運維響應速度,減少故障時間。
聯(lián)接算力
更聯(lián)接未來
華為在以網絡為代表的根技術領域堅持長期高強度投入,星河AI高算效數(shù)據中心網絡則是這些投入的最新成果。通過新一代先進網絡,華為不僅能將龐大算力聯(lián)接在一起,更能在AI與業(yè)務、用戶與未來之間建立穩(wěn)固聯(lián)接。而這也正是京東集團與華為長期共創(chuàng)共贏的基礎。
星河AI高算效數(shù)據中心網絡只是華為與京東集團廣泛合作的其中一面,但其所代表的則是華為與中國互聯(lián)網產業(yè)的全面聯(lián)接,攜手共赴AI時代的奔騰盛景。
-
華為
+關注
關注
216文章
35572瀏覽量
259199 -
網絡
+關注
關注
14文章
8019瀏覽量
92166 -
數(shù)據中心
+關注
關注
16文章
5417瀏覽量
74306
原文標題:華為星河AI數(shù)據中心網絡亮相JDD大會,助力京東建設高性能智算網絡
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據通信】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論