chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智算監(jiān)控的下半場:從基礎(chǔ)設(shè)施報警到算力精算師

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2026-03-18 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要: 在十萬卡集群與萬億參數(shù)模型時代,基礎(chǔ)設(shè)施的穩(wěn)定性直接決定了模型訓(xùn)練的邊際成本。當(dāng)單次訓(xùn)練成本高達千萬美元時,監(jiān)控系統(tǒng)不再是簡單的報警,而是衡量算力價值的精算師?;谝痪€智算運維實踐,探討如何打破數(shù)據(jù)中心、服務(wù)器與網(wǎng)絡(luò)之間的數(shù)據(jù)壁壘,構(gòu)建具備業(yè)務(wù)感知能力的下一代智算監(jiān)控體系。

一、 核心痛點:為什么傳統(tǒng)監(jiān)控在智算時代失效了?

在通用計算時代,我們習(xí)慣用 SLA 來衡量穩(wěn)定性。但在 AI 大模型訓(xùn)練場景下,這個指標(biāo)失效了。大模型訓(xùn)練是木桶效應(yīng)的極致放大,傳統(tǒng)監(jiān)控的局限性暴露:

木桶效應(yīng)帶來的全局脆弱性 在一個擁有 數(shù)萬張 GPU 的集群中,通常采用并行策略進行訓(xùn)練。此時,任意一張 GPU 的顯存出現(xiàn) ECC 錯誤,或是任意一根光纖的抖動導(dǎo)致數(shù)據(jù)重傳,都會引發(fā)整個集群訓(xùn)練的停滯。局部微小故障,即意味著全局算力的癱瘓。

煙囪式架構(gòu)導(dǎo)致的可觀測性盲區(qū) 傳統(tǒng)的監(jiān)控是割裂的:動環(huán)團隊只看水溫和電壓,網(wǎng)絡(luò)團隊只管端口狀態(tài)與帶寬,系統(tǒng)團隊只盯 CPU 負載和磁盤 IO。當(dāng)訓(xùn)練速度無故下降 10% 時,三個團隊的監(jiān)控面板全綠,能夠自證清白,但業(yè)務(wù)受損的根因卻無從查起。

智算監(jiān)控的下半場,必須打破這種割裂,實現(xiàn)面向訓(xùn)練/推理任務(wù)的可觀測性。

二、 理念重塑:構(gòu)建以 訓(xùn)練/推理 為中心的監(jiān)控體系

打破煙囪,核心是構(gòu)建一個以訓(xùn)練/推理任務(wù)為頂點,向下穿透所有軟硬件層級。監(jiān)控體系需要在以下四個維度實現(xiàn)升維突破:

監(jiān)控對象的升維:從資源池到 訓(xùn)練/推理 的任務(wù) 摒棄孤立的 GPU 利用率、網(wǎng)絡(luò)帶寬等傳統(tǒng)指標(biāo)。確立以 單次訓(xùn)練/推理 迭代時間為新黃金指標(biāo),并將其精準(zhǔn)拆解為計算、通信、數(shù)據(jù)加載、排隊等各階段耗時。

端到端追蹤:跨層級的關(guān)聯(lián) 為每一次訓(xùn)練/推理迭代生成全局唯一的追蹤 ID,貫穿任務(wù)調(diào)度、單卡計算到跨節(jié)點網(wǎng)絡(luò)通信的全鏈路。通過毫秒級的時間同步與統(tǒng)一的元數(shù)據(jù)(任務(wù)、Pod、GPU、交換機端口、機架、電源),實現(xiàn)跨層根因定位。

告警機制的升維:從故障阻斷到性能劣化告警 不再局限于 端口 Down、GPU 宕機等硬性故障。新一代告警需聚焦性能劣化:迭代時間 P99 線同比增加 10%、集群有效算力利用率(MFU)微降 5%。這需要依托動態(tài)基線與 AI 算法,在性能受損初期精準(zhǔn)捕獲異常。

預(yù)測與推演:基于數(shù)字孿生的前置風(fēng)控 基于歷史數(shù)據(jù),構(gòu)建硬件退化(如 GPU 顯存壽命、光模塊光衰)與訓(xùn)練/推理 性能波動的關(guān)聯(lián)模型。在進行作業(yè)調(diào)度或網(wǎng)絡(luò)拓撲變更前,可在數(shù)字孿生系統(tǒng)中進行仿真推演,預(yù)測其對全局訓(xùn)練/推理效率的影響。

三、 底層重構(gòu):物理層的核心技術(shù)架構(gòu)

在萬卡集群中軟硬件的邊界正在模糊。監(jiān)控必須深入芯片寄存器、光電信號微觀層面。

1. 算力層:深入芯片內(nèi)部的健康探針

隨著新一代芯片架構(gòu)的演進,單臺服務(wù)器內(nèi)部已是一個復(fù)雜的拓撲網(wǎng)絡(luò)。

靜默錯誤的捕獲與預(yù)測: 傳統(tǒng)監(jiān)控只看 Crash。智能監(jiān)控必須深入 GPU 寄存器,監(jiān)控單比特錯誤的翻轉(zhuǎn)速率。雖然 SBE 會被 ECC 糾正,但其高頻出現(xiàn)往往是雙比特錯誤(DBE)的前兆。結(jié)合 Xid Errors 與 Row Remap 計數(shù),構(gòu)建 GPU 健康度衰退模型。

片間互聯(lián)的可觀測性: 在高速 SerDes 鏈路中,信號完整性至關(guān)重要。需重點關(guān)注 NVLink Replay Error 和 Recovery Data Error。如果發(fā)現(xiàn)某條鏈路 Replay 次數(shù)異常,即便表層監(jiān)控顯示帶寬打滿,其實際有效吞吐量可能已經(jīng)崩盤。

2. 網(wǎng)絡(luò)層:微秒級擁塞與光鏈路的預(yù)測性維護

在 RDMA/RoCEv2 網(wǎng)絡(luò)中,網(wǎng)絡(luò)質(zhì)量不僅取決于交換機,更取決于光。

光鏈路的預(yù)測性維護: 400G/800G 光模塊對溫度和電壓極度敏感。監(jiān)控不能停留在 有光/無光狀態(tài),深挖 Pre-FEC BER。當(dāng)其呈現(xiàn)線性惡化趨勢時,系統(tǒng)應(yīng)在徹底損壞前,自動通知調(diào)度器排空該節(jié)點,實現(xiàn)無感運維。

擁塞的精細化鑒別: 面對 PFC Storm 與 CNP,監(jiān)控系統(tǒng)具備識別能力:精準(zhǔn)識別這是因為接收端處理慢導(dǎo)致的反壓,還是網(wǎng)絡(luò)多打一造成的擁塞,并完成修復(fù)。

3. 基礎(chǔ)設(shè)施層:算力與環(huán)境的深度綁定

當(dāng)機柜功率密度突破 100kW,液冷與電網(wǎng)監(jiān)控正式成為算力監(jiān)控的一部分。

精細化熱點追蹤: 建立進出水溫差與流速的實時關(guān)聯(lián)。若某 CDU 回流水溫正常但流速下降,且對應(yīng) GPU 溫度飆升,系統(tǒng)應(yīng)迅速預(yù)警過濾器堵塞或局部漏液風(fēng)險。

功耗與算力的時序?qū)R: 將 PDU 電流波形與 GPU Kernel Launch 活動進行微秒級對齊。這一極致的監(jiān)控能力,能敏銳捕捉到電源模塊的瞬態(tài)響應(yīng)不足,從而識別出導(dǎo)致 GPU 莫名降頻的隱性原因。

四、 產(chǎn)品設(shè)計:告別報警風(fēng)暴,走向智能自愈

智算監(jiān)控的核心價值在于提供 MTTI(Mean Time To Innocence,平均自證清白時間) 和精準(zhǔn)的 RCA(Root Cause Analysis,根因分析)。

拓撲感知的全景交互圖

痛點: 告警顯示 Switch-A Port-3 丟包,運維人員還需對照表核對受影響的服務(wù)器。

設(shè)計: 產(chǎn)品需內(nèi)置動態(tài)物理拓撲圖數(shù)據(jù)庫。點擊任意報警節(jié)點,系統(tǒng)立刻高亮受影響的計算節(jié)點、正在運行的任務(wù)流水號以及物理光纖編號,實現(xiàn)所見即所得。

專家經(jīng)驗代碼化:自動化的故障確診 系統(tǒng)需將資深運維專家的排障邏輯沉淀為判定樹。

當(dāng)監(jiān)控同時捕獲 某節(jié)點 RDMA 帶寬波動 + 同時間段 PCIe AER 錯誤增多+ 該 GPU 溫度異常偏高。

系統(tǒng)自動判定為 Riser 卡接觸不良或過熱,直接輸出 RCA 結(jié)論并生成工單建議重新插拔/更換該槽位 Riser 卡,而不是向用戶發(fā)送三條毫無關(guān)聯(lián)的獨立告警。

五、 結(jié)語:監(jiān)控即算力

在 AI Infra 領(lǐng)域,監(jiān)控系統(tǒng)正在經(jīng)歷從單純 Observer Controller 的演進。未來的智算監(jiān)控,將通過 eBPF 技術(shù)深潛內(nèi)核, Telemetry 毫秒級抓取交換機狀態(tài),海量底層傳感器感知。

智算監(jiān)控下半場的本質(zhì),是將視角從資源供應(yīng)商徹底切換到訓(xùn)練/推理 任務(wù)消費者。它要求整個體系必須能精確回答一個問題:

我的萬卡集群,此刻每一分錢的硬件投資,究竟轉(zhuǎn)化出了多少有效的訓(xùn)練/推理 的吞吐量

為了給出答案必須打通從底層芯片、光電鏈路、液冷機柜,到上層并行策略、任務(wù)編排的數(shù)據(jù)孤島。這不僅僅是一個運維基礎(chǔ)設(shè)施的升級,更是一項運營 AI 生產(chǎn)力的系統(tǒng)性工程。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40160

    瀏覽量

    301770
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1558

    瀏覽量

    16786
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    海瑞思全流程密封檢測方案為基礎(chǔ)設(shè)施筑牢安全防線

    ≤ 1.15 的政策要求進一步收緊能效約束,使液冷技術(shù)基礎(chǔ)設(shè)施的“可選方案”,逐步演進為高力場景下的剛性配置。
    的頭像 發(fā)表于 02-10 16:11 ?603次閱讀

    中科曙光scaleX萬卡超集群重塑超大規(guī)模基礎(chǔ)設(shè)施

    在“人工智能+”行動深入推進的當(dāng)下,基礎(chǔ)設(shè)施已成為國家戰(zhàn)略競爭的核心,而超大規(guī)模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得
    的頭像 發(fā)表于 01-30 15:43 ?811次閱讀

    將AI送上太空,是終極方案還是瘋狂幻想?評論區(qū)說出你的陣營!

    AI
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月06日 09:43:34

    云端集中邊緣分布:邊緣智如何重塑網(wǎng)絡(luò)布局

    隨著大模型推理延遲進入毫秒級時代,整個科技行業(yè)都意識網(wǎng)絡(luò)的規(guī)則正在被改寫。這場變革的核心,正是云端集中式計算向邊緣分布式智能的范式轉(zhuǎn)移。據(jù)行業(yè)多家分析機構(gòu)綜合預(yù)測,全球AI
    的頭像 發(fā)表于 12-25 11:34 ?485次閱讀
    <b class='flag-5'>從</b>云端集中<b class='flag-5'>到</b>邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)布局

    錨定中央 “人工智能+” 部署!天數(shù)智以全棧產(chǎn)品,解鎖行業(yè)智能化新可能??

    近日,中央重磅印發(fā)《關(guān)于深入實施“人工智能+”行動的意見》,明確提出要“強化基礎(chǔ)設(shè)施支撐、推動AI與重點領(lǐng)域深度融合、拓展民生領(lǐng)域智能應(yīng)用”。作為深耕AI
    的頭像 發(fā)表于 12-11 17:54 ?1922次閱讀
    錨定中央 “人工智能+” 部署!天數(shù)智<b class='flag-5'>算</b>以全棧產(chǎn)品<b class='flag-5'>力</b>,解鎖行業(yè)智能化新可能??

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    曙光數(shù)創(chuàng)穩(wěn)居2024年中國中心基礎(chǔ)設(shè)施液冷溫控設(shè)備市場份額第一

    11月18日至20日,CDCE國際數(shù)據(jù)中心及云計算展在上海新國際博覽中心舉行。大會期間,由中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中關(guān)村協(xié)眾創(chuàng)智信息產(chǎn)業(yè)促進會、ICT research聯(lián)合編寫的《中國基礎(chǔ)設(shè)施
    的頭像 發(fā)表于 11-21 17:33 ?1439次閱讀

    CPU、GPUNPU,美格智能持續(xù)優(yōu)化異構(gòu)計算效能

    前言AI已成為數(shù)字經(jīng)濟時代的核心生產(chǎn),但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計,行業(yè)資源平均利用率
    的頭像 發(fā)表于 11-21 16:05 ?1197次閱讀
    <b class='flag-5'>從</b>CPU、GPU<b class='flag-5'>到</b>NPU,美格智能持續(xù)優(yōu)化異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>計算效能

    科士達全棧解決方案亮相2025 ODCC,驅(qū)動綠色AI智基礎(chǔ)設(shè)施革新

    2025年開放數(shù)據(jù)中心大會(ODCC)于9月9日-11日在北京國際會議中心盛大啟幕。本屆峰會以“擁抱AI變革,點燃網(wǎng)引擎”為主題,聚焦AI爆發(fā)背景下基礎(chǔ)設(shè)施面臨的能效、部署與可持
    的頭像 發(fā)表于 09-17 15:40 ?1280次閱讀
    科士達全棧解決方案亮相2025 ODCC,驅(qū)動綠色AI智<b class='flag-5'>算</b><b class='flag-5'>基礎(chǔ)設(shè)施</b>革新

    熱插拔集群

    熱插拔集群指在無需停機的情況下,動態(tài)增減計算節(jié)點或硬件的基礎(chǔ)設(shè)施,其核心價值在于實現(xiàn)資源的彈性伸縮和業(yè)務(wù)連續(xù)性。以下
    的頭像 發(fā)表于 06-26 09:20 ?1078次閱讀

    軟通智亮相第四屆粵港澳大灣區(qū)(廣東)產(chǎn)業(yè)大會

    服務(wù)平臺項目”于本次大會完成正式簽約,其智基礎(chǔ)設(shè)施建設(shè)能力與技術(shù)創(chuàng)新服務(wù)能力獲得與會單位和企業(yè)機構(gòu)一致認可。
    的頭像 發(fā)表于 06-17 15:38 ?921次閱讀

    AIGC基礎(chǔ)設(shè)施技術(shù)架構(gòu)與行業(yè)實踐

    AIGC基礎(chǔ)設(shè)施技術(shù)架構(gòu)與行業(yè)實踐 一、硬件層:AI的物理載體 芯片技術(shù)升級? 國際前沿?:某國際芯片巨頭2025年發(fā)布的GB200
    的頭像 發(fā)表于 05-29 07:44 ?998次閱讀
    AIGC<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>基礎(chǔ)設(shè)施</b>技術(shù)架構(gòu)與行業(yè)實踐

    智能基建:RAKsmart如何賦能下一代AI開發(fā)工具

    當(dāng)今,AI模型的復(fù)雜化與規(guī)?;瘜?b class='flag-5'>算提出了前所未有的要求。然而,傳統(tǒng)的基礎(chǔ)設(shè)施在靈活性、成本效率和可擴展性上逐漸顯露出瓶頸。而RAKsm
    的頭像 發(fā)表于 05-07 09:40 ?515次閱讀

    華為助力中國移動全面升級“九州”互聯(lián)網(wǎng)

    在中國移動云智大會期間,以“智啟新,安全筑基“為主題的智基礎(chǔ)設(shè)施及安全峰會成功舉辦。會上,中國移動聯(lián)合華為等重磅發(fā)布了《“九州”
    的頭像 發(fā)表于 04-14 16:46 ?1215次閱讀

    芯片的生態(tài)突圍與革命

    電子發(fā)燒友網(wǎng)報道(文 / 李彎彎)大芯片,即具備強大計算能力的集成電路芯片,主要應(yīng)用于高性能計算(HPC)、人工智能(AI)、數(shù)據(jù)中心、自動駕駛等需要海量數(shù)據(jù)并行計算的場景。隨著 AI 與大數(shù)
    的頭像 發(fā)表于 04-13 00:02 ?3319次閱讀