文章
-
英偉達(dá) H100 GPU 掉卡?做好這五點(diǎn),讓算力穩(wěn)如泰山!2025-09-05 11:03
-
搞定英偉達(dá) H100 ECC 報(bào)錯(cuò):從原理到維修,一步到位解煩憂2025-08-14 18:05
最近,捷智算GPU維修室收到了不少H100服務(wù)器需要維修,故障問(wèn)題集中為ECC報(bào)錯(cuò)。為了幫大家更好地認(rèn)識(shí)和了解情況,下面就詳細(xì)分享一下ECC報(bào)錯(cuò)系統(tǒng)化排查方法和維修流程。一、ECC報(bào)錯(cuò)原理是什么?ECC即錯(cuò)誤校正碼,主要用于檢測(cè)和糾正顯存(VRAM)數(shù)據(jù)錯(cuò)誤,保障計(jì)算準(zhǔn)確性。當(dāng)ECC報(bào)錯(cuò),意味著顯存數(shù)據(jù)可能存在問(wèn)題,需及時(shí)處理。二、如何分析報(bào)錯(cuò)原因?(一)從 -
新品 | 破局散熱困境!捷智算5090 浸沒(méi)式液冷服務(wù)器全新來(lái)襲!2025-08-06 17:12
-
別讓 GPU 故障拖后腿,捷智算GPU維修室來(lái)救場(chǎng)!2025-07-17 18:56
在AI浪潮洶涌的當(dāng)下,GPU已然成為眾多企業(yè)與科研機(jī)構(gòu)的核心生產(chǎn)力。從深度學(xué)習(xí)模型訓(xùn)練,到影視渲染、復(fù)雜科學(xué)計(jì)算,GPU憑借強(qiáng)大并行計(jì)算能力,極大提升運(yùn)算效率。然而,就像高速運(yùn)轉(zhuǎn)的精密儀器易出狀況,GPU也常面臨各類故障挑戰(zhàn),令使用者頭疼不已。常見(jiàn)GPU故障大盤點(diǎn)一、內(nèi)存故障引發(fā)性能“滑坡”以英偉達(dá)H100為例,在高負(fù)載、大規(guī)模集群運(yùn)行環(huán)境下,HBM3高帶寬 -
創(chuàng)造歷史!英偉達(dá)成全球首家市值4萬(wàn)億美元公司!2025-07-11 17:34
7月9日,英偉達(dá)股價(jià)一度飆升至163.9美元,總市值突破4萬(wàn)億美元,收盤時(shí)仍達(dá)3.97萬(wàn)億美元,盤后微漲站穩(wěn)4萬(wàn)億,超越微軟、蘋果成全球市值最高公司,創(chuàng)下多項(xiàng)歷史紀(jì)錄!其市值狂奔的動(dòng)力源于生成式AI的旺盛需求。2026財(cái)年Q1,英偉達(dá)營(yíng)收440.6億美元,同比增長(zhǎng)69%,數(shù)據(jù)中心業(yè)務(wù)營(yíng)收391億美元,占總營(yíng)收89%。Blackwell系列芯片表現(xiàn)強(qiáng)勢(shì),GB2 -
剛剛,英偉達(dá)任命兩位新首席研究科學(xué)家!95 后,本科均來(lái)自清華2025-07-01 18:06
-
英偉達(dá)一夜大漲1.2萬(wàn)億元,市值重回全球第一!2025-06-26 17:35
-
算力時(shí)代,你的GPU選對(duì)了嗎?三張表看清專業(yè)卡與消費(fèi)卡的本質(zhì)差異2025-06-20 18:32
-
已有65%的央企選擇 AI算力深入千行百業(yè)2025-06-10 12:03
-
GPU 維修干貨 | 英偉達(dá) GPU H100 常見(jiàn)故障有哪些?2025-05-05 09:03
ABSTRACT摘要本文主要介紹英偉達(dá)H100常見(jiàn)的故障類型和問(wèn)題。JAEALOT2025年5月5日今年,國(guó)家政府報(bào)告提出要持續(xù)推進(jìn)“人工智能+”行動(dòng),大力發(fā)展人工智能行業(yè),市場(chǎng)上對(duì)算力的需求持續(xù)上漲,英偉達(dá)H100GPU憑借其強(qiáng)大的算力,成為AI訓(xùn)練、高性能計(jì)算領(lǐng)域的核心硬件。然而,隨著使用場(chǎng)景的復(fù)雜化,H100服務(wù)器故障率也逐漸攀升,輕則影響業(yè)務(wù)進(jìn)度,重