伴隨AI大模型爆發(fā)式增長,千卡級AI集群普及,服務(wù)器功率密度攀升,傳統(tǒng)功耗管理已難滿足能效需求。開放原子開源基金會(huì)發(fā)起的第三屆開放原子大賽攜手OurBMC社區(qū)和飛騰信息,推出“基于BMC的整機(jī)功耗智能管理”賽題,探索輕量級AI模型部署路徑,推動(dòng)AI與OurBMC項(xiàng)目融合。
賽事匯聚78支隊(duì)伍、130余位開發(fā)者,歷經(jīng)四月實(shí)戰(zhàn)角逐。開發(fā)者們深耕技術(shù)、打磨方案,不僅積累了全流程實(shí)踐經(jīng)驗(yàn),更深化了BMC功耗管理認(rèn)知,以開源協(xié)作驅(qū)動(dòng)技術(shù)突破,為綠色計(jì)算注入動(dòng)能。我們特邀獲獎(jiǎng)企業(yè)團(tuán)隊(duì)分享歷程,展現(xiàn)開源生態(tài)魅力與前沿技術(shù)力量。
AI與硬件管控深度融合,實(shí)現(xiàn)安全與節(jié)能雙贏
昆侖太科BMC團(tuán)隊(duì)由BMC領(lǐng)域資深工程師組成,深耕OpenBMC架構(gòu)研發(fā)多年。針對傳統(tǒng)PID控制在服務(wù)器溫控中難以平衡功耗與散熱的痛點(diǎn),團(tuán)隊(duì)借賽事契機(jī),探索AI算法與BMC硬件管控的深度融合,驗(yàn)證智能溫控方案可行性,推動(dòng)BMC技術(shù)棧升級。
該項(xiàng)目聚焦單變量功耗智能管理,基于openbmc-OurBMC-24.12的phosphor-pid-control庫,集成一套由C++實(shí)現(xiàn)、以GBDT為預(yù)測核心、PPO為決策核心的自適應(yīng)閉環(huán)控制系統(tǒng)。數(shù)據(jù)采集采用快速降溫與低功耗穩(wěn)態(tài)調(diào)控雙階段策略,實(shí)現(xiàn)從異常響應(yīng)到節(jié)能運(yùn)行的平滑過渡。系統(tǒng)通過溫度預(yù)測模型預(yù)判溫度趨勢,結(jié)合PPO強(qiáng)化學(xué)習(xí)生成風(fēng)扇轉(zhuǎn)速建議,同時(shí)采用安全優(yōu)先的融合機(jī)制,最終轉(zhuǎn)速取AI建議值與超溫保障值的較大者,達(dá)成“安全兜底+智能節(jié)能”雙重目標(biāo),有效降低風(fēng)扇功耗,提升數(shù)據(jù)中心PUE。
參賽過程中,團(tuán)隊(duì)通過明確“環(huán)境搭建-傳感器適配-算法開發(fā)-部署測試”職責(zé)分工實(shí)現(xiàn)高效協(xié)作,攻克AI模型輕量化適配BMC嵌入式環(huán)境的難題。成員平衡工作與備賽時(shí)間,利用碎片化時(shí)段推進(jìn)模型訓(xùn)練與調(diào)試,深刻體會(huì)到技術(shù)落地需兼顧創(chuàng)新與實(shí)用,開源協(xié)作能夠加速技術(shù)迭代。
多元技術(shù)路徑并行,探索智能功耗管理更多可能
移動(dòng)云硬件團(tuán)隊(duì)精通BMC、BIOS及智能網(wǎng)卡固件開發(fā),作為OurBMC社區(qū)成員單位,團(tuán)隊(duì)希望通過賽事了解行業(yè)前沿成果,分享技術(shù)積累,助力自身在功耗管理領(lǐng)域持續(xù)進(jìn)階。
團(tuán)隊(duì)獲獎(jiǎng)作品為“基于BMC的智能功耗管理-SFC調(diào)速方案”,核心邏輯是通過BMC采集服務(wù)器工況信息,離線訓(xùn)練工況識別與溫度預(yù)測模型并內(nèi)置到系統(tǒng)中。服務(wù)器運(yùn)行時(shí),BMC先識別當(dāng)前工況,再基于工況預(yù)測關(guān)鍵部件溫度變化,提前調(diào)節(jié)風(fēng)扇轉(zhuǎn)速,在滿足溫度約束的前提下實(shí)現(xiàn)整體功率最低。
依托移動(dòng)云在功耗管理的積累,團(tuán)隊(duì)迅速組建技術(shù)互補(bǔ)型隊(duì)伍,經(jīng)緊密協(xié)作明確核心原則:智能功耗管理不能影響B(tài)MC核心功能,模型輕量化與冗余措施必不可少。基于此,團(tuán)隊(duì)攻克模型輕量化、預(yù)測準(zhǔn)確度等難題,同時(shí)借鑒其他參賽隊(duì)伍的優(yōu)秀方案,為后續(xù)研究積累經(jīng)驗(yàn)。
百敖BMC團(tuán)隊(duì)擁有多年BMC開發(fā)經(jīng)驗(yàn),核心方案基于LSTM時(shí)序預(yù)測模型,構(gòu)建智能化自適應(yīng)溫控決策機(jī)制。模型通過分析溫度與風(fēng)扇轉(zhuǎn)速的關(guān)聯(lián)趨勢,預(yù)測未來溫度變化并輸出匹配的轉(zhuǎn)速建議,同時(shí)設(shè)置融合決策模塊,對比LSTM預(yù)測結(jié)果與PID控制指令,動(dòng)態(tài)權(quán)衡后下發(fā)最終轉(zhuǎn)速指令。
該方案實(shí)現(xiàn)從“被動(dòng)響應(yīng)式控溫”到“主動(dòng)優(yōu)化式控溫”的轉(zhuǎn)變,在保障設(shè)備散熱需求的前提下,平滑能耗曲線,減少功耗波動(dòng),達(dá)成散熱與能效的最優(yōu)平衡。
面對BMC芯片計(jì)算能力有限、存儲(chǔ)空間不足的挑戰(zhàn),團(tuán)隊(duì)通過固定晚間協(xié)作時(shí)段、高效異步溝通,將項(xiàng)目經(jīng)驗(yàn)轉(zhuǎn)化為比賽優(yōu)勢,深刻認(rèn)識到技術(shù)權(quán)衡與工程落地能力比追求技術(shù)新穎更重要。
信工所算力基礎(chǔ)設(shè)施安全團(tuán)隊(duì)從第一屆大賽起便持續(xù)關(guān)注OurBMC賽事,此前因?qū)W業(yè)遺憾錯(cuò)過。本屆大賽功耗管理主題與團(tuán)隊(duì)在服務(wù)器能效優(yōu)化的研究高度契合,相關(guān)成果已發(fā)表于頂級期刊。團(tuán)隊(duì)希望借賽事展示方案,促進(jìn)技術(shù)交流,助力國產(chǎn)BMC固件發(fā)展。
團(tuán)隊(duì)作品HyperBMC,寓意超越傳統(tǒng)服務(wù)器管理范式,將BMC定位為智能管理引擎。方案核心是在BMC芯片部署深度學(xué)習(xí)模型,刻畫計(jì)算需求與散熱能力的平衡關(guān)系,結(jié)合主機(jī)CPU與BMC的帶內(nèi)通信機(jī)制,協(xié)同調(diào)控風(fēng)扇轉(zhuǎn)速與CPU頻率,實(shí)現(xiàn)精細(xì)化功耗管理,兼顧能效與性能穩(wěn)定性。
盡管團(tuán)隊(duì)有技術(shù)積累,仍面臨兩大挑戰(zhàn):一是軟件版本適配難題,需將基于OpenBMC 2.8.0的成果遷移至OurBMC 24.12版本,攻克Linux內(nèi)核升級與Yocto工具鏈變化等問題;二是嵌入式設(shè)備運(yùn)行深度學(xué)習(xí)的挑戰(zhàn),團(tuán)隊(duì)首次將智能決策與模型推理全流程部署在BMC端,充分挖掘嵌入式硬件性能。
聚焦輕量化與實(shí)用性,拓寬技術(shù)落地邊界
創(chuàng)芯無限團(tuán)隊(duì)由管芯微與廣東芯培森聯(lián)合組建,擅長高性能算力芯片研發(fā)。管芯微是OurBMC社區(qū)早期成員,團(tuán)隊(duì)因賽題與廣東赫曦原子智算中心建設(shè)高度契合,且希望借鑒社區(qū)經(jīng)驗(yàn)探索降PUE新路徑,第一時(shí)間報(bào)名參賽。
方案面向原子級科學(xué)計(jì)算高性能服務(wù)器(赫曦I架構(gòu)),設(shè)計(jì)包含單變量與整機(jī)功耗管理的雙模塊系統(tǒng)。單變量模塊采集主板、CPU、GPU、APU的溫度與負(fù)載數(shù)據(jù),采用ANN、CNN、LSTM-FNN等模型動(dòng)態(tài)調(diào)節(jié)風(fēng)扇轉(zhuǎn)速,實(shí)現(xiàn)快速降溫與低功耗溫控;整機(jī)模塊通過LSTM模型預(yù)測設(shè)備負(fù)載峰谷,動(dòng)態(tài)調(diào)整CPU/GPU頻率與電壓,實(shí)現(xiàn)按需功耗分配。系統(tǒng)支持增量學(xué)習(xí)與強(qiáng)化學(xué)習(xí)優(yōu)化,搭配閾值控制兜底,保障性能的同時(shí)降低運(yùn)行成本。
賽事錨定真實(shí)場景,涉及多類硬件且監(jiān)控參數(shù)龐雜,尤其是自研APU需經(jīng)兩級代理獲取指標(biāo),整合分散監(jiān)控手段成為最大難點(diǎn)。團(tuán)隊(duì)通過模塊化設(shè)計(jì)與精細(xì)化分工緊密協(xié)作,克服異地組隊(duì)、時(shí)間緊張等障礙,順利完成任務(wù)。
國科超算團(tuán)隊(duì)專注嵌入式AI與BMC安全管理,致力于將輕量級AI模型應(yīng)用于BMC產(chǎn)品。針對AI服務(wù)器功耗密度攀升、傳統(tǒng)管理方案失效的痛點(diǎn),團(tuán)隊(duì)希望在BMC中引入AI模塊,基于硬件溫度與OS負(fù)載實(shí)現(xiàn)精準(zhǔn)功耗調(diào)控。
團(tuán)隊(duì)作品核心是通過輕量化AI技術(shù)優(yōu)化風(fēng)扇控制策略,采用四項(xiàng)關(guān)鍵機(jī)制:一是全場景數(shù)據(jù)采集,覆蓋空載、常規(guī)負(fù)載、高負(fù)載工況,確保數(shù)據(jù)完整;二是功耗建模與特征工程,基于硬件標(biāo)定映射表構(gòu)建功耗估算模型,簡化特征維度適配輕量化需求;三是分階段模型訓(xùn)練,超溫階段用LSTM模型快速響應(yīng)溫度趨勢,穩(wěn)溫階段用Q-Learning模型實(shí)現(xiàn)能效最優(yōu);四是輕量化部署,簡化推理鏈路,控制延遲低于10ms,設(shè)置異常兜底機(jī)制,保障系統(tǒng)穩(wěn)定。
參賽初期,AI與BMC工程師因技術(shù)思路分歧產(chǎn)生爭論,經(jīng)帶隊(duì)老師協(xié)調(diào)敲定方案架構(gòu)。團(tuán)隊(duì)成員分工推進(jìn)數(shù)據(jù)采集、模型訓(xùn)練與部署測試,針對模型效果不佳、數(shù)據(jù)偏差等問題集中攻關(guān)。成員兼顧公司項(xiàng)目與備賽,最終收獲的成就感消解了所有疲憊。
第三屆開放原子大賽“基于BMC的整機(jī)功耗智能管理”賽題,以開源為紐帶匯聚各方智慧。各獲獎(jiǎng)團(tuán)隊(duì)探索出輕量化AI與BMC融合的多元技術(shù)路徑,為數(shù)據(jù)中心功耗管理提供可落地方案,踐行了開放包容、共創(chuàng)共贏的開源精神。未來,隨著技術(shù)落地與迭代,這些方案將持續(xù)推動(dòng)綠色計(jì)算發(fā)展,為AI時(shí)代高效能數(shù)據(jù)中心建設(shè)注入新動(dòng)能。
-
功耗
+關(guān)注
關(guān)注
1文章
841瀏覽量
33258 -
AI
+關(guān)注
關(guān)注
91文章
39684瀏覽量
301287 -
開發(fā)者
+關(guān)注
關(guān)注
1文章
771瀏覽量
18005
原文標(biāo)題:從實(shí)驗(yàn)室到賽場,大賽開發(fā)者如何用AI破解BMC功耗難題
文章出處:【微信號:開放原子,微信公眾號:開放原子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
第三屆開放原子大賽基于BMC的整機(jī)功耗智能管理挑戰(zhàn)賽圓滿落幕
第三屆開放原子大賽開發(fā)者用代碼回答未來
第三屆開放原子大賽vivo藍(lán)河操作系統(tǒng)創(chuàng)新賽圓滿收官
潤和軟件助力第三屆開放原子大賽源師兄創(chuàng)意開發(fā)賽決賽圓滿落幕
第三屆開放原子大賽首批賽項(xiàng)頒獎(jiǎng)儀式圓滿落幕
【賽事公告】關(guān)于“第三屆開放原子大賽”賽程延長公告
第三屆開放原子大賽開發(fā)者如何用AI破解BMC功耗難題
評論