麻省理工學(xué)院的研究人員開發(fā)的新型系統(tǒng)可以自動(dòng)“學(xué)習(xí)”如何在數(shù)千臺(tái)服務(wù)器上調(diào)度數(shù)據(jù)處理操作,而這通常是由不精確的人工設(shè)計(jì)算法完成的任務(wù)。這樣做可以幫助當(dāng)今耗電的數(shù)據(jù)中心更加高效地運(yùn)行。
數(shù)據(jù)中心可以包含數(shù)以萬(wàn)計(jì)的服務(wù)器,這些服務(wù)器不斷運(yùn)行來(lái)自開發(fā)人員和用戶的數(shù)據(jù)處理任務(wù)。群集調(diào)度算法可實(shí)時(shí)跨服務(wù)器分配傳入任務(wù),以有效利用所有可用的計(jì)算資源并快速完成工作。
但是,傳統(tǒng)上,人們會(huì)根據(jù)一些基本準(zhǔn)則(“策略”)和各種折衷來(lái)微調(diào)那些調(diào)度算法。例如,他們可以對(duì)算法進(jìn)行編碼,以快速完成某些作業(yè),或者在作業(yè)之間平均分配資源。但是工作負(fù)載(意味著組合任務(wù)的組)各種各樣。因此,人類幾乎不可能針對(duì)特定的工作負(fù)載優(yōu)化其調(diào)度算法,因此,他們常常無(wú)法發(fā)揮其真正的效率潛力。
麻省理工學(xué)院的研究人員將所有手動(dòng)編碼轉(zhuǎn)移到了機(jī)器上。在SIGCOMM上發(fā)表的一篇論文中,他們描述了一種利用“強(qiáng)化學(xué)習(xí)”(RL)(一種反復(fù)試驗(yàn)的機(jī)器學(xué)習(xí)技術(shù))來(lái)針對(duì)特定服務(wù)器群集中特定工作負(fù)載量身定制調(diào)度決策的系統(tǒng)。
為此,他們建立了新穎的RL技術(shù),可以對(duì)復(fù)雜的工作量進(jìn)行訓(xùn)練。在培訓(xùn)中,系統(tǒng)嘗試了多種可能的方式來(lái)跨服務(wù)器分配傳入的工作負(fù)載,最終在利用計(jì)算資源和快速處理速度方面找到了最佳折衷方案。除了“減少工作完成時(shí)間”這樣的簡(jiǎn)單指令,不需要人工干預(yù)。
與最佳的手寫調(diào)度算法相比,研究人員的系統(tǒng)完成工作的速度提高了大約20%到30%,而在交通繁忙時(shí)則完成速度提高了一倍。但是,大多數(shù)情況下,系統(tǒng)會(huì)學(xué)習(xí)如何有效壓縮工作負(fù)載而幾乎沒(méi)有浪費(fèi)。結(jié)果表明,該系統(tǒng)可以使數(shù)據(jù)中心使用更少的資源,以更高的速度處理相同的工作負(fù)載。
電氣工程和計(jì)算機(jī)科學(xué)系的博士生Hongzi Mao說(shuō):“如果您有使用機(jī)器進(jìn)行反復(fù)試驗(yàn)的方法,他們可以嘗試以不同的方式安排作業(yè),并自動(dòng)找出哪種策略比其他方法更好?!?(EECS)?!斑@可以自動(dòng)提高系統(tǒng)性能。利用率的任何微小提高,即使提高1%,都可以節(jié)省數(shù)百萬(wàn)美元,并為數(shù)據(jù)中心節(jié)省大量能源?!?/p>
EECS教授和計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究員穆罕默德·阿里扎德(Mohammad Alizadeh)補(bǔ)充說(shuō):“制定調(diào)度決策沒(méi)有萬(wàn)能的選擇?!?“在現(xiàn)有系統(tǒng)中,這些是您必須預(yù)先決定的硬編碼參數(shù)。相反,我們的系統(tǒng)將根據(jù)數(shù)據(jù)中心和工作負(fù)載學(xué)習(xí)調(diào)整其調(diào)度策略特征?!?/p>
通常,數(shù)據(jù)處理作業(yè)進(jìn)入數(shù)據(jù)中心,以“節(jié)點(diǎn)”和“邊緣”的圖形表示。每個(gè)節(jié)點(diǎn)代表一些需要完成的計(jì)算任務(wù),其中節(jié)點(diǎn)越大,所需的計(jì)算能力越強(qiáng)。連接節(jié)點(diǎn)的邊緣將連接的任務(wù)鏈接在一起。調(diào)度算法根據(jù)各種策略將節(jié)點(diǎn)分配給服務(wù)器。
但是傳統(tǒng)的RL系統(tǒng)并不習(xí)慣于處理這樣的動(dòng)態(tài)圖。這些系統(tǒng)使用軟件“代理”進(jìn)行決策并接收反饋信號(hào)作為獎(jiǎng)勵(lì)。從本質(zhì)上講,它會(huì)嘗試在給定的上下文中學(xué)習(xí)任何理想行為,從而最大化其對(duì)任何給定動(dòng)作的回報(bào)。例如,它們可以幫助機(jī)器人學(xué)習(xí)如何執(zhí)行與通過(guò)與環(huán)境交互來(lái)拾取物體等任務(wù),但這涉及通過(guò)更容易設(shè)置的像素網(wǎng)格處理視頻或圖像。
為了構(gòu)建他們的基于RL的調(diào)度程序Decima,研究人員必須開發(fā)一種模型,該模型可以處理圖形結(jié)構(gòu)的作業(yè),并可以擴(kuò)展到大量作業(yè)和服務(wù)器。他們系統(tǒng)的“代理”是一種調(diào)度算法,該算法利用了圖神經(jīng)網(wǎng)絡(luò),通常用于處理圖結(jié)構(gòu)數(shù)據(jù)。為了提出適合計(jì)劃的圖神經(jīng)網(wǎng)絡(luò),他們實(shí)現(xiàn)了一個(gè)自定義組件,該組件聚集了跨圖路徑的信息-例如快速估計(jì)完成圖的給定部分需要多少計(jì)算。這對(duì)于作業(yè)調(diào)度很重要,因?yàn)椤白印保ㄏ拢┕?jié)點(diǎn)要等到其“父”(上)節(jié)點(diǎn)完成后才能開始執(zhí)行,因此,預(yù)測(cè)圖表中沿不同路徑的未來(lái)工作對(duì)于制定良好的調(diào)度決策至關(guān)重要。
-
算法
+關(guān)注
關(guān)注
23文章
4710瀏覽量
95399 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9795瀏覽量
87998 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5230瀏覽量
73528
發(fā)布評(píng)論請(qǐng)先 登錄
服務(wù)器數(shù)據(jù)恢復(fù)—ocfs2文件系統(tǒng)被格式化為Ext4文件系統(tǒng)的數(shù)據(jù)恢復(fù)案例

無(wú)人職守自動(dòng)安裝部署操作系統(tǒng)指南

評(píng)論