雖然人工智能融合到商業(yè)具有很高的商業(yè)價值,但通常這個價值還不能抵消把模型應(yīng)用到商業(yè)中所需的計算成本。機器學(xué)習(xí)和深度學(xué)習(xí)是計算密集型的學(xué)習(xí),有人認為,除非云計算或本地計算成本降低,否則盡管具有空前的商業(yè)價值,也不值得付出這筆成本。
麻省理工學(xué)院的研究科學(xué)家兼《深度學(xué)習(xí)的計算極限》一書的作者尼爾·湯普森(Neil Thompson)在《連線》雜志上發(fā)表的文章中提到,Google、Facebook等眾多組織已經(jīng)建立了影響力廣又能節(jié)約成本的模型,但由于計算成本高而導(dǎo)致這些模型無法盈利。
湯普森表示在最近的一些演講和論文中表示,從事大型和前沿人工智能項目的研究人員開始抱怨,因為成本太高,他們無法測試多個算法設(shè)計,或者重新進行實驗。
商業(yè)機構(gòu)需要極大地完善計算效率的方法,以促進創(chuàng)新并提高人工智能工作的投資回報率。但是,高昂的計算成本以及人們對高效計算的關(guān)注并不應(yīng)該就此背黑鍋。
實際上,GPU加速基礎(chǔ)架構(gòu)和其他云供應(yīng)商已經(jīng)取得了重大的進步,極大提高了訓(xùn)練復(fù)雜人工智能網(wǎng)絡(luò)的能力,這種速度是前所未有的。
2020年5月,DeepCube發(fā)布了基于軟件的推理加速器,大大提高了所有現(xiàn)有硬件上的深度學(xué)習(xí)性能。換句話說,人們正在開發(fā)計算解決方案以滿足機器學(xué)習(xí)和深度學(xué)習(xí)日益增長的需求。人工智能創(chuàng)新潛在的阻礙就是對現(xiàn)有計算利用不足,以及“計算債務(wù)”的成本不斷增加。
什么是“計算債務(wù)”?
人工智能的領(lǐng)頭羊或許會驚訝地發(fā)現(xiàn),阻礙機器學(xué)習(xí)投資回報的主要因素之一是GPU,CPU和內(nèi)存資源利用不足。
公司在計算上投資了數(shù)百萬美元,這些計算有可能極大地加速人工智能工作的負載量并提高性能,但最終只利用其中的一小部分,有時只利用了20%的資源。計算分配和實際利用率之間的差距令人震驚,可能需要公司付出比想象中更高的成本。
計算、分配和利用率之間的差距可稱為“計算債務(wù)”。指的是分配和能力之間的“浪費”。下圖直觀地對比了綠色所代表的平均利用率和黃色所代表的(當時的)分配。
當工作負載正在運行時,通常僅利用GPU的一部分,而另一部分則被其他潛在的工作負載所阻擋?;疑珔^(qū)域表示容量即GPU,CPU或內(nèi)存可用的現(xiàn)有計算量,是所有閑置且未充分利用的計算區(qū)域。
資料來源:cnvrg.io
是什么導(dǎo)致了“計算債務(wù)”?
機器學(xué)習(xí)和深度學(xué)習(xí)是計算密集型的學(xué)習(xí),管理起來很復(fù)雜,降低這種計算負擔會更難。人工智能基礎(chǔ)設(shè)施團隊面臨的最大挑戰(zhàn)之一是知道如何提高利用率,并以最大化消耗的方式管理資源,提高機器學(xué)習(xí)項目的投資回報率。導(dǎo)致“計算債務(wù)”的主要原因包括:
(1) 基礎(chǔ)設(shè)施團隊缺乏人工智能項目可見性
機器學(xué)習(xí)項目的基礎(chǔ)設(shè)施成本每年以兩倍的速度增長,但是IT團隊卻缺乏正確管理、優(yōu)化和預(yù)算機器學(xué)習(xí)資源的工具。大多數(shù)IT/DevOps領(lǐng)導(dǎo)者無法在給定時間了解GPU/CPU和內(nèi)存的利用率、分配和容量。這導(dǎo)致無法控制消耗,無法提高效率。
(2) “計算債務(wù)”增長
隨著人工智能計算需求變得越來越復(fù)雜,計算分配和實際利用率之間的差距也越來越大。通常來說,公司可能只消耗了全部資源的30%。這導(dǎo)致將近70%的計算資源閑置,浪費了公司幾千甚至數(shù)百萬美元。
(3) 無法識別效率低下的工作
基礎(chǔ)架構(gòu)團隊無法輕松識別未充分利用GPU/CPU的工作負載。如果沒有收集有關(guān)歷史工作負載的數(shù)據(jù),就無法分析和識別運行效率低下的工作負載。缺乏可見性導(dǎo)致難以提高利用率,也難以控制工作負載的優(yōu)先級。
(4) 生產(chǎn)力中斷
未充分利用的GPU被打斷為其他工作讓路,增加了數(shù)據(jù)科學(xué)家的等待時間。這導(dǎo)致在等待GPU上浪費了很多時間和資源。同時還包括資源處于閑置狀態(tài)的問題,這些資源本來可以用于做其他工作的。
(5) 缺乏標準化和統(tǒng)一性
團隊經(jīng)常無法將一項工作與利用率指標關(guān)聯(lián)起來。沒有標準的可視化工具來查看特定時間點的工作分配、利用率和容量。這使得識別效率低下的工作變得十分困難,而且難以確定浪費的工作量。機器學(xué)習(xí)已經(jīng)達到了成熟的階段,為了成長,必須對人工智能基礎(chǔ)架構(gòu)進行戰(zhàn)略化發(fā)展。
(6) 無法控制優(yōu)化策略
有些團隊能識別低效率并計劃好優(yōu)化的基礎(chǔ)架構(gòu)策略,卻缺乏執(zhí)行這些策略上的工具。IT / DevOps團隊需要控制人工智能工作負載,以優(yōu)化資源管理。如果沒有辦法確定工作的優(yōu)先級、配置計算模板以及監(jiān)視工作負載的分配和利用率,就無法做出重大改進。
減少“計算債務(wù)”的策略
這一問題沒有明確的解決方法,但是有一些方法可以提高資源管理的效率。
(1) 投資最先進的具有GPU加速技術(shù)的人工智能基礎(chǔ)設(shè)施
GPU加速技術(shù)已經(jīng)取得了一些成就。硬件和軟件深度學(xué)習(xí)加速解決方案已經(jīng)出現(xiàn),可提供前所未有的計算性能。研究最新的GPU加速解決方案,采用真正的現(xiàn)代人工智能基礎(chǔ)架構(gòu)。
(2) 采用混合的云基礎(chǔ)架構(gòu)
結(jié)合公共云、私有云和本地資源可在運行人工智能工作負載方面更加敏捷和靈活。由于人工智能工作負載之間的負載類型差異很大,因此公司搭建了混合云基礎(chǔ)架構(gòu)后,能夠更靈活地分配資源和自定義大小??梢允褂霉苍平档唾Y本支出,并提供高計算需求期間所需的可伸縮性。
如果一些公司有著嚴格的安全性要求,則必須添加私有云,隨著時間的推移可降低運營支出。混合云可實現(xiàn)必要的控制和靈活性,以改善資源預(yù)算。
(3) 利用估算工具估算GPU / CPU內(nèi)存消耗
根據(jù)Microsoft Research對Microsoft的4960個失敗的深度學(xué)習(xí)任務(wù)的研究,8.8%的失敗是由GPU內(nèi)存耗盡導(dǎo)致的,這是所有深度學(xué)習(xí)故障中最主要的問題。當前已經(jīng)開發(fā)出許多估算工具用以預(yù)估GPU內(nèi)存消耗以減少這些故障。此外,如果能夠收集利用率數(shù)據(jù),則可以使用此歷史數(shù)據(jù)更好地預(yù)測每個季度的GPU / CPU和內(nèi)存需求。
(4) 規(guī)?;疢LOps
引入可以簡化機器學(xué)習(xí)工作流程,并標準化科學(xué)和工程角色之間轉(zhuǎn)換的方法。由于IT和DevOps負責部署和管理工作負載,因此在執(zhí)行不同的工作時擁有清晰的溝通渠道非常重要。適當?shù)恼{(diào)度工具和對資源模板進行策略化可以改善人工智能工作負載的資源管理。
(5) 最大限度地提高利用率,減少“計算債務(wù)”
為了提高利用率,有必要將計算債務(wù)作為基礎(chǔ)架構(gòu)團隊和數(shù)據(jù)科學(xué)團隊的KPI。如果公司能減少計算債務(wù)并提高利用率,就可以在向人工智能的競爭中脫穎而出。
要想讓基礎(chǔ)架構(gòu)團隊最大限度地提高GPU/CPU的可見性和內(nèi)存消耗從而提高利用率,基本上是沒有萬全之策。盡管業(yè)界正在迅速構(gòu)建更高效的硬件和軟件來解決計算債務(wù)的威脅,但仍然任重而道遠。很多公司花費了幾百萬美元在計算上,而這些計算并未被充分利用。
通過使用現(xiàn)有資源并完善資源管理,公司可以使人工智能基礎(chǔ)架構(gòu)具有巨大的可擴展性。根據(jù)文章中的策略,你可以完全利用好計算資源。公司若專注于優(yōu)化基礎(chǔ)架構(gòu),將會看到辛苦付出得到更高的投資回報率,從而在競爭中獲得優(yōu)勢。
責編AJX
-
計算
+關(guān)注
關(guān)注
2文章
456瀏覽量
39697 -
AI
+關(guān)注
關(guān)注
88文章
37000瀏覽量
289931 -
人工智能
+關(guān)注
關(guān)注
1811文章
49495瀏覽量
258135 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8528瀏覽量
135861
發(fā)布評論請先 登錄
評論