如何為深度學(xué)習(xí)選擇 GPU 服務(wù)器?_目前哪里可以租用到GPU服務(wù)器?_gpu服務(wù)器出租價格
前言
?現(xiàn)今,日益完善的深度學(xué)習(xí)技術(shù)和-AI-服務(wù)愈加受到市場青睞。與此同時,數(shù)據(jù)集不斷擴(kuò)大,計算模型和網(wǎng)絡(luò)也變得越來越復(fù)雜,這對于硬件設(shè)備也提出了更為嚴(yán)苛的需求。如何利用有限的預(yù)算,最大限度升級系統(tǒng)整體的計算性能和數(shù)據(jù)傳輸能力成為了最為重要的問題。
GPU-的選擇
熟悉深度學(xué)習(xí)的人都知道,深度學(xué)習(xí)是需要訓(xùn)練的,所謂的訓(xùn)練就是在成千上萬個變量中尋找最佳值的計算。這需要通過不斷的嘗試識別,而最終獲得的數(shù)值并非是人工確定的數(shù)字,而是一種常態(tài)的公式。通過這種像素級的學(xué)習(xí),不斷總結(jié)規(guī)律,計算機(jī)就可以實現(xiàn)像人一樣思考。因而,更擅長并行計算和高帶寬的-GPU,則成了大家關(guān)注的重點。
數(shù)據(jù)并行的原理很簡單,如下圖,其中-CPU-主要負(fù)責(zé)梯度平均和參數(shù)更新,而-GPU1和-GPU2-主要負(fù)責(zé)訓(xùn)練模型副本(model replica),這里稱作“模型副本”是因為它們都是基于訓(xùn)練樣例的子集訓(xùn)練得到的,模型之間具有一定的獨立性。具體的訓(xùn)練步驟如下
除了計算能力之外,GPU-另一個比較重要的優(yōu)勢就是他的內(nèi)存結(jié)構(gòu)。首先是共享內(nèi)存。在-NVIDIA-披露的性能參數(shù)中,每個流處理器集群末端設(shè)有共享內(nèi)存。相比于-CPU-每次操作數(shù)據(jù)都要返回內(nèi)存再進(jìn)行調(diào)用,GPU-線程之間的數(shù)據(jù)通訊不需要訪問全局內(nèi)存,而在共享內(nèi)存中就可以直接訪問。這種設(shè)置的帶來最大的好處就是線程間通訊速度的提高(速度:共享內(nèi)存》》全局內(nèi)存)。
而在傳統(tǒng)的CPU構(gòu)架中,盡管有高速緩存(Cache)的存在,但是由于其容量較小,大量的數(shù)據(jù)只能存放在內(nèi)存(RAM)中。進(jìn)行數(shù)據(jù)處理時,數(shù)據(jù)要從內(nèi)存中讀取然后在-CPU-中運算最后返回內(nèi)存中。由于構(gòu)架的原因,二者之間的通信帶寬通常在-60GB/s-左右徘徊。與之相比,大顯存帶寬的-GPU-具有更大的數(shù)據(jù)吞吐量。在大規(guī)模深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,必然帶來更大的優(yōu)勢。
另一方面,如果要充分利用-GPU-資源處理海量數(shù)據(jù),需要不斷向-GPU-注入大量數(shù)據(jù)。目前,PCIe-的數(shù)據(jù)傳輸速度還無法跟上這一速度,如果想避免此類“交通擁堵”,提高數(shù)據(jù)傳輸速度可以選擇應(yīng)用-NVlink-技術(shù)的-GPU-卡片。
4-GPUs-with-PCIe
4-GPUs-with-NVLink
NVLink-是目前最快的-GPU-高速互聯(lián)技術(shù),借助這種技術(shù),GPU-和-CPU-彼此之間的數(shù)據(jù)交換速度要比使用PCIe 時快-5-到-12-倍,應(yīng)用程序的運行速度可加快兩倍。通過-NVLink 連接兩個-GPU-可使其通信速度提高至-80-GB/s,比之前快了-5-倍。
其中-Nvidia-的-Volta-架構(gòu)計算卡使用的-NVLink-2.0-技術(shù)速度更快(20-25Gbps),單通道可提供-50-GB/S-的顯存帶寬。
P100-NVLink1.0-數(shù)據(jù)傳輸模式
V100-NVLink2.0-數(shù)據(jù)傳輸模式
而且就目前而言,越來越多的深度學(xué)習(xí)標(biāo)準(zhǔn)庫支持基于-GPU-的深度學(xué)習(xí)加速,通俗點描述就是深度學(xué)習(xí)的編程框架會自動根據(jù)-GPU-所具有的線程/Core-數(shù),去自動分配數(shù)據(jù)的處理策略,從而達(dá)到優(yōu)化深度學(xué)習(xí)的時間。而這些軟件上的全面支持也是其它計算結(jié)構(gòu)所欠缺的。
簡單來看,選擇-GPU-有四個重要參數(shù):浮點運算能力、顯存、數(shù)據(jù)傳輸與價格。
對于很多科學(xué)計算而言,服務(wù)器性能主要決定于-GPU-的浮點運算能力。特別是對深度學(xué)習(xí)任務(wù)來說,單精浮點運算以及更低的半精浮點運算性能則更為重要。如果資金充足的情況下,可以選擇應(yīng)用-NVLink-技術(shù)單精計算性能高、顯存大的-GPU-卡片。如果資金有限的話,則要仔細(xì)考量核心需求,選擇性價比更高的-GPU-卡片。
內(nèi)存大小的選擇
心理學(xué)家告訴我們,專注力這種資源會隨著時間的推移而逐漸耗盡。內(nèi)存就是為數(shù)不多的,讓你保存注意力資源,以解決更困難編程問題的硬件之一。與其在內(nèi)存瓶頸上兜轉(zhuǎn),浪費時間,不如把注意力放在更加緊迫的問題上。如果你有更多的內(nèi)存,有了這一前提條件,你可以避免那些瓶頸,節(jié)約時間,在更緊迫問題上投入更多的生產(chǎn)力。
所以,如果資金充足而且需要做很多預(yù)處理工作,應(yīng)該選擇至少和-GPU-內(nèi)存大小相同的內(nèi)存。雖然更小的內(nèi)存也可以運行,但是這樣就需要一步步轉(zhuǎn)移數(shù)據(jù),整體效率上則大打則扣??偟膩碚f內(nèi)存越大,工作起來越舒服。
在一些深度學(xué)習(xí)案例中,硬驅(qū)會成為明顯的瓶頸。如果數(shù)據(jù)組很大,通常會在硬驅(qū)上放一些數(shù)據(jù),內(nèi)存中也放一些,GPU-內(nèi)存中也放兩-mini-batch。為了持續(xù)供給-GPU,我們需要以-GPU-能夠跑完這些數(shù)據(jù)的速度提供新的-mini-batch。
為此,可以采用和異步-mini-batch-分配一樣的思路,用多重-mini-batch-異步讀取文件。如果不異步處理,結(jié)果表現(xiàn)會被削弱很多(5-10%),而且讓認(rèn)真打造的硬件優(yōu)勢蕩然無存。那么,這時候就需要-SSD,因為-100-150MB/S-的硬驅(qū)會很慢,不足以跟上-GPU。
許多人買一個-SSD-是為了舒服:程序開始和響應(yīng)都快多了,大文件預(yù)處理也快很多,但是,對于深度學(xué)習(xí)來說,僅當(dāng)輸入維數(shù)很高,不能充分壓縮數(shù)據(jù)時,這才是必須的。如果買了-SSD,則應(yīng)該選擇能夠存下和使用者通常要處理的數(shù)據(jù)集大小相當(dāng)?shù)拇鎯θ萘?,也額外留出數(shù)十-GB-的空間。另外用普通硬驅(qū)保存尚未使用的數(shù)據(jù)集的主意也不錯。
非常好我支持^.^
(60) 93.8%
不好我反對
(4) 6.2%
相關(guān)閱讀:
- [電子說] 租用GPU服務(wù)器一般多少錢 2024-11-25
- [電子說] GPU服務(wù)器和傳統(tǒng)的服務(wù)器有什么區(qū)別 2024-11-07
- [電子說] GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計 2024-11-05
- [電子說] GPU服務(wù)器用途 2024-10-18
- [電子說] GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢具體體現(xiàn)在哪些方面? 2024-09-11
- [電子說] gpu服務(wù)器與cpu服務(wù)器的區(qū)別對比,終于知道怎么選了! 2024-08-01
- [電子說] gpu服務(wù)器是干什么的 gpu服務(wù)器與cpu服務(wù)器的區(qū)別有哪些 2024-01-30
- [電子說] 超微gpu服務(wù)器評測 2024-01-10
( 發(fā)表人:彭菁 )