chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

您好,歡迎來電子發(fā)燒友網! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網>電子百科>電腦硬件>服務器>

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格 - 全文

2018年01月06日 10:25 電子發(fā)燒友網 作者: 用戶評論(0
關鍵字:gpu服務器(4378)

前言

?現(xiàn)今,日益完善的深度學習技術和-AI-服務愈加受到市場青睞。與此同時,數(shù)據(jù)集不斷擴大,計算模型和網絡也變得越來越復雜,這對于硬件設備也提出了更為嚴苛的需求。如何利用有限的預算,最大限度升級系統(tǒng)整體的計算性能和數(shù)據(jù)傳輸能力成為了最為重要的問題。

GPU-的選擇

熟悉深度學習的人都知道,深度學習是需要訓練的,所謂的訓練就是在成千上萬個變量中尋找最佳值的計算。這需要通過不斷的嘗試識別,而最終獲得的數(shù)值并非是人工確定的數(shù)字,而是一種常態(tài)的公式。通過這種像素級的學習,不斷總結規(guī)律,計算機就可以實現(xiàn)像人一樣思考。因而,更擅長并行計算和高帶寬的-GPU,則成了大家關注的重點。

數(shù)據(jù)并行的原理很簡單,如下圖,其中-CPU-主要負責梯度平均和參數(shù)更新,而-GPU1和-GPU2-主要負責訓練模型副本(model replica),這里稱作“模型副本”是因為它們都是基于訓練樣例的子集訓練得到的,模型之間具有一定的獨立性。具體的訓練步驟如下

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

除了計算能力之外,GPU-另一個比較重要的優(yōu)勢就是他的內存結構。首先是共享內存。在-NVIDIA-披露的性能參數(shù)中,每個流處理器集群末端設有共享內存。相比于-CPU-每次操作數(shù)據(jù)都要返回內存再進行調用,GPU-線程之間的數(shù)據(jù)通訊不需要訪問全局內存,而在共享內存中就可以直接訪問。這種設置的帶來最大的好處就是線程間通訊速度的提高(速度:共享內存》》全局內存)。

而在傳統(tǒng)的CPU構架中,盡管有高速緩存(Cache)的存在,但是由于其容量較小,大量的數(shù)據(jù)只能存放在內存(RAM)中。進行數(shù)據(jù)處理時,數(shù)據(jù)要從內存中讀取然后在-CPU-中運算最后返回內存中。由于構架的原因,二者之間的通信帶寬通常在-60GB/s-左右徘徊。與之相比,大顯存帶寬的-GPU-具有更大的數(shù)據(jù)吞吐量。在大規(guī)模深度神經網絡的訓練中,必然帶來更大的優(yōu)勢。

另一方面,如果要充分利用-GPU-資源處理海量數(shù)據(jù),需要不斷向-GPU-注入大量數(shù)據(jù)。目前,PCIe-的數(shù)據(jù)傳輸速度還無法跟上這一速度,如果想避免此類“交通擁堵”,提高數(shù)據(jù)傳輸速度可以選擇應用-NVlink-技術的-GPU-卡片。

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

4-GPUs-with-PCIe

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

4-GPUs-with-NVLink

NVLink-是目前最快的-GPU-高速互聯(lián)技術,借助這種技術,GPU-和-CPU-彼此之間的數(shù)據(jù)交換速度要比使用PCIe 時快-5-到-12-倍,應用程序的運行速度可加快兩倍。通過-NVLink 連接兩個-GPU-可使其通信速度提高至-80-GB/s,比之前快了-5-倍。

其中-Nvidia-的-Volta-架構計算卡使用的-NVLink-2.0-技術速度更快(20-25Gbps),單通道可提供-50-GB/S-的顯存帶寬。

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

P100-NVLink1.0-數(shù)據(jù)傳輸模式

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

V100-NVLink2.0-數(shù)據(jù)傳輸模式

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

而且就目前而言,越來越多的深度學習標準庫支持基于-GPU-的深度學習加速,通俗點描述就是深度學習的編程框架會自動根據(jù)-GPU-所具有的線程/Core-數(shù),去自動分配數(shù)據(jù)的處理策略,從而達到優(yōu)化深度學習的時間。而這些軟件上的全面支持也是其它計算結構所欠缺的。

簡單來看,選擇-GPU-有四個重要參數(shù):浮點運算能力、顯存、數(shù)據(jù)傳輸與價格。

對于很多科學計算而言,服務器性能主要決定于-GPU-的浮點運算能力。特別是對深度學習任務來說,單精浮點運算以及更低的半精浮點運算性能則更為重要。如果資金充足的情況下,可以選擇應用-NVLink-技術單精計算性能高、顯存大的-GPU-卡片。如果資金有限的話,則要仔細考量核心需求,選擇性價比更高的-GPU-卡片。

內存大小的選擇

心理學家告訴我們,專注力這種資源會隨著時間的推移而逐漸耗盡。內存就是為數(shù)不多的,讓你保存注意力資源,以解決更困難編程問題的硬件之一。與其在內存瓶頸上兜轉,浪費時間,不如把注意力放在更加緊迫的問題上。如果你有更多的內存,有了這一前提條件,你可以避免那些瓶頸,節(jié)約時間,在更緊迫問題上投入更多的生產力。

所以,如果資金充足而且需要做很多預處理工作,應該選擇至少和-GPU-內存大小相同的內存。雖然更小的內存也可以運行,但是這樣就需要一步步轉移數(shù)據(jù),整體效率上則大打則扣。總的來說內存越大,工作起來越舒服。

硬盤驅動器/SSD

在一些深度學習案例中,硬驅會成為明顯的瓶頸。如果數(shù)據(jù)組很大,通常會在硬驅上放一些數(shù)據(jù),內存中也放一些,GPU-內存中也放兩-mini-batch。為了持續(xù)供給-GPU,我們需要以-GPU-能夠跑完這些數(shù)據(jù)的速度提供新的-mini-batch。

為此,可以采用和異步-mini-batch-分配一樣的思路,用多重-mini-batch-異步讀取文件。如果不異步處理,結果表現(xiàn)會被削弱很多(5-10%),而且讓認真打造的硬件優(yōu)勢蕩然無存。那么,這時候就需要-SSD,因為-100-150MB/S-的硬驅會很慢,不足以跟上-GPU。

許多人買一個-SSD-是為了舒服:程序開始和響應都快多了,大文件預處理也快很多,但是,對于深度學習來說,僅當輸入維數(shù)很高,不能充分壓縮數(shù)據(jù)時,這才是必須的。如果買了-SSD,則應該選擇能夠存下和使用者通常要處理的數(shù)據(jù)集大小相當?shù)拇鎯θ萘?,也額外留出數(shù)十-GB-的空間。另外用普通硬驅保存尚未使用的數(shù)據(jù)集的主意也不錯。
#e#

目前哪里可以租用到GPU服務器?

現(xiàn)在的服務器絕大多數(shù)甚至連顯卡都沒有,那比如這樣的圖形處理網站(深度學習類)Login | Deep Dream Generator除了自己搭建外可以租用到這樣的服務器嗎?

自己搭建的話聯(lián)網問題很大,而且初期成本比較高,哪里可以像租用網站/游戲服務器一樣租用到這樣的GPU服務器?

google:https://cloud.google.com/gpu/

阿里云:高性能計算HPC_數(shù)據(jù)預測_數(shù)據(jù)分析-阿里云

騰訊云:GPU云服務器 - 騰訊云

百度云:GPU服務器-百度云

google資費最低,百度處于內側,阿里云資費最高。配置上,google給的是K80,阿里云和騰訊給的是M40。

可以試試AWS的GPU實例,它是按小時算的,再加上競價實例,比國內包月制的gpu服務器劃算不少。

華為云,公測階段現(xiàn)在一小時一毛五左右,大概是p100的顯卡性能,16核心128g內存。

?gpu服務器出租價格

跟配置有關,配置越高,費用越高。 一般計算是全款/3年+少量的費用=年租

計費說明

包年包月:提前一次性支付一個月或多個月的費用。購買者具有 GPU 實例的使用及管理權限。

按量計費:計費時間粒度精確到秒,不需要提前支付費用,每小時整點進行一次結算。

GPU 實例包括網絡、存儲(系統(tǒng)盤、數(shù)據(jù)盤)、硬件(CPU 、 內存 、 GPU)。了解相關網絡價格可參考 網絡價格總覽, 了解相關磁盤價格可參考 磁盤價格總覽 。

GPU 云服務器提供三種實例類型:計算型 GN2,GN8和 渲染型 GA2 , 用戶可通過了解選型的配置與價格購買適合實際需要的 GPU 實例。

計算型 GN2

如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

計算性能:

GN2.large 單機峰值計算能力突破 7T Flops 單精度浮點運算,0.2T Flops 雙精度浮點運算。

GN2.2xlarge 單機峰值計算能力突破 14T Flops 單精度浮點運算,0.4T Flops 雙精度浮點運算。

?如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

計算性能:

GN8.LARGE56 單機峰值計算能力突破 12 TFLOS 單精度浮點運算,47 TOPS 整數(shù)運算能力(INT8)。

GN8.7XLARGE224 單機峰值計算能力突破 48 TFLOPS 單精度浮點運算,188 TOPS 整數(shù)運算能力(INT8)。

GN8.14XLARGE448 單機峰值計算能力突破 96 TFLOPS 單精度浮點運算,376 TOPS 整數(shù)運算能力(INT8)。

渲染型 GA2

注意:

GPU 渲染型 GA2 現(xiàn)處于內測階段

?如何為深度學習選擇 GPU 服務器?_目前哪里可以租用到GPU服務器?_gpu服務器出租價格

計算性能:

單 GPU 最高可達 3.77T Flops 單精度浮點運算。

續(xù)費說明

包年包月類型 GPU 實例無法主動銷毀,到期后 7 天,系統(tǒng)將自動銷毀。

實例在到期當日關機并自動進入回收站并保留 7 個自然日,期間可選擇續(xù)費。7 個自然日后仍未續(xù)費則該實例將被銷毀。

支持在購買時設置自動續(xù)費。

建議到期前為實例進行續(xù)費,以防止其到期時關機導致服務中斷。有關續(xù)費的更多操作請參考 如何續(xù)費。

回收說明

GPU 實例回收,與云服務器 CVM 回收機制一致,具體可參考云服務器 CVM 實例回收。

上一頁12全文

非常好我支持^.^

(60) 93.8%

不好我反對

(4) 6.2%

( 發(fā)表人:彭菁 )

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關規(guī)定!

      ?