3 月 28 日(北京時(shí)間),NVIDIA 在美國(guó)圣何塞召開了 GTC 2018(GPU Technology Conference 2018)大會(huì),并發(fā)布了 Quadro 系列和 DGX 系列的兩款新品。
Quadro GV 100 是 NVIDIA 「專業(yè)圖形顯卡」系列的最新成員,公司 CEO 黃仁勛稱其為「世界上體積最大的 GPU」。
Quadro GV 100 擁有 5120 顆 CUDA 流處理器,640 顆 Tensor 處理器,最高可提供 14.8TFLOPS 的單精度浮點(diǎn)性能, 7.4TFLOPS 雙精度浮點(diǎn)性能;采用 32GB HBM2 顯存,顯存帶寬為 870GB/s;能夠提供 118T 的深度學(xué)習(xí)性能。
接口方面,Quadro GV 100 配備 4 個(gè) Display 1.4 接口,可以對(duì)接最多 4 個(gè) 4096 x 2160 分辨率,120Hz 刷新率的顯示器;或 4 個(gè) 5120 x 2880 分辨率, 60Hz 刷新率的顯示器;或 2 個(gè) 7680 x 4320 分辨率,60Hz 刷新率的顯示器。
DGX-2 是一臺(tái)專門用于人工智能訓(xùn)練和/或推理任務(wù)的桌面計(jì)算機(jī),是 NVIDIA 的第二代 DGX「小型超級(jí)計(jì)算機(jī)」,采用新的 NVSwitch 技術(shù)并聯(lián) 16 塊 32GB 顯存的 Tesla V100 計(jì)算卡,以及兩枚英特爾 Xeon Platinum 處理器 ,擁有 1.5TB 系統(tǒng)內(nèi)存,與 30TB 的 NVMe SSD 作為存儲(chǔ)空間,顯存容量則為 512GB HBM2,可以提供最高 2petaFLOPS 的浮點(diǎn)性能。
這是它的內(nèi)部結(jié)構(gòu):
你可以看到,在圖中 1 和 2 的位置看起來(lái)是很多塊芯片。其實(shí)他們是英偉達(dá)的 Tesla V100 Volta 架構(gòu) GPGPU,單枚算力達(dá)到雙精度 7.8 TFLOPS(萬(wàn)億次浮點(diǎn)計(jì)算)、單精度 15.7TFLOPS、深度學(xué)習(xí) 125TFLOPS。
而DGX-2 單機(jī)箱安裝了 16 枚 V100,總體性能達(dá)到了驚人的 2PFLOPS——業(yè)界第一臺(tái)超過(guò)千萬(wàn)億次浮點(diǎn)計(jì)算能力的單機(jī)箱計(jì)算機(jī)——稱它為超算或許并不浮夸。
但 DGX-2 的算力并非靠堆疊出來(lái),如果它們之間不能實(shí)現(xiàn)高帶寬的數(shù)據(jù)互通則無(wú)意義。
時(shí)間倒回兩年前,英偉達(dá)有意在深度學(xué)習(xí)的設(shè)備市場(chǎng)上對(duì)英特爾發(fā)起直接挑戰(zhàn),推出了 Pascal 架構(gòu)的 P100 GPGPU。在當(dāng)時(shí),主流服務(wù)器 PCIe 總線接口的帶寬和時(shí)延,已經(jīng)無(wú)法滿足英偉達(dá)的需求。于是它們開發(fā)出了一個(gè)新的設(shè)備內(nèi)互聯(lián)標(biāo)準(zhǔn),叫做 NVLink,使得帶寬達(dá)到了 300 GB/s。一個(gè) 8 枚 GPGPU 的系統(tǒng)里,NVLink 大概長(zhǎng)這樣:
然而 NVLink 的標(biāo)準(zhǔn)拓?fù)浣Y(jié)構(gòu)在理論上最多支持 8 枚 顯卡,仍不足以滿足英偉達(dá)對(duì)于新系統(tǒng)內(nèi)置更多顯卡的需要。于是在 NVLink 的基礎(chǔ)上,英偉達(dá)開發(fā)出了一個(gè)名專門在顯卡之間管理 NVLink 任務(wù)的協(xié)處理器,命名為 NVSwitch。這個(gè)元件在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實(shí)現(xiàn) NVLink 互通,總帶寬超過(guò)了 14.4 TB。
這一數(shù)字創(chuàng)造了桌面級(jí)電腦內(nèi)總線接口帶寬的新高,但實(shí)現(xiàn)它的目的并非跑分,而在于 DGX-2 可以 1)更快速地訓(xùn)練一個(gè)高復(fù)雜度的神經(jīng)網(wǎng)絡(luò),或 2)同時(shí)訓(xùn)練大量不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。
N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構(gòu)在這個(gè)依核心數(shù)量論高下的時(shí)代顯得超凡脫俗——?jiǎng)虞m幾百、上千個(gè) CUDA 核心,令人不明覺厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數(shù)達(dá)到了瘋狂的 81,920 核心。這一事實(shí),結(jié)合 NVSwitch 技術(shù)、512GB 現(xiàn)存、30TB NVMe 固態(tài)硬盤、兩枚至強(qiáng) Platimum CPU 和高達(dá) 1.5TB 的主機(jī)內(nèi)存——
黃仁勛用 GPU 深度學(xué)習(xí)里程碑式的杰作 AlexNet 來(lái)舉例。研究者 Alex Krizhevsk 用了 6 天,在英偉達(dá) GPU 上訓(xùn)練 AlexNet,這個(gè)研究首次利用梯度下降法和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算機(jī)圖像識(shí)別,顯著優(yōu)于此前的手調(diào)參數(shù)法,拿下了 ImageNet 圖像識(shí)別競(jìng)賽冠軍。AlexNet 讓 Alex 世界聞名,這 6 天可以說(shuō)值了。
然而,“同樣的 8 層卷積神經(jīng)網(wǎng)絡(luò),我用 DGX-2 跑了一下,只用 18 分鐘就達(dá)到了同樣的結(jié)果,”黃仁勛說(shuō),“五年,500倍的進(jìn)步?!?/p>
這說(shuō)明了很多東西。其中有一條:在這五年里,英偉達(dá)的技術(shù)進(jìn)步節(jié)奏已經(jīng)無(wú)法用摩爾定律來(lái)描述了。
Nvidia DGX-2 可提供 10 倍于上一代 Nvidia DGX-1 的深度學(xué)習(xí)性能,整體功耗為為 10KW,重 350 磅,售價(jià)僅為 39.9 萬(wàn)美元(約合 250 萬(wàn)人民幣)。
除了上述兩款重磅產(chǎn)品外,在今天的GTC 2018上,黃仁勛還宣布了英偉達(dá)的以下進(jìn)展:
1、推出光線追蹤RTX技術(shù)(ray-tracing),能夠提供電影級(jí)畫質(zhì)的實(shí)時(shí)渲染,渲染出逼真的反射、折射和陰影畫面。這一技術(shù)由英偉達(dá)在前不久的GDC全球游戲開發(fā)者大會(huì)上展示過(guò);
2、推出了第一款專用于醫(yī)療圖像處理的超級(jí)電腦Clara;
3、推出新版機(jī)器學(xué)習(xí)應(yīng)用平臺(tái)TensorRT 4,支持INT8與FP16精度,并與谷歌合作,將其整合進(jìn)AI開源框架谷歌TensorFlow 1.7中;
4、宣布打造下一代名為DRIVE Orin的自動(dòng)駕駛芯片,但除了名字外沒有透露更多信息;
5、正式推出3D仿真自動(dòng)駕駛測(cè)試平臺(tái)DRIVE Constellation,這一測(cè)試平臺(tái)英偉達(dá)在CES上展示過(guò),能夠幫助自動(dòng)駕駛系統(tǒng)提升“姿勢(shì)水平”;
6、推出ISAAC機(jī)器人仿真訓(xùn)練平臺(tái)SDK,將訓(xùn)練機(jī)器人的技術(shù)開放出去;
此外英偉達(dá)還宣布將把它的開源深度學(xué)習(xí)架構(gòu)(NVDLA)帶到ARM即將推出的項(xiàng)目 Trillium 平臺(tái)上,NVDLA將幫助開發(fā)人員加速推理過(guò)程。英偉達(dá)通常依賴于自己的封閉平臺(tái),不過(guò),要想在移動(dòng)物聯(lián)網(wǎng)設(shè)備方面發(fā)揮影響,英偉達(dá)有必要和在該領(lǐng)域占主導(dǎo)地位的ARM合作。
黃仁勛演講內(nèi)容:
重現(xiàn)照相質(zhì)量的3D世界一直以來(lái)是3D圖學(xué)的終極目標(biāo),真實(shí)世界中光線來(lái)自四面八方,為了要重現(xiàn)真實(shí)世界,就必須把各個(gè)光線的來(lái)源綜合計(jì)算,復(fù)雜度極高,傳統(tǒng)GPU可能一秒只能計(jì)算一格畫面,但我們今天利用新技術(shù),可以達(dá)到每秒60張畫面,這是非常不可思議的突破。
我們過(guò)去利用了許多不同的圖學(xué)技巧,不論是要降低計(jì)算負(fù)擔(dān),或者是加速執(zhí)行,但仍然很難真實(shí)重現(xiàn)照片畫質(zhì)。
圖丨黃仁勛演講現(xiàn)場(chǎng)(圖片來(lái)源:DT君)
但決定畫面真實(shí)與否的最終條件,往往是畫面中的小細(xì)節(jié),比如說(shuō)光線和物件之間的折射、散射、漫射、透射與反射等等,通過(guò)光線追蹤技術(shù),我們可以把真實(shí)世界的畫面成像原理搬到3D圖學(xué)當(dāng)中,并且利用我們的GPU技術(shù)架構(gòu)來(lái)完成。
要考慮到不同的物件會(huì)吸收光線、折射光線的程度不同,比如說(shuō)玻璃、塑膠,甚至我們的皮膚,都會(huì)一定程度的吸收光線,因此我們利用了subsurface scattering來(lái)達(dá)到這樣的效果,這在一般計(jì)算機(jī)圖學(xué)中是非常難以達(dá)到的效果,但通過(guò)光線追蹤技術(shù),我們可以輕易的達(dá)到。
黃仁勛用一段星際大戰(zhàn)影片來(lái)展示光線追蹤的效果,其效果幾乎和真實(shí)的電影畫面毫無(wú)差異,用肉眼幾乎看不出來(lái)是計(jì)算機(jī)計(jì)算的影片。尤其是在帝國(guó)士兵身上的鎧甲效果,反射光源后,和周圍環(huán)境進(jìn)行多次折射和反射,以及光線的吸收,最終形成非常真實(shí)的畫面,幾乎和電影畫面沒有差別。
圖丨黃仁勛用星際大戰(zhàn)影片來(lái)展示光線追蹤的效果(來(lái)源:DT君)
這樣的畫面是在DGX超級(jí)計(jì)算平臺(tái),通過(guò)2塊Volta繪圖卡達(dá)成。這是世界首次以實(shí)時(shí)呈現(xiàn)光線追蹤的效果。
在電影產(chǎn)業(yè)中,其實(shí)相關(guān)與光線處理相關(guān)的圖學(xué)技術(shù)都被使用,當(dāng)你看到廣告、影片中,很多憑空創(chuàng)造出來(lái)的產(chǎn)物,基本上都是利用GPU創(chuàng)造出來(lái)的,而GPU每年都創(chuàng)造了超過(guò)10億張這些數(shù)字創(chuàng)作。通過(guò)GPU計(jì)算,我們讓產(chǎn)生這些圖像的成本和需要的時(shí)間降到最低,我們可以說(shuō),用越多GPU,你越省錢!
圖丨The more GPU you buy,the more you save
如今,通過(guò)使用 Quadro GV100,我們可以在單一機(jī)架中取代傳統(tǒng)龐大耗電的render farm,目前主要電影創(chuàng)作者都逐漸往這個(gè)方向前進(jìn),比如說(shuō) Pixar,就利用了這樣的架構(gòu)來(lái)產(chǎn)生他們的電影畫面。
而考慮到世界上有多少電影工作室正在從事電影相關(guān)創(chuàng)作,我們可以考慮一下這個(gè)市場(chǎng)規(guī)模會(huì)有多大,牽涉到多大的金額,天文數(shù)字。
GPU推動(dòng)了AI產(chǎn)業(yè)的發(fā)展,但AI產(chǎn)業(yè)也同時(shí)推動(dòng)了GPU的進(jìn)步,不只是GPU架構(gòu)本身,還有相對(duì)應(yīng)的開發(fā)環(huán)境與軟件生態(tài),考慮到目前AI生態(tài)越來(lái)越蓬勃發(fā)展,我們可以說(shuō)現(xiàn)時(shí)是個(gè)最佳的時(shí)間點(diǎn),是讓產(chǎn)業(yè)改頭換面,前進(jìn)到AI的領(lǐng)域中。
圖丨各種各樣的AI Network正在涌現(xiàn)
而為了滿足這些開發(fā)者的需求,超過(guò)800萬(wàn)個(gè)開發(fā)者下載了我們的CUDA工具,他們創(chuàng)造出來(lái)的計(jì)算效能超過(guò)370PETAFLOPS。
這些高性能計(jì)算很大程度都是要用來(lái)改變世界,包括研究疾病、醫(yī)療、氣候變遷,甚至了解HIV的結(jié)構(gòu)。
我們拿2013年的GPU架構(gòu)和今年推出的最新產(chǎn)品相比,我們的GPU每隔五年就達(dá)到10倍的效能成長(zhǎng),傳統(tǒng)半導(dǎo)體有摩爾定律,但是在CUDA GPU中,我們創(chuàng)造了不同的定律,不只是硬件本身,我們也針對(duì)算法不斷的改善,總和以上的努力,我們才能達(dá)到這樣的成就。
傳統(tǒng)服務(wù)器的龐大、耗電,通過(guò)我們的GPU有了根本性的改變,我們可以說(shuō),你們?cè)谟?jì)算領(lǐng)域用了越多的GPU,其實(shí)就是越省錢!
在醫(yī)療圖像方面,很多疾病是越早偵測(cè)就越有機(jī)會(huì)治愈,但如何偵測(cè)疾病,視覺化的身體掃描技術(shù),包括超音波、斷層掃描等,如果能夠利用3D技術(shù)重建掃描結(jié)果,我們可以看到更真實(shí)的結(jié)果,而不是能依靠不明顯的陰影來(lái)判斷病征。
圖丨英偉達(dá)在醫(yī)療上的合作伙伴
通過(guò)遠(yuǎn)端與醫(yī)療圖像設(shè)備連線,這些設(shè)備產(chǎn)生的圖形實(shí)時(shí)反饋到我們的CUDA服務(wù)器中,并實(shí)時(shí)產(chǎn)生這些清晰的動(dòng)態(tài)圖像,通過(guò)深度學(xué)習(xí),我們可以輕易判讀這些掃描的結(jié)果,并還原到我們?nèi)庋劭梢院?jiǎn)單判讀的3D立體型態(tài)。通過(guò)把這些服務(wù)器虛擬化,利用AI來(lái)后處理這些醫(yī)學(xué)圖像,我們可以創(chuàng)造出更容易判讀,且更不容易誤判的醫(yī)療圖像。
深度學(xué)習(xí)可以說(shuō)重新塑造了我們現(xiàn)在的AI應(yīng)用,從過(guò)去厚重、龐大、笨拙的印象,變呈現(xiàn)在輕巧、快速、聰明的結(jié)果。從芯片設(shè)計(jì)者,到互聯(lián)架構(gòu),到軟件設(shè)計(jì)者,再到OEM廠商等,不論你在供應(yīng)鏈中的哪個(gè)環(huán)節(jié),我們都可以全力支持。
客戶想要達(dá)成不同的計(jì)算目標(biāo),不論是購(gòu)買成品,或者是自行架設(shè),我們都能滿足客戶的需求。
近十年從機(jī)器學(xué)習(xí)到深度學(xué)習(xí),從最早的模型,衍生出無(wú)數(shù)種不同的神經(jīng)網(wǎng)絡(luò)、模型,隨著應(yīng)用的增加,也越來(lái)越復(fù)雜。
當(dāng)然,為了要應(yīng)付這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算,現(xiàn)有的小型GPU其實(shí)很難以負(fù)擔(dān),但我們從不同的方向去思考,如果把個(gè)別的GPU通過(guò)高效能的互聯(lián)結(jié)構(gòu)結(jié)合起來(lái),形成一個(gè)巨大的GPU,這個(gè)GPU上面可以創(chuàng)造出過(guò)去不可能達(dá)成的計(jì)算成果。
圖丨用NVSwitch互聯(lián)16個(gè)GPU的DXG2 server
我們通過(guò)NVSwitch達(dá)成了這個(gè)目的,通過(guò)這個(gè)互聯(lián)架構(gòu),我們?cè)贒XG-2 server中互聯(lián)了16顆GPU,形成一個(gè)龐大的GPU架構(gòu),通過(guò)最新的NVLink,技術(shù),GPU和GPU之間可以用比PCIE快20倍的效率互相溝通。這個(gè)互聯(lián)結(jié)構(gòu)不是網(wǎng)絡(luò)狀結(jié)構(gòu),而是速度更快的交換器結(jié)構(gòu),通過(guò)這樣的互聯(lián)設(shè)計(jì),我們?cè)趩我唤Y(jié)構(gòu)中實(shí)現(xiàn)了2PETAFLOP的驚人效能。而且只需要2000W的功耗。其功耗性能比可說(shuō)遠(yuǎn)遠(yuǎn)超出目前的超級(jí)計(jì)算機(jī)。
圖丨黃仁勛和世界上最大的GPU合影
現(xiàn)在新的AI芯片把云計(jì)算、深度學(xué)習(xí)看得太簡(jiǎn)單,要考慮的因素太多,包括延遲、學(xué)習(xí)速率以及準(zhǔn)確度等等,并不是在機(jī)架中塞進(jìn)幾個(gè)ASIC芯片就能夠輕易解決的工作。我們要把盡可能快速的產(chǎn)生模型,盡可能讓模型更小,盡可能確保正確的結(jié)果輸出,背后的最大功臣就是開發(fā)工具。繼去年針對(duì)推理大幅進(jìn)化的TensorRT3之后,我們現(xiàn)在推出了最新的TensorRT 4,支持更多主流框架,也更能把不同的神經(jīng)網(wǎng)絡(luò)部署到云服務(wù)器當(dāng)中。這個(gè)版本我們又更加強(qiáng)化了推理性能。
通過(guò)TensorRT、NCCL和cuDNN,以及面向機(jī)器人的全新Isaac軟件開發(fā)套件,基于GPU的計(jì)算生態(tài)也更加完整。此外,通過(guò)與領(lǐng)先云服務(wù)提供商的密切合作,各大主流深度學(xué)習(xí)框架都在持續(xù)優(yōu)化,以充分利用NVIDIA的GPU計(jì)算平臺(tái)。
NVIDIA新推出的DGX-2系統(tǒng)通過(guò)借鑒NVIDIA為所有層級(jí)的計(jì)算堆棧開發(fā)的各種業(yè)界領(lǐng)先的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)了每秒2千萬(wàn)億次浮點(diǎn)運(yùn)算的里程碑式突破。
圖丨黃仁勛演講
DGX-2是首款采用NVSwitch的系統(tǒng),其中采用的16個(gè)GPU均共享統(tǒng)一的內(nèi)存空間。這讓開發(fā)者獲得了相應(yīng)的深度學(xué)習(xí)訓(xùn)練能力,以處理最大規(guī)模的數(shù)據(jù)集和最復(fù)雜的深度學(xué)習(xí)模型。
DGX-2能夠在不到兩天的時(shí)間內(nèi)完成對(duì)FAIRSeq的訓(xùn)練,F(xiàn)AIRSeq是一種采用最新技術(shù)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,其性能相較于去年9月份推出的基于Volta架構(gòu)的DGX-1提高了10倍。
我們?cè)诖艘惨纪瞥鯠RIVE Constellation計(jì)算平臺(tái)。該平臺(tái)基于兩個(gè)不同的服務(wù)器,第一臺(tái)服務(wù)器運(yùn)行DRIVE Sim軟件來(lái)模擬自動(dòng)駕駛汽車的傳感器,例如攝像頭、LiDAR和雷達(dá),第二臺(tái)則包括英偉達(dá)強(qiáng)大的Drive Pegasus自駕車AI計(jì)算機(jī),運(yùn)行完整的自駕車軟件堆棧和處理過(guò)程,就像駕駛汽車的傳感器一樣。
通過(guò)虛擬仿真,人們可以通過(guò)測(cè)試數(shù)十億英里的自定義場(chǎng)景和罕見的場(chǎng)景案例來(lái)增強(qiáng)算法的穩(wěn)健性,最終所花的時(shí)間和成本只是在真實(shí)物理道路上需要的一小部分。
-
芯片
+關(guān)注
關(guān)注
462文章
53193瀏覽量
454041 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4819瀏覽量
106130 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5432瀏覽量
108355
原文標(biāo)題:剛剛Nvidia發(fā)布僅售250萬(wàn)元的超級(jí)怪獸DGX-2|附黃仁勛演講實(shí)錄
文章出處:【微信號(hào):eetop-1,微信公眾號(hào):EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
奧比中光旗下新拓三維發(fā)布兩款3D掃描雙旗艦新品
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)
NVIDIA發(fā)布AI優(yōu)先DGX個(gè)人計(jì)算系統(tǒng)
紫光閃存推出兩款PCIe 5.0固態(tài)硬盤
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)

研華兩款新品榮獲2025年德國(guó)iF設(shè)計(jì)大獎(jiǎng)
NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

LG UltraGear系列職業(yè)電競(jìng)顯示器新品發(fā)布
華碩發(fā)布兩款搭載驍龍X平臺(tái)的全新AI PC
三星Galaxy S25系列中國(guó)發(fā)布會(huì)將于2月11日舉行
OPPO兩款新機(jī)成功入網(wǎng)
鼎陽(yáng)科技銀河系列三款高端射頻新品重磅發(fā)布

評(píng)論