最近又讀了阿里巴巴的技術(shù)委員會的新書《彈性計(jì)算》,從序上看的確很新,2020年7月。在疫情這個(gè)年代,短時(shí)間內(nèi)出版再次證明了中國人民的偉大。關(guān)于書中的內(nèi)容,不想再多說。俺幾個(gè)小時(shí)讀下來,挑了幾個(gè)錯(cuò)別字,以后找各位大佬領(lǐng)賞了。
其中印象深刻的是,為什么有神龍裸金屬服務(wù)器,對RDMA的支持是一個(gè)關(guān)鍵的場景。在云計(jì)算中引入RDMA,目的也很明確-HPC。HPC是老黃的老巢,也是老黃現(xiàn)在整合網(wǎng)絡(luò),計(jì)算和存儲的試驗(yàn)田。有了Mellanox,ARM加持,老黃提出了自己的口號:
CPU,做業(yè)務(wù)的編排,框架
GPU,做計(jì)算
DPU,數(shù)據(jù)的搬運(yùn)和服務(wù)
不得不講,老黃的市場部很強(qiáng)大,DPU就這樣橫空出世了。對比我司萬能的P2P[1]的功能,我們就是簡單說P2P,不知道的人以為我們就是個(gè)金融片子,悲催的我司沒趕上匹凸匹的好時(shí)光。人家老黃不對稱的P2P實(shí)現(xiàn)就有一個(gè)響亮的名字,GPUDirect。同樣,老黃的Tensor Core也有一個(gè)土鱉的名字,DSP。
這里就來談?wù)勥@個(gè)RDMA,RDMA的優(yōu)勢和劣勢都很清楚。在過去的10幾年中,mellanox作為另類的以色列公司持續(xù)投入了很多年。(大部分以色列公司的套路是第一代產(chǎn)品創(chuàng)新,賣公司。公司賣不掉,第二代產(chǎn)品就SoSo了,如果有第三代產(chǎn)品,可以真接pass了)。
在Flash剛剛進(jìn)入數(shù)據(jù)中心的時(shí)候,大家都在考慮DAS到SANder問題,什么樣的網(wǎng)絡(luò)最合適。
其中試過PCIE 外接,AMD的HT,等等。就像一位做HPC出身的朋友講的一樣:“沒幾年就會冒出了一堆硬件公司,然后大家就上一把,然后大部分公司都死掉了”
因此,可以看到IB versb在2010年成為主流,在HPC中目前已經(jīng)已有疲態(tài)了,正是把這個(gè)HPC的專用技術(shù)用到hyperscale數(shù)據(jù)中心的好時(shí)機(jī)。
第一個(gè)規(guī)模使用IB而成功的案例是Oracle 的Exadata[1]
之后就是大量的SDS存儲的公司起來了。Flash+RDMA是大家的標(biāo)配。直到Microsoft在數(shù)據(jù)中心中規(guī)模部署。其實(shí)之前的RoCE本質(zhì)上還是一個(gè)channel的協(xié)議,和之前的FCOE類似,只是在RoCEv2的時(shí)候,因?yàn)镸icrosoft的加持,從真正成就了Mellanox,同時(shí)把原來最擅長存儲的Iwarp打進(jìn)了小眾市場,但是目前IBM和Netapp依然在堅(jiān)守。
原來一個(gè)Intel的網(wǎng)卡大佬就很不服氣,“我們做網(wǎng)卡快20年了,Mellanox的ethernet 網(wǎng)卡到現(xiàn)在都有很多功能不支持,但是他們咋就成了先進(jìn)技術(shù)了,成了Smartnic呢?”。這樣的話,當(dāng)年EMC也說過Fusion-io這樣的startup。
不管結(jié)果如何,Microsoft和Mellanox在Data Center Network的深度合作,讓Mellanox在25G成功上位。取代了Intel和Broadcom在高端網(wǎng)卡的江湖地位。
當(dāng)年在見識了Annapuna的EBS性能之后,我在加入新公司時(shí)就對大佬說要做RDMA,要做RoCEv2。但是大佬就是大佬,他們認(rèn)為lossless的網(wǎng)絡(luò)一直就是一個(gè)傳說。而且,那個(gè)時(shí)候AI正在風(fēng)口上??傊@個(gè)事情也讓我看清了一個(gè)事實(shí),就是Hyperscale用RDMA,只會有兩種配置:Mellanox的RDMA,以及他們自己的RDMA。
這個(gè)微軟是最先這么考慮的,他們就是認(rèn)為RDMA只有兩種。微軟內(nèi)部實(shí)現(xiàn)的RDMA的細(xì)節(jié)很少有透露,知道的大佬歡迎分享。
但是另一個(gè)大佬的AWS的RDMA就有很多細(xì)節(jié)。拿另一個(gè)常常教育我的大佬的話:" 他們想做什么都在EFA的驅(qū)動里寫著!??!“。在火焰圖流行的這個(gè)時(shí)代,靜態(tài)分析的確有點(diǎn)反人類。
比較好的是,作為HPC RDMA權(quán)威的熊貓教授率先被AWS的EFA招安,他們在SC19以及今年發(fā)表很多關(guān)于EFA的詳細(xì)信息[2]。當(dāng)然還有Annapurna CTO Nafea 同學(xué)的軟文[3]
熊貓教授的一個(gè)學(xué)生做了Azure和AWS的RDMA性能的分析,因?yàn)檫^于敏感,自己關(guān)心的人可以去了解。但是以后估計(jì)每家大廠炫耀的資本里面會很快有一個(gè):“我的RDMA是自研的,是XXXCloud特色的RDMA!”
--"老黃你怎么辦呢?"
"DPU,DPU+GPU,DPU+GPU+CPU。。。。。。。"
--"Chiplets 要不要考慮一下?"
責(zé)任編輯:lq
-
cpu
+關(guān)注
關(guān)注
68文章
11077瀏覽量
217032 -
云計(jì)算
+關(guān)注
關(guān)注
39文章
7976瀏覽量
140030 -
DAS
+關(guān)注
關(guān)注
1文章
115瀏覽量
31835
原文標(biāo)題:云計(jì)算三大神器來了!CPU、GPU、DPU!
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
硅谷GPU云服務(wù)器是什么意思?使用指南詳解
GPU加速計(jì)算平臺的優(yōu)勢
從CPU到GPU:渲染技術(shù)的演進(jìn)和趨勢

云 GPU 加速計(jì)算:突破傳統(tǒng)算力瓶頸的利刃
GPU云計(jì)算服務(wù)怎么樣
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

GPU加速云服務(wù)器怎么用的
GPU云服務(wù)器租用費(fèi)用貴嗎
《CST Studio Suite 2024 GPU加速計(jì)算指南》
如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)

評論