比40臺(tái)基于GPU的服務(wù)器更牛的是什么?一臺(tái)有40個(gè)GPU的服務(wù)器!來自伊利諾伊州立大學(xué)計(jì)算機(jī)工程副教授及其團(tuán)隊(duì)將于2月,為包含多達(dá)40個(gè)GPU的晶圓級計(jì)算機(jī)提供案例。這個(gè)多處理器“怪物”將計(jì)算速度提高了近19倍,并將能耗和信號(hào)延遲的總和降低了140倍以上。
搭載40個(gè)GPU的服務(wù)器,就問你怕不怕!
早在20世紀(jì)80年代,并行計(jì)算先驅(qū)Gene Amdahl就策劃了一項(xiàng)加速大型機(jī)計(jì)算的計(jì)劃:一種硅晶片大小的處理器。通過將大部分?jǐn)?shù)據(jù)保存在處理器本身,而不是將其通過電路板傳輸?shù)絻?nèi)存和其他芯片上,計(jì)算速度會(huì)更快,能源效率也會(huì)更高。
Amdahl從風(fēng)投那里獲得了2.3億美元的投資,這在當(dāng)時(shí)是最多的。而后他創(chuàng)立了Trilogy Systems公司,將自己的夢想變成了現(xiàn)實(shí)。
這是“晶圓級集成”的首次商業(yè)嘗試,結(jié)果成了一場災(zāi)難。
伊利諾伊大學(xué)厄巴納-香檳分校和加州大學(xué)洛杉磯分校的工程師們認(rèn)為,現(xiàn)在是時(shí)候再嘗試一次了。
在2月即將舉行的IEEE高性能計(jì)算機(jī)體系結(jié)構(gòu)國際研討會(huì)上,伊利諾伊州立大學(xué)計(jì)算機(jī)工程副教授Rakesh Kumar及其合作者將為包含多達(dá)40個(gè)GPU的晶圓級計(jì)算機(jī)提供案例。
這個(gè)多處理器“怪物”將計(jì)算速度提高了近19倍,并將能耗和信號(hào)延遲的總和降低了140倍以上。
Kumar表示:“我們試圖解決的一個(gè)大問題是計(jì)算單元之間的通信開銷。”
基于保證質(zhì)量的普通尺寸芯片,尋找連接技術(shù)是關(guān)鍵
超級計(jì)算機(jī)通常將應(yīng)用程序分布在數(shù)百個(gè)GPU上,這些GPU位于不同的印刷電路板上,并通過長途數(shù)據(jù)鏈路進(jìn)行通信。
與芯片本身內(nèi)部的互連相比,這些鏈路吸收能量并且速度慢。更重要的是,由于芯片和印刷電路板的機(jī)械特性之間不匹配,處理器必須保存在嚴(yán)格限制其可以使用的輸入和輸出數(shù)量的封裝中。
因此,將數(shù)據(jù)從一個(gè)GPU轉(zhuǎn)移到另一個(gè)GPU需要大量的開銷。
所需要的是GPU模塊之間的連接,這些連接與芯片上的互連一樣快,低能耗且豐富。如此快速的連接將把這40個(gè)GPU集成到一起,成為一個(gè)巨大的GPU。
一種解決方案是:使用標(biāo)準(zhǔn)的芯片制造技術(shù)在同一塊硅片上構(gòu)建所有40個(gè)GPU,并在它們之間添加互連。
但正是這種思路扼殺了Amdahl在20世紀(jì)80年代的嘗試。
當(dāng)你在制作一個(gè)芯片時(shí),總是有出現(xiàn)缺陷的可能性,而出現(xiàn)缺陷的可能性會(huì)隨著芯片的大小而增加。如果你的芯片大小與餐盤一樣大小,幾乎可以保證在它上面有一個(gè)系統(tǒng)“殺戮”的缺陷。
因此,從已經(jīng)通過質(zhì)量測試的普通尺寸的GPU芯片開始,尋找一種更好地連接它們的技術(shù),是更有意義的。
這個(gè)團(tuán)隊(duì)相信他們的silicon interconnect fabric(SiIF)的技術(shù),用硅代替電路板,芯片與電路板之間沒有機(jī)械上的不匹配,因此不需要芯片封裝。
SiIF晶圓上有一層或多層2微米寬的銅互連,間距最小可達(dá)4微米。這相當(dāng)于芯片上最高級別的互連。
在要插入GPU的點(diǎn)中,硅片上的銅柱間距約為5微米。GPU在這些上方對齊,按下并加熱。
這種成熟的工藝稱為熱壓結(jié)合(thermal compression bonding),使銅柱與GPU的銅互連線融合。伊利諾斯州和加州大學(xué)洛杉磯分校的研究人員表示,窄小的互連和緊密的間距意味著你可以在一塊芯片上壓縮至少25倍的輸入和輸出。
Kumar和他的同事在設(shè)計(jì)晶圓級GPU時(shí),必須考慮許多限制因素,包括可以從晶圓上移除多少熱量、晶圓處理器如何能夠最快速地相互通信,以及如何在整個(gè)晶圓上傳輸電力。
結(jié)果證明,功率是其中一個(gè)較為有限的約束條件。
在芯片的標(biāo)準(zhǔn)1伏電源下,SiIF晶圓片的布線將消耗整整2千瓦。相反,Kumar的團(tuán)隊(duì)將電壓供應(yīng)提高到48伏,減少了所需的電流,從而減少了電力損失。這種解決方案需要在晶圓片周圍分布電壓調(diào)節(jié)器和信號(hào)調(diào)理電容器,從而占用原本可以用于更多GPU模塊的空間。
盡管如此,在一個(gè)設(shè)計(jì)中,他們還是能夠擠進(jìn)41個(gè)GPU。他們測試了這種設(shè)計(jì)模擬的情況,發(fā)現(xiàn)它在消耗比40臺(tái)標(biāo)準(zhǔn)GPU服務(wù)器更少的能量的情況下,加快了計(jì)算和數(shù)據(jù)移動(dòng)。
SiIF晶圓級GPU克服了早期晶圓級工作無法解決的問題
Horst技術(shù)咨詢公司的Robert W. Horst說:“SiIF晶圓級GPU克服了早期晶圓級工作無法解決的問題?!?/p>
二十多年前,在Tandem Computer公司,Horst參與開發(fā)了唯一一款商業(yè)化的晶圓級產(chǎn)品——一種在證券交易所取代高速硬盤的內(nèi)存系統(tǒng)。他預(yù)計(jì)降溫將是最具挑戰(zhàn)性的方面之一。“如果你在這么近的距離內(nèi)加入這么多邏輯,功耗可能會(huì)相當(dāng)高,”他說。
Kumar表示,該團(tuán)隊(duì)已經(jīng)開始著手構(gòu)建一個(gè)晶圓級原型處理器系統(tǒng)。
-
芯片
+關(guān)注
關(guān)注
460文章
52520瀏覽量
440980 -
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131250 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
9795瀏覽量
87997
原文標(biāo)題:ISU教授瘋狂實(shí)驗(yàn):搭建40個(gè)GPU晶圓級計(jì)算機(jī),能耗、延遲降低140倍!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
硅谷GPU云服務(wù)器是什么意思?使用指南詳解
高性能GPU服務(wù)器推薦
影響服務(wù)器GPU租用價(jià)格的因素
GPU加速云服務(wù)器怎么用的
GPU云服務(wù)器租用費(fèi)用貴嗎
GPU云服務(wù)器租用多少錢
租用GPU服務(wù)器一般多少錢
GPU服務(wù)器和傳統(tǒng)的服務(wù)器有什么區(qū)別
GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

GPU高性能服務(wù)器配置
多個(gè)網(wǎng)站放在同一臺(tái)服務(wù)器ip有什么影響?
GPU云服務(wù)器架構(gòu)解析及應(yīng)用優(yōu)勢
主機(jī)托管是多個(gè)用戶共享一臺(tái)服務(wù)器嗎?有什么優(yōu)勢
gpu服務(wù)器與cpu服務(wù)器的區(qū)別對比,終于知道怎么選了!
算力服務(wù)器為什么選擇GPU

評論