日前,芯片初創(chuàng)企業(yè)Ampere Computing 對外發(fā)布了其全新 AmpereOne系列處理器。
據(jù)介紹,該處理器使用臺積電5nm工藝制造,擁有多達 192 個單線程 Ampere 核,內核數(shù)量為業(yè)界最高。此外,該芯片還增加了 8 通道的 DDR5 內存和128 通道的 PCIe Gen5 IO,搭配網(wǎng)格擁塞管理(Mesh Congestion Management)、細粒度電源管理(Fine Grained Power Management)和內存標簽(Memory Tagging)等功能,為高性能、高利用率的多用戶環(huán)境(如云)提高了性能一致性、可管理性和安全性。
Ampere首席產品官 Jeff Wittich透露:“AmpereOne 能為 Ampere 客戶的云原生工作負載提供最高的整體性能、可擴展性和密度。此外,得益于低延遲和高吞吐量,Ampere 云原生處理器在 AI 推理方面較其他 CPU 有 2 倍以上的性能優(yōu)勢?!?/p>
在筆者看來,AmpereOne能獲得這樣的成就,除了上述配置拉滿的規(guī)格外,還與公司在這一代產品上采用了自研內核以及Chiplet設計有著莫大的關系。
01
自研內核加持
如下圖所示,外媒nextplatform之前根據(jù)公開信息整理了Ampere Computing 的路線圖,我們可以看到,在AmpereOne之前,Ampere Computing公司打造的云原生處理都是直接采用的Arm公司內核N1內核。但來到了AmpereOne,公司則直接推出了自研的Ampere內核。

“Ampere 的自研云原生核(Custom Cloud Native Core)是打破傳統(tǒng)計算限制的下一步,目前業(yè)內沒有其他可以與之相匹敵的 CPU 產品,它可助力實現(xiàn)單機架性能最大化的云規(guī)模(Cloud Scale)?!盝eff Wittich強調。

他進一步指出,這個基于自研內核打造的產品與之前的產品不會存在任何的兼容問題,因為AmpereOne系列處理器和Ampere Altra系列的處理器都是基于ARM ISA的。換而言之,所有能夠在Ampere Altra系列處理器上運行的代碼,在全新的AmpereOne系列處理器上運行也沒有問題,不需要任何改動。
“我們甚至看到有很多的用戶在相同環(huán)境里同時運行Ampere Altra系列處理器和 AmpereOne系列處理器,因為同樣的代碼可以在兩個產品系列上面都能運行,在Ampere Altra系列處理器執(zhí)行的工作也能夠在AmpereOne系列處理器上執(zhí)行?!盝eff Wittich接著說。
從Ampere Computing 提供的數(shù)據(jù)我們可以看到,自定義的內核依舊采用單線程的設計,這和公司一直堅持的理念是一致的,那就是通過單線程提供確定性性能和絕對隔離。Jeff Wittich在回答問題的時候也指出,采用單路的服務器,復雜程度降低了,性能卻提升了,性價比也更高,因此有越來越許多的用戶轉向擁抱單路服務器。
具體到每個核心的配置上,據(jù)介紹,該芯片每個核心都有 64 KB 的 L1 數(shù)據(jù)緩存和16 KB的 L1 指令緩存。此外,每個內核都有一個專用的 2 MB L2 緩存,這個數(shù)據(jù)是之前 Ampere Altra 和 Ampere Altra Max CPU 中使用的 Neoverse N1 和 N1+ 內核上的 L2 緩存的兩倍。按照這個數(shù)據(jù),意味著AmpereOne系列處理器上擁有 384 MB 的二級緩存。
在Ampere Computing的介紹中,并沒有披露公司第一個自主研發(fā)內核的每時鐘指令 (IPC) 增益,但強調了公司在這方面具有功率效率和面積效率方面的改進。他們分享說到,在云環(huán)境中運行虛擬機(VM),與96核的AMD Genoa或者60核的英特爾Sapphire Rapids對比,AmpereOne每機架運行的虛擬機數(shù)量是AMD Genoa的2.9倍,是英特爾Sapphire Rapids的4.3倍。

基于公司卓越的硬件設計團隊,再借助對初創(chuàng)公司OnSpecta的收購獲得的技術和人才,Ampere Computing這款全新產品在AI性能上的表現(xiàn)也很出色。據(jù)介紹,在生成式AI方面,相比AMD Genoa,AmpereOne可每秒多提供2.3倍的幀數(shù)(圖像),在運行穩(wěn)定的擴散模型中勝出。此外,在運行DLRM模型的推薦系統(tǒng)中,通過AmpereOne響應的查詢數(shù)量是AMD Genoa的每秒查詢數(shù)量的兩倍多。這足以證明該芯片在AI方面的實力。

“通過Ampere云原生處理器進行AI推理,可獲得卓越的可擴展性和性能,也打破了效率的瓶頸,這正是令云服務提供商(CSPs)困擾的問題,因為使用GPU會帶來極高的能耗,而且容量擴展會受到制約,可部署的服務器數(shù)量也會受到限制。而Ampere的云原生處理器通過提供卓越的性能和能效,恰好能夠解決這些行業(yè)痛點,尤其是對于AI推理。”Jeff Wittich說。
02
Chiplet設計助攻
對于AmpereOne處理器來說,另一個值得關注的亮點在于其采用了Chiplet的設計。
眾所周知,在過去幾年里,因為受到制程工藝和成本的限制,大型芯片在過去幾年逐漸從傳統(tǒng)的單芯片模式轉向了Chiplet模式,如AMD和Intel就是其中的佼佼者,就連一直被看作單芯片設計最堅定的支持者英偉達,也傳言將要投身Chiplet設計,由此可見這個并不算新的技術在提高芯片性能中的重要性。
而在Jeff Wittich看來,Ampere在新芯片中為大量采用Chiplet設計,這帶來了多方面的優(yōu)勢,其中第一點就是能夠有更高的靈活度,第二點就是加快了整個芯片設計周期。
除了以上兩點外,在整個AmpereOne系列處理器中采用Chiplet的設計,其實是為了更好地服務我們的用戶。因為Ampere在Chiplet設計中實現(xiàn)了特定的拓撲結構,以及單一的計算裸片(里邊分布著全部的內核),同時還有單一大網(wǎng)格結構,這樣就可以助力客戶提供平衡的高性能,反觀其他設計,則要求數(shù)據(jù)從一個計算的Chiplet傳輸?shù)搅硪粋€Chiplet,這樣就會帶來延遲的問題。
Jeff Wittich舉例說道,通過將System Level Cache放在了計算芯片(Compute Die)上,公司能夠幫助降低核與系統(tǒng)級緩存(System Level Cache,SLC)之間的延遲。這也是Ampere把極大的Mesh放在單個的計算芯片上的原因——可以幫忙避免造成訪問時間(Access Time)和系統(tǒng)級緩存之間的不平衡,或者造成某些核無法訪問系統(tǒng)級緩存。
“所以我們實現(xiàn)了最佳的Chiplet架構之后,產品上市的速度就會更快。除此之外,我們的芯片還可以提供更高的可擴展性,并提供人們所期待的現(xiàn)代云原生產品的最佳性能——也就是我們基于創(chuàng)新所打造出來的AmpereOne系列處理器?!盝eff Wittich說。他進一步出,Ampere已經(jīng)在高性能、高效率的云原生處理器中占領了一席之地,并一直引領市場,公司也相信會持續(xù)擴大這方面的領先優(yōu)勢。
正如該公司創(chuàng)始人Renée James所說:“我們的行業(yè)正在迎來一個全新的時刻,我們也應當擁抱變革。它將決定著行業(yè)未來的增長。云技術開創(chuàng)了一個全新的世界和新的軟件開發(fā)方法。微處理器也該做同樣的事情。”
編輯:黃飛
?
電子發(fā)燒友App






















評論