2018年10月,Arm首次宣布推出面向云到邊緣基礎(chǔ)設(shè)施產(chǎn)品Neoverse及其初步路線圖,并承諾平臺(tái)效能30%的年增長(zhǎng)率指標(biāo)將持續(xù)到2022年及以后。
根據(jù)Neoverse平臺(tái)PPA設(shè)計(jì)原則,N系列強(qiáng)調(diào)性能、功率、面積得到同等考量,擅長(zhǎng)可擴(kuò)展;E系列主要關(guān)注效率,對(duì)于網(wǎng)絡(luò)流量和數(shù)據(jù)應(yīng)用程序非常有效,在功耗和面積的縮減上進(jìn)行優(yōu)化;V系列旨在提供最佳性能,需要添加更大的緩存、窗口和隊(duì)列,相對(duì)來(lái)說(shuō)會(huì)消耗更多面積和功耗。如果客戶更看重線程需求,N系列就比較合適,假若客戶需要高性能計(jì)算工作負(fù)載,V系列就能提供更大的價(jià)值,這完全取決于客戶在功耗、性能、面積上的需求與配置。
圖1:Neoverse平臺(tái)PPA設(shè)計(jì)原則
最早的“Cosmos”平臺(tái)基于16nm工藝,采用A72、A75核心,在當(dāng)時(shí)公布的路線圖中,Arm就提出了每年每代產(chǎn)品30%的性能提升目標(biāo)。2019年初,N1和E1平臺(tái)公布,相比“Cosmos”,N1單線程性能提升了60%,超出預(yù)期一倍,云端負(fù)載性能提升2.5倍;E1吞吐量性能提升超過(guò)2.7倍,吞吐效率提升超2.4倍,計(jì)算性能提升超2倍。
圖2:2019年推出的N1平臺(tái)相比“Cosmos”單線程性能提升了60%
圖3和圖4分別展示了N1的公開(kāi)測(cè)試數(shù)據(jù),以及基于傳統(tǒng)架構(gòu)的機(jī)架與基于ArmNeoverse機(jī)架的數(shù)據(jù)對(duì)比??梢钥闯?,無(wú)論是在存儲(chǔ)、移動(dòng)還是計(jì)算數(shù)據(jù)領(lǐng)域,N1都表現(xiàn)出了優(yōu)良的性能。而且在同為標(biāo)準(zhǔn)42U機(jī)架和12.5KW功率條件下,ArmNeoverse平臺(tái)提供了更高的整數(shù)吞吐量和單線程性能,使得云服務(wù)商得以在單個(gè)機(jī)架上托管更多客戶,從而帶來(lái)更高收入和更多計(jì)算周期。
圖3:N1性能測(cè)試數(shù)據(jù)
圖4:基于傳統(tǒng)架構(gòu)的機(jī)架與基于ArmNeoverse的機(jī)架對(duì)比
開(kāi)啟終極性能之路
兩年后,也就是2020年9月,Neoverse家族宣布再度進(jìn)階,新增兩個(gè)全新的平臺(tái)—NeoverseV1平臺(tái)以及第二代N系列平臺(tái)NeoverseN2。日前,Arm基礎(chǔ)設(shè)施事業(yè)部高級(jí)副總裁兼總經(jīng)理ChrisBergey則公開(kāi)了V1和N2平臺(tái)的更多產(chǎn)品細(xì)節(jié)。
圖5:ArmNeoverse平臺(tái)路線圖
NeoverseV1作為V系列的第一個(gè)平臺(tái),主要面向7nm和5nm工藝而設(shè)計(jì),是Arm強(qiáng)調(diào)性能優(yōu)先的新型計(jì)算系列的第一個(gè)平臺(tái)。與N1相比,V1支持256位寬度的向量,帶來(lái)了50%的性能提升、1.8倍的矢量工作負(fù)載優(yōu)化、以及4倍的機(jī)器學(xué)習(xí)工作負(fù)載優(yōu)化,適用于高性能計(jì)算、高性能云和機(jī)器學(xué)習(xí)處理等對(duì)CPU性能與帶寬有更高要求的應(yīng)用。
圖6:NeoverseV1性能詳述
值得一提的是,V1是Arm第一個(gè)支持可伸縮矢量擴(kuò)展(ScalableVectorExtensions,SVE)的處理器平臺(tái)。SVE可基于未知寬度向量單元的軟件編程模型執(zhí)行單指令流多數(shù)據(jù)流(SIMD)整數(shù)、bfloat16、浮點(diǎn)指令,從而確保軟件編碼的可移植性與使用壽命,并兼顧高效的執(zhí)行。
圖7:V1是Arm第一個(gè)支持SVE的處理器平臺(tái)
對(duì)開(kāi)發(fā)者而言,SVE架構(gòu)的好處在于能夠幫助他們?cè)?a href="http://www.brongaenegriffin.com/tags/寄存器/" target="_blank">寄存器寬度之間無(wú)縫轉(zhuǎn)換,也就是說(shuō),開(kāi)發(fā)者們既可以合并新的寬向量SVE指令,也可以重新使用為較小的寄存器編寫(xiě)的輔助函數(shù)。富士通A64FXCPU就是一個(gè)很好的例子,在執(zhí)行SVE代碼時(shí),他們可以完全控制SVE電壓和頻率轉(zhuǎn)換,確保其可以全天全頻率運(yùn)行。
Chris說(shuō),Arm現(xiàn)有的SIMD指令集NEON難以對(duì)某些代碼進(jìn)行矢量化處理,而SVE可以直接取用相同的代碼,并很好地對(duì)其進(jìn)行自動(dòng)矢量化,相比于NEON,可提升將近3.5倍的處理速度。由于SVE與矢量長(zhǎng)度無(wú)關(guān),因此相同的代碼可以不加修改地在V1上運(yùn)行。另外,如果在V1上加倍SVE矢量的寬度,對(duì)應(yīng)的處理速度也幾乎提速一倍。
當(dāng)然,SVE也為HPC提供了一種新的高性能且對(duì)開(kāi)發(fā)者友好的編程功能。
今年4月,印度電子和信息技術(shù)部MeitY宣布其百萬(wàn)兆級(jí)高性能計(jì)算CPU設(shè)計(jì)將采用NeoverseV1平臺(tái),使之成為繼法國(guó)芯片初創(chuàng)企業(yè)SiPearl和韓國(guó)電子通信研究所ETRI之后,第三家公開(kāi)支持通過(guò)NeoverseV1驅(qū)動(dòng)百萬(wàn)兆級(jí)高性能計(jì)算SoC的Arm合作伙伴。
除此之外,Chris還分享了其他合作伙伴在基礎(chǔ)設(shè)施市場(chǎng)的最新進(jìn)展,包括:
. Marvell發(fā)布了基于NeoverseN2的OCTEON系列網(wǎng)絡(luò)解決方案,并預(yù)計(jì)于2021年底前試產(chǎn)。相較于前一代的OCTEON解決方案,其性能提升高達(dá)3倍。
. 甲骨文計(jì)劃在Oracle云基礎(chǔ)設(shè)施上采用AmpereAltraCPU,為各種工作負(fù)載提供最佳的性?xún)r(jià)比。
. 由Arm技術(shù)驅(qū)動(dòng)的AWSGraviton2通過(guò)穩(wěn)定的增長(zhǎng)與區(qū)域擴(kuò)展,正持續(xù)快速地?cái)U(kuò)張其EC2的覆蓋。
. 阿里云在即將上線的基于Arm架構(gòu)ECS實(shí)例上完成了測(cè)試,結(jié)果顯示在SPECjbb的測(cè)試數(shù)據(jù)中獲得了驚艷的表現(xiàn),且基于Arm架構(gòu)運(yùn)行的DragonWellJDK性能提高了50%。
阿里巴巴首席工程師周經(jīng)森(KingsumChow)稱(chēng),公司現(xiàn)有的軟件里會(huì)有兩個(gè)考慮的點(diǎn),一個(gè)是有些軟件是需要重新編譯的,另外一種不需要重新編譯,只需要把Javaapplications在JVM(JavaVirtualMachine)上跑好就可以了。過(guò)去一年里,雙方從JDK8到JDK11,通過(guò)OpenJDK,通過(guò)阿里巴巴Dragonwell(OpenJDK的一個(gè)發(fā)行版),就把現(xiàn)有一些Java應(yīng)用的一些性能提高了50%。
. 騰訊在硬件測(cè)試和軟件支持方面持續(xù)投入,使其在云應(yīng)用上能采用ArmNeoverse技術(shù)。
騰訊專(zhuān)項(xiàng)測(cè)試技術(shù)中心總監(jiān)黃聞欣(VictorHuang)表示,去年,騰訊和Arm正式簽署了一份合作協(xié)議,希望通過(guò)合作加速ArmNeoverse技術(shù)的測(cè)評(píng)和適配。之后通過(guò)TencentBench測(cè)試框架發(fā)現(xiàn),得益于更多可擴(kuò)展的CPU核心數(shù),Arm服務(wù)器比傳統(tǒng)的服務(wù)器性能表現(xiàn)更強(qiáng)勁。非常值得一提的是,其在AI推理和圖片處理領(lǐng)域優(yōu)勢(shì)非常明顯。
“我們認(rèn)為單核性能、功效以及對(duì)新SVE矢量擴(kuò)展的支持是合作伙伴選擇V1的主要原因。與富士通的A64FX一樣,這些設(shè)計(jì)凸顯了高性能計(jì)算SoC的發(fā)展趨勢(shì):即利用SVE、高帶寬DDR5和HBM內(nèi)存以及其他專(zhuān)用處理能力的整合,打造出百萬(wàn)兆級(jí)的CPU?!盋hris說(shuō)。
N2被定位為可提供更高性能計(jì)算的解決方案,用來(lái)滿足橫向擴(kuò)展的性能需求,其用例可橫跨云、智能網(wǎng)卡(SmartNIC)、企業(yè)網(wǎng)絡(luò)到功耗受限的邊緣設(shè)備。同時(shí),N2也是第一個(gè)基于Armv9架構(gòu)的平臺(tái),在安全性、能耗以及性能方面都有全面的提升。N2面向5nm工藝而設(shè)計(jì),支持PCIe5.0和DDR5,通過(guò)支持用于高帶寬存儲(chǔ)器的HBM3以及用于結(jié)構(gòu)的CCIX2.0和CXL2.0來(lái)進(jìn)一步擴(kuò)展。此外,相比于N1,N2在保持相同水平的功率和面積效率之余,單線程性能提升了40%,在云端上提升1.3倍的NGINX,在5G和邊緣應(yīng)用上提升1.2倍的DPDK數(shù)據(jù)包處理。
圖8:NeoverseN2性能詳述
5G無(wú)線接入網(wǎng)RAN是N2的一個(gè)典型應(yīng)用。使用5G時(shí),網(wǎng)絡(luò)資源會(huì)被池化為射頻單元RU、分布式單元DU和中央單元CU,對(duì)于每個(gè)單元而言,提供正確的計(jì)算以?xún)?yōu)化性能指標(biāo)(例如在緊湊功率范圍內(nèi)的帶寬和吞吐量)的能力至關(guān)重要。盡管網(wǎng)絡(luò)上層日趨云端化,但下層卻需要借助專(zhuān)用處理器和加速器來(lái)實(shí)現(xiàn)軟件和硬件的正確組合。所以除了數(shù)據(jù)中心,隨著網(wǎng)絡(luò)虛擬化和容器化程度不斷提高,加上安全性和存儲(chǔ)等功能也被卸載以換取性能和效率,智能網(wǎng)卡或DPU在網(wǎng)絡(luò)中正變得越來(lái)越重要。
NeoverseN2還是第一個(gè)具備SVE2功能的平臺(tái),該功能可為云到邊緣的性能效率帶來(lái)巨大的提升。在諸如機(jī)器學(xué)習(xí)、數(shù)字信號(hào)處理、多媒體和5G等廣泛應(yīng)用場(chǎng)景中,SVE2除了帶來(lái)大幅性能提升外,還帶來(lái)了SVE具備的編程簡(jiǎn)易性及可移植性等優(yōu)勢(shì)。
圖9:SVE2指令集
SVE和SVE2都屬于與矢量長(zhǎng)度無(wú)關(guān)的指令集,用戶只需編寫(xiě)、編譯一次代碼,即可在各種多樣的硬件上運(yùn)行,同時(shí)還能充分利用可用的矢量帶寬。但與SVE加速HPC相比,SVE2將應(yīng)用場(chǎng)景擴(kuò)展到ML、DSP、多媒體和5G等更廣闊的市場(chǎng),它融合了NEON豐富的數(shù)據(jù)操作、邏輯和算術(shù)指令集,以及SVE自動(dòng)矢量化和可擴(kuò)展性等功能。
下圖中,X軸代表芯片級(jí)性能,Y軸代表每線程性能??梢钥闯?,在128核/128線程下,N1在芯片級(jí)吞吐量和單線程性能方面都達(dá)到領(lǐng)先,N2性能更強(qiáng),代表著最高單芯片性能;V1在96核96線程下?lián)碛凶罡邌尉€程性能,意味著可以在核心數(shù)更少的情況下發(fā)揮更好的性能。
圖10:NeoverseN1/N2/V1芯片級(jí)性能/單線程性能
除了處理器內(nèi)核,Arm還為合作伙伴提供可擴(kuò)展性的交換網(wǎng),用以支持大量的處理器核。同時(shí),針對(duì)加速器的緩存一致性互聯(lián)(CCIX)與開(kāi)放互聯(lián)技術(shù)(CXL)的投資則可以確保其生態(tài)系統(tǒng)得以快速且高效地推出相關(guān)的技術(shù)。
基于CMN-600,ArmCMN-700Mesh互連技術(shù)在每個(gè)矢量上進(jìn)一步提升了性能——從內(nèi)核的數(shù)量和緩存的大小,到附加內(nèi)存和IO設(shè)備的數(shù)量和類(lèi)型。對(duì)于基于V1的HPC平臺(tái)而言,支持高帶寬DDR5和HBM內(nèi)存系統(tǒng)至關(guān)重要,而CMN-700恰好可以實(shí)現(xiàn)這一點(diǎn)。
圖11:ArmCMN-700Mesh互連技術(shù)
CMN-700的另一個(gè)關(guān)注重點(diǎn)是對(duì)多芯片功能的助益,以便為數(shù)據(jù)中心資源池化的增長(zhǎng)提供更多的定制選項(xiàng)。CMN-700中還增加了CXL功能,可為內(nèi)存擴(kuò)展和智能一致性加速器,構(gòu)建主機(jī)或端點(diǎn)設(shè)備。
多芯片功能的另一項(xiàng)重要升級(jí)是,針對(duì)傳統(tǒng)多插槽設(shè)計(jì)和新的芯片集或多芯片集成提高性能和優(yōu)化功能,多芯片集成將為突破傳統(tǒng)的硅掩模版限制提供新的機(jī)遇,并為緊密耦合的異構(gòu)計(jì)算提供更大的靈活性。
打造“裝機(jī)即用”的軟件生態(tài)
軟件生態(tài)方面,Arm通常將軟件分為兩種類(lèi)型:一是云原生軟件,二是傳統(tǒng)企業(yè)級(jí)軟件。
ChrisBergey說(shuō)云原生軟件是Arm一直以來(lái)相當(dāng)重視的領(lǐng)域,擁有最大的持續(xù)集成/持續(xù)交付(CI/CD)平臺(tái),并在大多數(shù)編程語(yǔ)言的生態(tài)環(huán)境中扮演著核心角色。以AWSGraviton2為例,當(dāng)前用戶在Graviton2上部署的軟件將有更多選擇,云原生容器安全性、托管持續(xù)集成/持續(xù)交付、下一代防火墻也得到了持續(xù)更新,Graviton2也為Redis、Memcached、Elasticsearch等關(guān)鍵工作負(fù)載提供了性能優(yōu)勢(shì)。
圖12:AWSGraviton2性能優(yōu)勢(shì)明顯
最近,F(xiàn)ormula1就表示,相較于其他競(jìng)品,C6g和C6gn實(shí)例讓他們的計(jì)算成本降低了40%。因此,F(xiàn)ormula與Twitter、Snap、Lyft和Netflix等公司共同成為了Graviton2的用戶,他們都通過(guò)Graviton2的使用,取得巨大的價(jià)格和性?xún)r(jià)比優(yōu)勢(shì)。
圖13:構(gòu)建軟件生態(tài)
在談到邊緣和物聯(lián)網(wǎng)基礎(chǔ)設(shè)施時(shí),Chris認(rèn)為“異構(gòu)且多樣化”正成為該領(lǐng)域最為顯著的特征之一,但由于碎片化,它也可能在跨各種Arm平臺(tái)上實(shí)現(xiàn)云原生堆棧的無(wú)縫托管時(shí)造成阻礙。
為了應(yīng)對(duì)這一挑戰(zhàn),Arm在2019年推出了ProjectCassini項(xiàng)目,旨在確保在多樣化且安全的邊緣生態(tài)系統(tǒng)中提供云原生體驗(yàn),并聚焦三個(gè)方向進(jìn)行開(kāi)展:平臺(tái)標(biāo)準(zhǔn)和參考實(shí)施、邊緣安全性以及云原生堆棧。Arm希望能夠?yàn)檐浖_(kāi)發(fā)者提供流暢的體驗(yàn),通過(guò)標(biāo)準(zhǔn)、平臺(tái)安全性與參考實(shí)施,讓行業(yè)伙伴對(duì)在Arm平臺(tái)上部署“裝機(jī)即用”的軟件充滿信心。
圖14:ArmProjectCassini項(xiàng)目
為了凸顯Cassini項(xiàng)目的成效,Arm以沃達(dá)豐的通用客戶端設(shè)備uCPE概念驗(yàn)證作為示例:傳統(tǒng)的客戶端設(shè)備已部署為具有緊密耦合的專(zhuān)有硬件和軟件的固定功能網(wǎng)絡(luò)設(shè)備,而uCPE的設(shè)計(jì)用意,就是要通過(guò)將軟件與硬件解耦,并在開(kāi)放式商用硬件上運(yùn)行現(xiàn)代云原生軟件,以達(dá)到取而代之的目的。Arm與沃達(dá)豐及其他合作伙伴共同展示uCPE可以同時(shí)運(yùn)行虛擬化和容器化的網(wǎng)絡(luò)功能,并且與傳統(tǒng)供應(yīng)商相比可節(jié)省大量電力,這能讓運(yùn)營(yíng)商降低成本、提高能效,并加快用于軟件定義廣域網(wǎng)SDWAN、防火墻和其他連接服務(wù)的網(wǎng)絡(luò)設(shè)備性能。
而在傳統(tǒng)企業(yè)軟件領(lǐng)域,“軟件即服務(wù)”(SaaS)正成為顯著趨勢(shì)。由于在Arm架構(gòu)之上能夠創(chuàng)造非常有利的軟件即服務(wù)產(chǎn)品,因此很多獨(dú)立軟件開(kāi)發(fā)商(ISV)開(kāi)始對(duì)Arm表現(xiàn)出濃厚的興趣,在中國(guó)市場(chǎng)尤其顯著。目前,包括Xen、KVM、Docker容器以及越來(lái)越多的Kubernetes在內(nèi)的基礎(chǔ)軟件都已經(jīng)陸續(xù)宣布支持Arm架構(gòu),許多初期由Arm推動(dòng)的開(kāi)源項(xiàng)目正在變得自主運(yùn)轉(zhuǎn)。
編輯:hfy
-
ARM
+關(guān)注
關(guān)注
134文章
9352瀏覽量
377539 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2931文章
46249瀏覽量
392497 -
5G
+關(guān)注
關(guān)注
1360文章
48814瀏覽量
573809
發(fā)布評(píng)論請(qǐng)先 登錄
Arm Neoverse N2平臺(tái)實(shí)現(xiàn)DeepSeek-R1滿血版部署

數(shù)據(jù)服務(wù)器與數(shù)據(jù)中心需求激增——精確功率測(cè)量的重要意義
音諾恒 全志A133收銀機(jī)POS機(jī)主板規(guī)格書(shū)-V1
Arm 公司面向 PC 市場(chǎng)的 ?Arm Niva? 深度解讀
解讀基于Arm Neoverse V2平臺(tái)的Google Axion處理器
如何在基于Arm Neoverse平臺(tái)的CPU上構(gòu)建分布式Kubernetes集群

WTVxxxx系列語(yǔ)音芯片UART通信說(shuō)明書(shū)V1
輪轂氣密性檢測(cè)設(shè)備在汽車(chē)制造中的重要意義

Arm Neoverse如何加速實(shí)現(xiàn)AI數(shù)據(jù)中心
基于高通主板的ARM架構(gòu)服務(wù)器
人員定位系統(tǒng)對(duì)生產(chǎn)密集型企業(yè)的重要意義

評(píng)論