RISC-V架構(gòu)以追趕者的姿態(tài)在多個應(yīng)用領(lǐng)域與X86架構(gòu)和ARM架構(gòu)展開競爭。在服務(wù)器應(yīng)用領(lǐng)域,RISC-V架構(gòu)正在重新定義服務(wù)器芯片領(lǐng)域必備的安全、虛擬化和RAS等規(guī)格和規(guī)范。
服務(wù)器CPU芯片作為服務(wù)器核心部件,承擔(dān)了CPU算力、高速內(nèi)存接口和高速IO傳輸接口等功能。從應(yīng)用場景和需求出發(fā),RAS(Reliability、Availability、Serviceability)已經(jīng)成為服務(wù)器系統(tǒng)必備的功能屬性:高可靠性(Reliability)可以延長整個系統(tǒng)硬件“滿血”運行的持續(xù)時間,此階段為服務(wù)器系統(tǒng)最理想狀態(tài);高可用性(Availability)使得硬件系統(tǒng)發(fā)生隨機或者持續(xù)硬件故障時,通過軟硬件協(xié)同處理,系統(tǒng)仍然可以維持“殘血”運行,不至于因為關(guān)機導(dǎo)致服務(wù)中斷;高可維護性(Serviceability)使得在系統(tǒng)崩潰時,能夠迅速定位故障,通過替換部件等方式對服務(wù)器進行“補血”,為系統(tǒng)盡快恢復(fù)運行提供保障。

(圖1:RAS定義框架)
進迭時空以RISC-V高性能算力計算核心SpacemiTX100 Core為基礎(chǔ)構(gòu)建的服務(wù)器CPU芯片,充分考慮了服務(wù)器的RAS需求,集成了包含RAS組件功能特性和RAS管理功能特性的完整RAS軟硬件方案,并在應(yīng)用層上對X86和ARM服務(wù)器的RAS方案做了兼容適配:RAS處理機制遵循Firmware First準(zhǔn)則;通過RISC-V協(xié)議棧,支持ACPI的APEI規(guī)范,獲得面向OS的錯誤信息格式兼容。進迭時空的RAS方案完全遵循RISC-V RERI(RAS ErrorRecordRegisterInterface)故障處理接口規(guī)范,通過內(nèi)存映射的寄存器接口統(tǒng)一了各種RAS信息的記錄和上報。
進迭時空RAS組件架構(gòu)
進迭時空服務(wù)器CPU芯片的RAS硬件方案主要圍繞SpacemiTX100Core、DDR控制器、PCIe控制器、片上互連總線等幾個核心部件展開。

(圖2:進迭時空RAS組件架構(gòu))
SpacemiT X100 Core 和 Cluster
- 實現(xiàn)L1/L2 Cache的Parity校驗和ECC,TLB 的Parity校驗,對于Parity錯誤和ECC不可糾正錯誤會進行Cachelineinvalid并Reload,對于ECC可糾正錯誤會進行數(shù)據(jù)回刷 (Scrubbing);
- 實現(xiàn)系統(tǒng)總線數(shù)據(jù)的Data check和Data poison檢測,在Core讀取Cache line時若檢測到數(shù)據(jù)錯誤則觸發(fā)異常中斷;
- 集成Core Boot MBIST,在啟動中測試CPU內(nèi)部的所有RAM單元,若MBIST failed則通知系統(tǒng)啟動固件對Core進行隔離;
- 集成RISC-V規(guī)范RAS RERI接口模塊;
- 支持Warm Reset,允許在保留RAS錯誤信息的同時重啟CPU核。
DDR控制器
- 實現(xiàn)控制器端系統(tǒng)總線數(shù)據(jù)的Data check和Data poison;
- 實現(xiàn)控制器內(nèi)部RAM的Parity校驗;
- 通過ECC機制實現(xiàn)對DRAM的命令式和自動式巡檢回刷 (Scrubbing);
- 對DRAM讀寫數(shù)據(jù)進行CRC校驗,若有錯誤自動Retry;
- 支持DDR5的EAPAR(Encoded Address Parity)機制;
- 支持72-bit和80-bit的DDR5 ECC DIMM,可以實現(xiàn)內(nèi)存顆粒Chipkill功能;
- 支持對DRAM顆粒的PPR(Post Package Repair)修復(fù)功能。
PCIe控制器
實現(xiàn)控制器端系統(tǒng)總線數(shù)據(jù)的Data check和Data poison;
實現(xiàn)控制器內(nèi)部RAM的Parity校驗;
支持傳輸層的ECRC校驗;
支持鏈接層的LCRC校驗;
在Lane training failed時,可以進行Lane isolation;
支持PCIe設(shè)備熱插拔。
片上互連總線
實現(xiàn)所有總線數(shù)據(jù)的Data check和Data poison;
實現(xiàn)互連總線的錯誤Response傳遞;
支持SLC和SF的RAMECC;
支持片間互連總線接口的ECRC和LCRC校驗。
進迭時空RAS管理架構(gòu)

(圖3:進迭時空RAS管理架構(gòu))
服務(wù)器CPU芯片對RAS信息的處理主要通過SpacemiT X100 Core 主CPU單元和RMU管理單元實現(xiàn),兩者協(xié)同分工,實現(xiàn)了對本芯片中所有重要系統(tǒng)組件和多芯互連系統(tǒng)中其他芯片的RAS處理(如OS交互、BIOS固件執(zhí)行、帶外BMC通信等),極大提升了RAS處理的可靠性,它的管理架構(gòu)特性主要有:
SpacemiT X100 Core 支持RAS中斷接口,通過Cluster內(nèi)部RERI模塊,實現(xiàn)符合RISC-V RERI規(guī)范的CPU核故障記錄和異常中斷;
PCIe支持符合規(guī)范的AER(Advanced Error Reporting);
通過CPU芯片的管理單元(RMU),實現(xiàn)整芯片RAS錯誤故障的異常處理:故障信息收集和存儲、故障的軟件通知和處理;
通過CPU芯片的帶外接口,實現(xiàn)BMC芯片的帶外RAS故障收集和交互。
進迭時空通過由RAS功能組件和RAS管理軟硬件架構(gòu)協(xié)同組建的RAS系統(tǒng),實現(xiàn)完整的RISC-V架構(gòu)服務(wù)器RAS解決方案,即將推出業(yè)界首個完整支持服務(wù)器RAS的CPU產(chǎn)品。
文字:博志、風(fēng)行、Stephen、hw、Zetalog審核:Sophie
-
cpu
+關(guān)注
關(guān)注
68文章
11187瀏覽量
221294 -
RISC-V
+關(guān)注
關(guān)注
47文章
2698瀏覽量
50849
發(fā)布評論請先 登錄
RISC-V 生態(tài)架構(gòu)淺析
為什么選擇RISC-V?
科普RISC-V生態(tài)架構(gòu)(認(rèn)識RISC-V)
瑞薩基于RISC-V核心架構(gòu)的預(yù)編程ASSP器件
ARM與RISC-V架構(gòu)的區(qū)別是什么?
RISC-V 生態(tài)架構(gòu)淺析
RISC-V架構(gòu)簡介
RISC-V架構(gòu)
談一談RISC-V架構(gòu)的優(yōu)勢和特點
倪光南院士:RISC-V是中國最受歡迎CPU架構(gòu),不受壟斷制約
兩大架構(gòu)RISC-V 和 ARM 的各種關(guān)系
基于RISC-V開放架構(gòu)的存算一體化芯片解決方案

RISC-V推動下的CPU架構(gòu)變局
Imagination CPU 系列研討會 | RISC-V 平臺的性能分析和調(diào)試

評論