隨著數(shù)據(jù)集的不斷增長和高性能計算(HPC)資源的增加, HPC系統(tǒng)的使用會有顯著的增長。最大限度地提高這些系統(tǒng)的效率和效益,成為了首要問題。
高性能計算(HPC)在歷史上主要提供給政府、研究機(jī)構(gòu)和少數(shù)非常大的公司用于建模、模擬和預(yù)測應(yīng)用。隨著HPC平臺被部署在云端以提供共享服務(wù),高性能計算正變得更容易獲得,這個使用正使所有規(guī)模的組織受益。對工業(yè)物聯(lián)網(wǎng)(IIoT)、人工智能的投資不斷增加。 人工智能,以及電子設(shè)計自動化(EDA)和工程開發(fā)的硅IP是推動高性能計算系統(tǒng)使用增加的幾個因素。因此,從2020年到2025年,高性能計算市場預(yù)計將每年增長超過6%。 有許多類型的應(yīng)用程序受益于在HPC平臺上運行,比如…
? 詳細(xì)的設(shè)計模擬,減少產(chǎn)品的開發(fā)時間
? 各個行業(yè)的高保真建模,包括汽車、醫(yī)療和機(jī)器人行業(yè)
? 工業(yè)應(yīng)用的物理模擬、優(yōu)化和機(jī)器學(xué)習(xí)
? 金融建模
? 生命科學(xué)模擬 一般來說,用于大數(shù)據(jù)處理、模擬和預(yù)測的日益復(fù)雜的模型正在推動對更多計算能力和更大存儲容量及性能的需求。 本文強(qiáng)調(diào)了不同的存儲技術(shù)如何在提供高容量和低延遲存儲的同時最大限度地提高HPC系統(tǒng)的效率和效益,并最大限度地減少網(wǎng)絡(luò)帶寬和電力消耗。
HPC存儲系統(tǒng)的挑戰(zhàn)
HPC應(yīng)用中不斷增加的復(fù)雜性和數(shù)據(jù)集規(guī)模為HPC基礎(chǔ)設(shè)施帶來了一些挑戰(zhàn),有以下幾個方面。
? 帶寬。在存儲和計算節(jié)點之間移動PB級的數(shù)據(jù) ? 容量。系統(tǒng)容量必須擴(kuò)大,以容納使用中的、短期的和長期的存儲。
? 延遲。數(shù)據(jù)訪問時間和網(wǎng)絡(luò)延遲會大大延長應(yīng)用程序的運行時間 ? 安全性。大多數(shù)HPC數(shù)據(jù)是專有的和關(guān)鍵的業(yè)務(wù),因此需要訪問控制、完整性保護(hù)和遵從法律法規(guī)(針對數(shù)據(jù)隱私)
? 訪問管理。多節(jié)點并行文件系統(tǒng)需要強(qiáng)大的訪問管理,以防止出現(xiàn)計算機(jī)競態(tài)條件
? 功率:超級計算機(jī)已接近100千瓦/架,其中大部分被數(shù)據(jù)移動所消耗 隨著HPC應(yīng)用數(shù)據(jù)集的增長,在數(shù)據(jù)網(wǎng)絡(luò)和設(shè)備接口上需要越來越多的帶寬,以便在計算和存儲節(jié)點之間移動這些數(shù)據(jù)。以太網(wǎng)、PCI Express(PCIe)和其他接口技術(shù)正在逐步增加帶寬以滿足這一需求。網(wǎng)絡(luò)基礎(chǔ)設(shè)施從100Gbps到400Gbps以太網(wǎng)的過渡正在順利進(jìn)行。還有一些800Gbps和1.6Tbps以太網(wǎng)的早期部署也即將到來。存儲設(shè)備的數(shù)據(jù)接口速度也在提高,NVMe固態(tài)硬盤采用PCIe 5.0和 6.0,分別利用每車道32Gbps和64Gbps的傳輸速率。 數(shù)據(jù)創(chuàng)建的快速速度也推動了對增加數(shù)據(jù)存儲容量的需求。雖然許多被創(chuàng)建的數(shù)據(jù)是短暫的,沒有被寫入非易失性存儲,但大量的數(shù)據(jù)被存儲起來供將來使用,這就推動了對增加存儲容量的需求。IDC預(yù)測,從2020年到2025年,全世界的存儲容量將以每年19.2%的速度增長,以支持不斷增長的數(shù)據(jù)創(chuàng)建和存儲。
除了帶寬和容量的改進(jìn),還有一些額外的存儲技術(shù)正在解決HPC的需求。下面幾節(jié)將介紹其中的一些技術(shù)。
用于HPC的存儲技術(shù)
持久性內(nèi)存、遠(yuǎn)程直接內(nèi)存訪問(RDMA)和RDMA over converged Ethernet(RoCE)、Non-Volatile Memory Express over Fabrics (NVMe-oF)和計算存儲是最近HPC數(shù)據(jù)存儲的一些技術(shù)創(chuàng)新。
? 持久性內(nèi)存為內(nèi)存提供了一個新的價格/性能點,并在HPC系統(tǒng)中實現(xiàn)了一個新的存儲層。
? RDMA和RoCE為訪問遠(yuǎn)程存儲設(shè)備中的數(shù)據(jù)提供了一種低延遲、高效率的手段。
? NVMe-oF使用NVMe協(xié)議在網(wǎng)絡(luò)結(jié)構(gòu)上提供對分類存儲設(shè)備的訪問,其延遲與本地存儲設(shè)備的延遲相似。
? 計算存儲將計算能力整合到存儲系統(tǒng)中,以減輕計算服務(wù)器的負(fù)擔(dān),減少必須在存儲和內(nèi)存/計算之間傳輸?shù)臄?shù)據(jù)量。
持久內(nèi)存
現(xiàn)代計算系統(tǒng)利用各種不同類型的內(nèi)存和非易失性存儲來滿足數(shù)據(jù)在不同階段的需求。這些不同類型的內(nèi)存和存儲滿足了廣泛的需求, 從非常高速、低延遲、昂貴的緩存內(nèi)存到相對低速、高延遲、廉價的存檔磁帶。然而,迄今為止,系統(tǒng)主存儲器(DRAM)和NAND閃存之間存在性能、容量和成本差距。使用3D XPoint、BiCS閃存和Z-NAND等技術(shù)的持久內(nèi)存解決了這一差距。(圖2)
持久性存儲器提供的容量接近NAND閃存驅(qū)動器,而延遲則接近SDRAM。高容量和低延遲的屬性使持久性內(nèi)存成為容量和性能要求高的應(yīng)用的絕佳選擇,如數(shù)據(jù)庫加速器、建模和模擬、實時分析和AI/深度學(xué)習(xí)培訓(xùn)。
RDMA/RoCE
隨著數(shù)據(jù)集規(guī)模的增長,在存儲設(shè)備和計算服務(wù)器之間移動數(shù)據(jù)所需的網(wǎng)絡(luò)和處理資源也在增加。使用傳統(tǒng)的數(shù)據(jù)網(wǎng)絡(luò)解決方案從 共享存儲到計算服務(wù)器應(yīng)用處理器的數(shù)據(jù)傳輸需要幾個步驟,如圖3所示。
1. 主機(jī)應(yīng)用服務(wù)器通過網(wǎng)絡(luò)堆棧發(fā)送一個消息,通知存儲服務(wù)器所需的數(shù)據(jù)。
2. 存儲服務(wù)器處理器將數(shù)據(jù)從固態(tài)硬盤復(fù)制到存儲服務(wù)器用戶空間內(nèi)存的緩沖區(qū)。
3. 數(shù)據(jù)緩沖區(qū)從用戶空間復(fù)制到存儲服務(wù)器內(nèi)核空間,供網(wǎng)絡(luò)接口卡(NIC)驅(qū)動程序訪問。
4. 網(wǎng)卡驅(qū)動程序?qū)?shù)據(jù)緩沖區(qū)分割成數(shù)據(jù)包,并通過網(wǎng)絡(luò)將數(shù)據(jù)傳輸?shù)接嬎惴?wù)器的網(wǎng)卡。
5. 計算服務(wù)器網(wǎng)卡將數(shù)據(jù)存儲在內(nèi)核內(nèi)存中,網(wǎng)絡(luò)驅(qū)動程序?qū)⑵渲匦陆M合并從計算服務(wù)器的內(nèi)核內(nèi)存復(fù)制到用戶空間,供應(yīng)用程序處理。
所有這些數(shù)據(jù)拷貝(以及內(nèi)核模式《--》用戶模式上下文切換)都會消耗存儲服務(wù)器和計算服務(wù)器的大量處理資源。它們還為數(shù)據(jù)傳輸操作引入了顯著的延遲。 遠(yuǎn)程直接內(nèi)存訪問,或稱RDMA,使各自計算和存儲服務(wù)器中的網(wǎng)卡能夠管理數(shù)據(jù)傳輸。不需要上下文切換或中間數(shù)據(jù)拷貝,兩個系統(tǒng)的主機(jī)CPU周期都可以釋放出來用于應(yīng)用處理。主機(jī)應(yīng)用處理器建立連接并通知網(wǎng)卡要傳輸?shù)臄?shù)據(jù),然后在網(wǎng)卡檢索和傳輸數(shù)據(jù)時恢復(fù)應(yīng)用處理(圖4)。這種簡化的數(shù)據(jù)傳輸方法不僅減少了主機(jī)CPU的處理負(fù)荷,而且還可以將數(shù)據(jù)傳輸延遲減少一個數(shù)量級或更多。應(yīng)用服務(wù)器用戶空間存儲服務(wù)。
隨著以太網(wǎng)作為數(shù)據(jù)中心數(shù)據(jù)傳輸結(jié)構(gòu)的幾乎普遍部署,一個被稱為RDMA over Converged Ethernet(RoCE)的標(biāo)準(zhǔn)被開發(fā)出來,用于在以太網(wǎng)上進(jìn)行RDMA傳輸。RoCE及其后續(xù)的RoCEv2使數(shù)據(jù)中心運營商能夠在其現(xiàn)有的以太網(wǎng)基礎(chǔ)設(shè)施上利用RDMA的優(yōu)勢。幾乎所有先進(jìn)的網(wǎng)卡都支持RoCEv2,它已經(jīng)成為RDMA技術(shù)的事實標(biāo)準(zhǔn)。RoCE消除了對專用存儲區(qū)域網(wǎng)絡(luò)的需求,使數(shù)據(jù)中心的計算、網(wǎng)絡(luò)和存儲資源能 夠部署在一個單一的以太網(wǎng)結(jié)構(gòu)上。
NVMe-oF
NVMe-oF(Non-Volatile Memory Express over Fabric)將NVMe的低延遲優(yōu)勢擴(kuò)展到共享存儲基礎(chǔ)設(shè)施。當(dāng)與低延遲的網(wǎng)絡(luò)結(jié)構(gòu)(如 RoCE或光纖通道)相結(jié)合時,NVMe-oF可以從共享媒體提供數(shù)據(jù)訪問,其延遲可與本地存儲相媲美,如圖5所示。
計算存儲
另一個減少系統(tǒng)延遲和更有效地利用數(shù)據(jù)中心資源的機(jī)制是將數(shù)據(jù)處理能力納入存儲系統(tǒng)。通常被稱為計算存儲,將一個微處理器放在存儲設(shè)備中或附近,允許主機(jī)應(yīng)用處理器向存儲系統(tǒng)發(fā)送特定的參數(shù)以返回數(shù)據(jù)。然后,存儲處理器可以在存儲設(shè)備上搜索相關(guān)數(shù)據(jù),并只將這些數(shù)據(jù)返回給計算服務(wù)器,如圖6所示。
計算存儲節(jié)省了大量的網(wǎng)絡(luò)帶寬,從應(yīng)用處理器中卸載了數(shù)據(jù)處理,并減少了系統(tǒng)的能源消耗。計算存儲的另一個有價值的副作用是,大多數(shù)數(shù)據(jù)被保留在存儲系統(tǒng)中,因此不容易被攔截或數(shù)據(jù)被盜,從而提高了數(shù)據(jù)的安全性。 在傳統(tǒng)的計算基礎(chǔ)設(shè)施中,所有的計算能力都集中在一個中央處理單元中,當(dāng)一個應(yīng)用程序需要一個文件中的特定數(shù)據(jù)時,它必須從存儲中加載整個文件,在文件中搜索相關(guān)數(shù)據(jù),執(zhí)行必要的數(shù)據(jù)處理,并返回結(jié)果,如圖7所示。
存儲網(wǎng)絡(luò)工業(yè)協(xié)會(SNIA)提出了多種方法來實現(xiàn)計算存儲系統(tǒng)。其中一種方法是將一個應(yīng)用處理器集成到存儲設(shè)備中,如下圖8所示。這個嵌入式微處理器按照主機(jī)應(yīng)用處理器的要求處理數(shù)據(jù)預(yù)處理,以分配工作負(fù)荷,提高系統(tǒng)效率。
圖8:計算性存儲架構(gòu),帶有嵌入式處理器以提供數(shù)據(jù)處理和卸載
圖9更詳細(xì)地介紹了一個帶有閃存控制處理器的計算存儲設(shè)備,一個用于數(shù)據(jù)處理的應(yīng)用處理器,以及一個可以為元數(shù)據(jù)創(chuàng)建、對象檢測和分類以及其他存儲加速功能提供神經(jīng)網(wǎng)絡(luò)處理的機(jī)器學(xué)習(xí)處理器。
編輯:黃飛
評論