NoLoad 計算存儲設備與英特爾 Agilex FPGA 及英特爾 至強 處理器相結合,可為要求嚴苛的存儲和計算工作負載帶來出色性能,同時顯著降低TCO。
如今的計算工作負載比過去規(guī)模更大、更復雜、更多樣化。科學計算、人工智能 (AI)、機器學習(ML)、數(shù)據分析和其他專門任務的爆發(fā)式增長正在推動數(shù)據量呈指數(shù)級增長。而處理這些數(shù)據不僅需要大量算力,還需要具備低時延、高帶寬的數(shù)據存取能力。
計算存儲
(Computational Storage)
隨著存儲市場規(guī)模的擴大,我們需要新的技術和解決方案來傳輸、管理和保護已存儲的數(shù)據。要增加存儲容量,可視化、數(shù)據保護、數(shù)據安全(加密)和數(shù)據壓縮等存儲處理功能必不可少。然而,這些功能常涉及多種需要消耗大量計算周期的基礎設施服務。
過去,從 CPU 內核卸載基礎設施功能的第一步是引入 SmartNIC。SmartNIC會使用 FPGA 來增強常規(guī)網卡 (NIC) 中以太網芯片組的性能。但“SmartNIC”這個詞某種程度上已被賦予了太多含義,不同供應商提供的實現(xiàn)方案往往截然不同。不管怎樣,SmartNIC 在最基礎層面上可定義為可編程的網卡。換言之,SmartNIC 支持從 CPU 內核中卸載基礎設施功能的數(shù)據路徑部分。
近期,英特爾推出基于 FPGA 的基礎設施處理單元(IPU),配備高端 FPGA 及緊密耦合的英特爾 至強 CPU 等高端處理器,將這一卸載過程提升至更高水平。IPU 是 SmartNIC 的演進產品,可視為“更智能的 SmartNIC”,它通過將能夠處理數(shù)據路徑功能的 FPGA 和能夠處理控制路徑功能的 CPU 相結合,可在更大程度上卸載主機系統(tǒng)上的工作負載。
英特爾 Agilex 7 FPGA 的高速收發(fā)器、高密度邏輯和大內存,結合英特爾及其合作伙伴提供的知識產權 (IP) 解決方案,可幫助開發(fā)人員輕松創(chuàng)建理想的在線、近線和離線存儲解決方案。
在數(shù)據中心領域,F(xiàn)PGA 可提供數(shù)據分析、AI、智能網絡、超融合存儲等功能實現(xiàn)加速所需的低時延卸載能力。FPGA 支持內聯(lián)、旁路和多功能處理模式,通過減少復雜的瓶頸問題來卸載 CPU 的工作負載(圖 1)。
圖 1. FPGA 支持內聯(lián)、旁路和多功能處理解決方案。
就計算存儲 (CS) 這一全新存儲范式而言,系統(tǒng)架構的特點是將計算存儲功能 (CSF)接入存儲設備本身,進而卸載主機處理器上的工作負載,減少數(shù)據傳輸。使用這種架構,CSF 計算資源可以部署于固態(tài)盤 (SSD) 存儲設備本身[在這種情況下,這些設備將歸類為計算存儲設備 (CSD)],或者部署在位于固態(tài)盤和主機之間的設備上,例如基于 FPGA 的加速器、SmartNIC 或 IPU。
基于 FPGA 的加速器可以為包括壓縮和解壓縮、加密和解密、SQL 查詢以及圖算法(中心性算法、尋路算法、社區(qū)檢測算法等)在內的更多功能加速。
另一個潛在的應用是數(shù)據轉碼。例如,很多數(shù)據庫目前都在采用開源內存格式 Apache Arrow(一種與語言無關的軟件框架,用于開發(fā)處理列式數(shù)據的數(shù)據分析應用),因為它有助于在現(xiàn)代 CPU 和 GPU 硬件上進行高效的數(shù)據分析操作。此外,還有開源的磁盤數(shù)據存儲格式 Apache Parquet。該存儲格式提供高效的數(shù)據壓縮和編碼方案,能夠以更強的性能,批量處理復雜的數(shù)據??梢灶A見,Apache Arrow 和 Apache Parquet 之間的數(shù)據轉碼將變得越來越重要。
Eideticom NoLoad 解決方案釋放
第四代英特爾 至強 可擴展處理器強大性能
如前所述,計算存儲帶來的助益能夠提升應用的性能和/或減少主機 CPU 內核用量,而釋放出來的內核資源可用于執(zhí)行其他創(chuàng)收任務。這可以提升基礎設施效率,降低 TCO。
Eideticom 是專為數(shù)據中心存儲或計算工作負載開發(fā)計算存儲解決方案的領航企業(yè),同時也是英特爾的合作伙伴之一1。Eideticom NoLoad 解決方案是一種基于 NVM Express (NVMe)的計算存儲處理器 (CSP)。NoLoad 計算存儲解決方案打破了處理存儲密集型或計算密集型工作負載時以 CPU 為中心的計算系統(tǒng)面臨的諸多限制。
NoLoad 解決方案現(xiàn)已量產并且正在出貨,它基于 Eideticom 硬件合作伙伴多種外形規(guī)格,如 BittWare 的 IA-220-U22 U. 2 模塊和 IA-420F3 卡——二者均采用了可通過 PCIe 4.0 與主機 CPU 進行通信的英特爾 Agilex 7 FPGA(圖 2)。
NoLoad 具備一整套功能,包括壓縮和解壓縮、加密和解密、去重和數(shù)據分析。
作為“金融科技”的集大成者,F(xiàn)SI將是 NoLoad 技術的一大受益者。FSI是指在交付金融服務方面使用新技術與傳統(tǒng)金融方法展開競爭的公司。AI、區(qū)塊鏈、云計算和大數(shù)據被視為 FSI 的 “ABCD”(四大關鍵領域)。
FSI 分析用例的
基準測試
近期,我們通過一項基準測試對在兩種不同計算環(huán)境中執(zhí)行的典型高端 FSI 任務進行了比較。該真實場景示例配備了一款性能出色、軟件定義的數(shù)據包捕獲與分析引擎。
基準測試場景 1 僅在兩個第四代英特爾 至強 可擴展處理器[之前代號 Sapphire Rapids (SPR)] 上的軟件中運行。場景 2 則利用基于 FPGA 的加速器使 CPU 性能得到增強,且所有這些設備均接入 Eideticom NoLoad 解決方案。
FSI 任務涉及對 1 GB 數(shù)據文件中的股票市場數(shù)據執(zhí)行壓縮和解壓縮。
場景 1 的硬件配備的是 2 個主頻為 2 GHz 的第四代英特爾 至強 可擴展處理器(雙路平臺)(圖 3)。每個 CPU 包含 56 個內核,每個內核對應兩個線程,因此共有 224 個可用內核。
圖 3. 數(shù)據包的所有處理操作均在主機 CPU 內核上進行。
場景 2 的硬件(圖 4)使用了在 CPU 和基于 FPGA 的加速器上實現(xiàn)的 NoLoad 解決方案。用于壓縮/解壓縮的是 2 個 IA-220-U2 卡。
圖 4. 來自主機的數(shù)據包經由 PCIe 傳輸至 BittWare IA-220-U2,以使用 NoLoad 框架和 IP 實現(xiàn) FPGA 存儲服務加速。
在這一基準測試中,數(shù)據包經壓縮后寫入固態(tài)盤陣列。NoLoad 軟件堆棧支持在文件系統(tǒng)、內核空間或用戶空間中使用 NoLoad 壓縮和解壓縮服務。
圖 5. 基于第四代英特爾 至強 可擴展處理器和英特爾 Agilex 7 FPGA 加速器的 Eideticom NoLoad 解決方案基準測試結果。數(shù)據源自 Eideticom。
基準測試結果
分析對比場景 1 和場景 2 中 3 個關鍵指標(吞吐性能、CPU 內核用量和總功耗)的測試結果(圖 5)可以清楚地看到,雖然基于 FPGA 的加速器的測試場景中性能幾乎相同,但所使用的 CPU 內核數(shù)量大大減少,功耗也更低。FPGA 場景的總功耗為系統(tǒng)總功耗,包括 CPU 內核、NMVe 存儲和兩個 FPGA 卡。FPGA 卸載 能力結合 NoLoad 解決方案釋放的 CPU 內核現(xiàn)在可用于執(zhí)行其他任務或工作負載。
CPU內核用量減少96%(越低越好) 功耗降低24%(越低越好)
表 1. 基于基準測試結果的 TCO 計算和假設
注:
取決于 FPGA 卡(自主設計或從第三方供應商處購買現(xiàn)貨)。
聯(lián)系 Eideticom 獲取 NoLoad 解決方案報價。
每個 CPU 內核的價值 =(每小時 1.06 美元/8 個內核)x 24 小時 x 30 天 = 95.40 美元。
假設電力成本 = 0.04 美元/千瓦。
假設兩種場景均在 2 秒內完成操作。
TCO 節(jié)省情況估算
表 1 中從財務角度對使用基于 FPGA 的加速器的測試場景進行了考量。我們使用亞馬遜云服務 EC2 實例的價格代表每個 CPU 內核的價值?;趤嗰R遜 EC2 F1 實例(提供基于 FPGA 的加速器的虛擬云服務 + 每 CPU 內核服務),我們假設每小時成本為 1.06 美元4。這一成本包含使用 1 個 FPGA 和 8 個虛擬 CPU 內核的費用,不過為了簡化計算,假設該價格僅適用于 CPU 內核。
第四代英特爾 至強 可擴展處理器
第四代英特爾 至強 可擴展處理器專為快速增長的計算密集型和內存密集型工作負載實現(xiàn)更高性能而設計。
通過內置加速器和軟件優(yōu)化,上一代英特爾 至強 可擴展處理器已被證明可以在真實場景下的目標工作負載上實現(xiàn)出色的每瓦性能5。這不但可以提高 CPU 利用率、降低功耗、提升投資回報率(ROI),而且還能幫助企業(yè)實現(xiàn)可持續(xù)發(fā)展目標。
第四代英特爾 至強 可擴展處理器內置更多加速器,可為AI、數(shù)據分析、網絡、存儲和科學計算等快速增長的工作負載帶來更大的性能和能效優(yōu)勢。為實現(xiàn)新的內置加速器功能,英特爾還為生態(tài)系統(tǒng)提供了操作系統(tǒng)級軟件、庫和 API 支持。值得一提的是,全新英特爾 至強 可擴展處理器還具備其他一些重要特性,包括支持 DDR5、PCI Express 5.0 和 Compute Express Link (CXL) v1.1。
英特爾 Agilex 7 FPGA
從數(shù)據中心到網絡,再到邊緣,F(xiàn)PGA 在現(xiàn)代應用中發(fā)揮著越來越重要的作用。FPGA 的靈活性、出色能效、大規(guī)模并行架構和高輸入/輸出 (I/O) 帶寬使其在加速和/或卸載AI、存儲和網絡等廣泛任務方面非常具有吸引力。這些應用中有很多都對內存提出了嚴苛要求(包括內存的容量、帶寬、時延和能效)。為了滿足這些應用的嚴苛要求,英特爾開發(fā)了英特爾 Agilex 7 FPGA 和 SoC FPGA(圖 6)。
英特爾 Agilex 7 FPGA I 系列6 采用了英特爾的 10 納米 SuperFin 技術,專為帶寬密集型應用打造。這些 FPGA 和 SoC FPGA 包含支持外部 DDR4 內存的硬核化控制器,同時還支持 FPGA 領域首個 CXL 硬核 IP,使開發(fā)人員能夠將時延敏感型功能通過 CXL 互聯(lián)技術卸載至加速器上。
英特爾 Agilex 7 FPGA M 系列7 是第一款基于英特爾 7 制程工藝實現(xiàn),并配備有封裝 HBM2e 內存的英特爾 Agilex FPGA。英特爾 7 制程工藝可實現(xiàn)更高的可編程邏輯結構容量和性能,功耗也更低。硬核化控制器可支持 DDR5 和 LPDDR5 等先進的內存技術。
英特爾 Agilex 7 FPGA 和 SoC FPGA 可帶來出色的 I/O 帶寬(這對于當今需要處理海量數(shù)據負載的系統(tǒng)而言至關重要),收發(fā)器數(shù)據速率高達 116 Gbps,并可支持 PCIe 5.0 和 CXL 1.1/2.0。
總結
如今的計算工作負載比過去規(guī)模更大、更復雜、更多樣化。通過將全新英特爾 產品與 Eideticom 和 Bittware 等合作伙伴的創(chuàng)新解決方案相結合,客戶可顯著降低目標用例或工作負載的 TCO。
在很多情況下,將算法密集型和時延敏感型功能卸載至基于英特爾 Agilex FPGA 的加速器上,可釋放主機 CPU 內核,用于執(zhí)行其他創(chuàng)收任務,使第四代英特爾 至強 可擴展處理器發(fā)揮更大的價值。FSI 正是眾多從中受益的用例之一。
未來,Eideticon Noload解決方案還將移植到更高版本的 BittWare 卡(IA-440i8)上,這么做可能會將用于此 FSI 用例的 FPGA 卡從 2 個減至 1 個。
審核編輯:湯梓紅
-
處理器
+關注
關注
68文章
20079瀏覽量
243407 -
英特爾
+關注
關注
61文章
10247瀏覽量
178397 -
cpu
+關注
關注
68文章
11192瀏覽量
221680 -
存儲
+關注
關注
13文章
4633瀏覽量
89116 -
人工智能
+關注
關注
1812文章
49520瀏覽量
258912
原文標題:Eideticom NoLoad? 解決方案釋放第四代英特爾? 至強? 可擴展處理器強大性能,更好支持存儲計算
文章出處:【微信號:英特爾FPGA,微信公眾號:英特爾FPGA】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄



評論