企業(yè)級 SSD 接口技術(shù)創(chuàng)新
1. PCIe 接口
PCIe 采用差分傳輸形式,提高抗干擾能力,支持更大規(guī)模的數(shù)據(jù)傳輸。PCIe高速串行總線作為差分傳輸,能夠通過兩根近距離傳輸線上傳輸相反、幅值相等的信號,實現(xiàn)對于外界凈電場的輻射抵消,同時保證兩條信號線在受到干擾時產(chǎn)生同等變化,顯著增強(qiáng)干擾抑制能力。PCIe 連接中每條通道包含兩對導(dǎo)線,分別用于數(shù)據(jù)包的發(fā)送和接收,并采用全雙工傳輸設(shè)計,允許同時發(fā)送和接收數(shù)據(jù)。最小的 PCIe 連接“x1”僅有一個通道四根導(dǎo)線,單方向傳輸速率為一個時鐘周期內(nèi)傳輸 1 比特。不同 PCIe 規(guī)范所要求的傳輸速率不同,PCIe x16 單方向傳輸速度可達(dá)到 6.4GB/s。PCIe 的高速傳輸,能夠支持 GB 級網(wǎng)絡(luò)連接、聲卡、應(yīng)用等多場景要求。
2. SAS 接口
SAS 接口具備更為龐大的協(xié)議體系,適應(yīng)企業(yè)級 SSD 差異化應(yīng)用需求。SAS(Serial Attached SCSI,串連式 SCSI)接口采用電腦集線的技術(shù),用于外圍零件的數(shù)據(jù)傳輸,包括硬盤、CD-ROM 等,根據(jù)連接的不同設(shè)備選用相應(yīng)協(xié)議進(jìn)行數(shù)據(jù)傳輸。SAS 接口由三種傳輸協(xié)議組成,一是串行 SCSI 協(xié)議 (SSP),用于和 SCSI設(shè)備間的數(shù)據(jù)傳輸;二是串行 ATA 通道協(xié)議 (STP),用于和 SATA 設(shè)備間的數(shù)據(jù)傳輸;三是 SCSI 管理協(xié)議 (SMP),用于維護(hù)和管理 SAS 設(shè)備。
SAS 技術(shù)通過雙端口設(shè)計、全雙工模式、后端存儲網(wǎng)絡(luò)等方式,優(yōu)化企業(yè)級SSD 操作系統(tǒng)效能,增強(qiáng)可用性、擴(kuò)展性和兼容性。SAS 雙端口功能是應(yīng)用于企業(yè)級 SSD 的關(guān)鍵設(shè)計。SAS 接口的信號區(qū)和電源區(qū)之間沒有缺口,并在此基礎(chǔ)上增加了一組傳輸信號以實現(xiàn)雙端口功能,為企業(yè)級的多路徑應(yīng)用提供支持。而SATA 接口中間存在缺口,因此可以正常連入SAS 背板連接器,確保 SAS 能兼容 SATA。
SAS 接口雙端口功能和全雙工工作模式,使其在收發(fā)信號時,擁有兩對差分信號對。通過 SAS 網(wǎng)絡(luò)可以將一定量的存儲盤進(jìn)行互連,形成后端存儲網(wǎng)絡(luò),涵蓋內(nèi)部連接線纜和外部連接線纜兩大類。常用于內(nèi)部的硬盤連接線纜,同時帶有電源和信號線,可以直接連接硬盤;為節(jié)約空間,使用內(nèi)部 Mini SAS線纜連接器,其信號定義如表 4 和接口定義圖 11 所示,最多可以支持 4 個 PHY的互連,內(nèi)部 Mini-SAS HD 接口體積則更小。SAS 外部互連線纜同樣可以采用mini-SAS 和 mini-SAS HD 進(jìn)行連接,并使用支持 4PHY SAS 互連的 QSFP 連接器。
3. U.2 接口
U.2 接口具備兼容性、高速率、低延遲、低功耗優(yōu)勢,適用于企業(yè)級 SSD。U.2接口又被稱為 SFF-8639(SSD Form Factor 8639),U.2 SSD 是一種高性能數(shù)據(jù)存儲設(shè)備,旨在使用 SFF(small form factor,小尺寸)連接器支持 PCIe 接口,同時兼容標(biāo)準(zhǔn)化的 SAS 和 SATA 旋轉(zhuǎn)磁盤和 SSD。
U.2 接口能夠兼容 SATA、SAS、PCIe。U.2 接口支持 1 個 SATA 接口、2 個 SAS 接口或 PCIe 企業(yè)級 SSD 硬盤中最多 4 個并行通道的 I/O,理論傳輸速度高達(dá) 32Gbps,而 SATA 只有 6Gbps,比SATA 速度提高 5 倍以上。在雙控制器存儲陣列中,每對雙通道 PCIe 鏈路相互獨立運行,允許一個控制器出現(xiàn)故障,SFF-8639 連接器上已定義信號能夠顯示驅(qū)動器是在單端口還是雙端口模式下工作。U.2 接口比 M.2 接口尺寸更大,因此最大存儲容量也相應(yīng)增多,同時 U.2 散熱能力更強(qiáng),耐受更高的工作溫度,在高密度寫入操作時,U.2 性能不會因為驅(qū)動器升溫而降低性能。
企業(yè)級 SSD 傳輸協(xié)議創(chuàng)新
1. NVMe
NVMe 簡化了協(xié)議復(fù)雜性,顯著提高了 SSD 的讀寫性能。NVMe 充分利用PCIe 通道的低延時以及并行性,通過降低協(xié)議交互時延,增加協(xié)議并發(fā)能力,并且精簡操作系統(tǒng)協(xié)議堆棧。NVMe 協(xié)議支持大規(guī)格 IO 隊列和大并發(fā),最大支持64K 個 IO 隊列,每個 IO 隊列支持 64K 個 IO 并發(fā)。通過 IO 隊列和 CPU 核對應(yīng),避免多個 CPU 核競爭 IO 隊列,IO 流程天生免鎖設(shè)計,實現(xiàn)更低的時延,降低 CPU 資源消耗,充分發(fā)揮 NVMe SSD 的性能。
和傳統(tǒng) SCSI 體系比較,NVMe 協(xié)議更為簡單高效。從協(xié)議路徑上看,在主機(jī)側(cè),NVMe 驅(qū)動協(xié)議棧去掉了傳統(tǒng) IO 系統(tǒng)中的 IO 調(diào)度層和復(fù)雜的 SCSI 協(xié)議層,換成輕量級的 NVMe 協(xié)議。從硬件傳輸路徑上看,在存儲側(cè),無需 SAS 控制器和 SAS Expander,SSD 通過 PCIe 總線連接,實現(xiàn)更低的時延,更大的帶寬,更少的 CPU 資源消耗。
2. NVMe-oF
NVMe-oF 可以實現(xiàn)大規(guī)模計算機(jī)集群與其他多個設(shè)備互聯(lián),把 NVMe 協(xié)議在單系統(tǒng)中的高性能、低延遲和低協(xié)議負(fù)擔(dān)優(yōu)勢應(yīng)用于整個數(shù)據(jù)中心。NVMe-oF(NVMe over Fabrics)協(xié)議使用基于消息的模型在主機(jī)和目標(biāo)存儲設(shè)備之間進(jìn)行通信,能夠?qū)?NVMe 映射到以太網(wǎng)、光纖通道、RoCE 或 InfiniBand 等多個 Fabrics傳輸協(xié)議中。NVMe-oF 使用 Fabrics(如 RDMA 或光纖通道)代替 PCIe 在互聯(lián)架構(gòu)上進(jìn)行傳輸映射,使主機(jī)能夠訪問節(jié)點外的 NVMe SSD 資源。使用 Fabrics的前提是端點之間發(fā)送和接收消息不需要共享內(nèi)存。NVMe-oF 中的目標(biāo)被稱為命名空間,NVMe-oF 允許主機(jī)跨越更遠(yuǎn)的距離與存儲目標(biāo)通信,同時保持超低的微秒級延時,與 SCSI 和 SATA 協(xié)議相比,將訪問時間縮短了幾個數(shù)量級。
NVMe-oF 與 NVMe 一樣,能夠支持 65000 個隊列,每個隊列深度最多為 65000個命令,使得 NVMe-oF 能夠在主機(jī)和驅(qū)動器之間實現(xiàn)高度并行的架構(gòu),保證每個設(shè)備使用單獨隊列。
NVMe-oF 擴(kuò)展了 NVMe 規(guī)范在 PCIe 總線上的實現(xiàn),把 NVMe 映射到多種物理網(wǎng)絡(luò)傳輸通道,實現(xiàn)高性能的存儲設(shè)備網(wǎng)絡(luò)共享訪問。NVMe-oF 通過把NVMe 映射到多個物理網(wǎng)絡(luò)傳輸通道,在各種物理傳輸層上實現(xiàn)高效 NVMe 命令,達(dá)到降低存儲網(wǎng)絡(luò)協(xié)議棧處理開銷并實現(xiàn)高并發(fā)、低時延的目的。NVMe-oF 和 NVMe 之間的主要區(qū)別是傳輸命令的機(jī)制,基于網(wǎng)絡(luò)遠(yuǎn)程訪問 NVMe 設(shè)備,實現(xiàn) NVMe 設(shè)備高效共享訪問,借助 NVMe-oF,可以實現(xiàn) RACK 級別的 NVMe。
使用 NVMe-oF,能夠在性能、擴(kuò)展能力、易用性等方面形成優(yōu)勢。NVMe-oF 網(wǎng)絡(luò)延遲低,能夠處理并行請求,提高和優(yōu)化性能,包括存儲陣列性能等,減少服務(wù)器端 OS 存儲堆棧的長度,實現(xiàn)高速率和高可擴(kuò)展性;支持 NVMe 主機(jī)啟動器與存儲系統(tǒng)之間同時存在多條路徑,能夠一次從許多主機(jī)和存儲子系統(tǒng)發(fā)送和接收命令。
將 NVMe-oF 與 RDMA、FC 或 TCP 一起使用,可以形成完整的端到端NVMe 存儲解決方案,在顯著提升性能的同時,通過 NVMe 實現(xiàn)極低時延。NVMe-oF over RDMA(NVMe/RDMA)使用 TCP 傳輸協(xié)議在 IP 網(wǎng)絡(luò)上傳遞數(shù)據(jù),典型的 RDMA 應(yīng)用包括虛擬接口架構(gòu)(Virtual Interface Architecture)、RDMA?over Converged Ethernet(RoCE)、InfiniBand、omnipath 和 iWARP,其中使用最多的是 RoCE、InfiniBand 和 iWARP;NVMe over Fibre Channel(FC-NVMe)使用 16GB FC 或 32GB FC 的 HBA 和 SAN 交換機(jī),可以將 NVMe 協(xié)議封在 FC 架構(gòu)中,是 SAN 基礎(chǔ)設(shè)施的最佳解決方案;NVMe over TCP/IP(NVMe/TCP)使用 NVMe-oF 和 TCP 協(xié)議在以太網(wǎng)傳輸數(shù)據(jù),與 RDMA 和 FC 相比,是一種更便宜、更靈活的替代方案。
3. ZNS
Zoned Namespaces(ZNS)是從 Open Channel(開放通道)SSD 基礎(chǔ)上發(fā)展而來的。這個概念在 NVMe 標(biāo)準(zhǔn)工作組技術(shù)提案,這個方案把 Namespace 的邏輯地址空間切分成多個 zone,因此它繼承了 Open Channel SSD I/O 分離、可預(yù)測性延遲等優(yōu)勢。并且 ZNS 協(xié)議簡化了軟件架構(gòu),用戶可以定制開發(fā),所以應(yīng)用范圍更加廣泛。
ZNS 允許根據(jù)數(shù)據(jù)的使用和訪問頻率對數(shù)據(jù)進(jìn)行分組,并按順序存儲在 SSD的獨立區(qū)域中。無需移動和重新排列數(shù)據(jù),ZNS SSD 可以顯著減少寫入操作的數(shù)量,降低驅(qū)動器的寫入放大因子 (WAF)——與主機(jī)系統(tǒng)最初指示的寫入相比,驅(qū)動器執(zhí)行的實際寫入量。WAF 越接近 1,SSD 的效率就越高,持續(xù)的時間就越長。
ZNS SSD 可以實現(xiàn) WAF (Write amplification) 接近1,相比于一般服務(wù)器SSD 的 WAF 值在 3 到 4 之間,這是一個重大進(jìn)展。這將使驅(qū)動器的使用壽命是傳統(tǒng)的非易失性內(nèi)存主機(jī)控制器接口規(guī)范 (NVMe) SSD 的四倍,使其成為服務(wù)器基礎(chǔ)架構(gòu)更環(huán)保、更可持續(xù)的解決方案。ZNS 還允許用戶利用 SSD 的全部容量,消除對預(yù)留空間的需求,而預(yù)留空間要求為背景任務(wù)保留一些存儲空間。這些改進(jìn)使企業(yè)客戶能夠以更高的效率處理大數(shù)據(jù)和人工智能應(yīng)用程序。 ?
編輯:黃飛
?
評論