直播,久久一体机,寂寞少妇直播视频

什么是 SPDK？

隨著存儲介質在 I/O 性能方面不斷演進，存儲軟件占用的總事務時間百分比變得越來越大。提高存儲軟件棧的性能和效率至關重要。存儲性能開發(fā)套件 (SPDK) 是一個開源軟件框架，它提供了一組庫和工具，用于根據(jù)特定需求編寫高性能、可擴展的用戶模式存儲應用。SPDK 全面釋放現(xiàn)代存儲硬件的潛力，例如非易失性存儲器 (NVM) 設備、固態(tài)硬盤 (SSD) 和網(wǎng)絡存儲設備。

SPDK?的工作原理是什么？

傳統(tǒng)的內核 I/O 棧由于上下文切換、數(shù)據(jù)復制、中斷和資源同步等原因帶來了開銷。SPDK?大幅減少了 I/O 處理期間的開銷，其方法如下：

使用存儲應用的用戶模式，而非內核模式。設備綁定 UIO 或 VFIO 驅動程序后，SPDK 運行用戶空間中的設備，從而消除了成本高昂的上下文切換。應用利用?SPDK 庫，直接通過用戶空間驅動程序與設備通信。

以輪詢模式而不是中斷模式運行。在初始化期間，SPDK 會在每個核心上創(chuàng)建一個線程，稱為 ?Reactor（圖 1）。用戶在此 Reactor 上注冊輪詢器來輪詢硬件是否完成，而不是等待中斷。這樣就降低了中斷處理開銷和延遲。

使用無共享線程模型。每個 SPDK 線程都獨立運行自己的一組數(shù)據(jù)結構和資源，從而避免了同步開銷。每個 Reactor 上會創(chuàng)建一個事件環(huán)，以進行必要的線程通信。

圖 1：SPDK 線程模型

SPDK 框架

如圖 2 所示，SPDK 包含多層。

圖 2：SPDK 架構

硬件驅動程序：快速非易失性存儲器 (NVMe) 驅動程序是 SPDK 的基礎組件。這是一個 C 庫，用于與 NVMe 設備之間進行直接零拷貝數(shù)據(jù)傳輸。virtio 驅動程序允許與 virtio 設備進行通信。

塊存儲：SPDK 提供豐富的后端存儲設備支持，包括以 NVMe SSD、Linux 異步 I/O (AIO) 作為支持的 NVMe 塊設備，以便讓 SPDK 能夠與 HDD?和?ceph RBD 等內核設備交互，從而將 ceph 作為 SPDK 的后端設備。

塊存儲服務：SPDK 塊存儲服務層為附加客戶功能提供靈活的 API，這些功能包括?RAID?和塊層壓縮。

塊存儲協(xié)議：塊存儲協(xié)議使得 SPDK 能夠通過不同的傳輸協(xié)議將其后端存儲提供給遠程客戶端、虛擬機或其他進程。iSCSI target 是在 TCP/IP 連接上實現(xiàn)了傳輸塊級 SCSI 數(shù)據(jù)的既定規(guī)范。NVMe over Fabrics (NVMe-oF) target 是 NVMe-oF 規(guī)范在用戶空間的一個實現(xiàn)，即在網(wǎng)絡上呈現(xiàn)一個快設備。Vhost target 使得 SPDK 能夠為基于 Qemu 的虛擬機或 Kata 容器提供后端存儲。Vfio-user 允許 SPDK 將虛擬的 NVMe 設備提供給虛擬機，后者利用現(xiàn)有的 NVMe 驅動程序與設備進行通信。

文件存儲服務：SPDK 在其塊分配器 Blobstore 上還提供了一個名為 BlobFS 的文件系統(tǒng)。它可作為?MySQL?和?Rocksdb?的存儲后端，從而使整個 I/O 路徑都位于用戶空間中。

什么是 NVMe over TCP？

NVMe 是一種專為 SSD 而設計的協(xié)議，旨在通過 PCIe 接口來顯著提高性能。NVMe over PCIe 是 NVMe 協(xié)議的初期目標，用于本地 NVMe SSD 訪問。它通過 PCIe 接口協(xié)議將命令和響應映射到主機的共享內存，以此來傳輸數(shù)據(jù)。

NVMe-oF 支持通過網(wǎng)絡來遠程共享和訪問 NVMe 存儲設備，例如以太網(wǎng)或光纖通道。NVMe-oF 是?NVMe over PCIe 的擴展。NVMe-oF 利用基于消息的模型或組合模型在主機與目標存儲設備之間通信。所支持的傳輸協(xié)議包括光纖通道 (Fibre Channel)、RDMA (Infiniband、ROCE、iWARP) 和 TCP（圖 3）。

圖 3：NVMe over Fabrics 模型

SPDK 支持 RDMA、TCP 和光纖通道傳輸。它由 initiator 程序框架和 target 組成（圖 4）。如果 initiator 程序（主機）和 NVMe SSD 位于同一服務器內，則直接通過 PCIe 訪問設備。否則，啟動程序必須通過結構來訪問遠程目標設備。

圖 4：SPDK NVMe over Fabrics 框架

在多種結構選項中，NVMe over TCP 允許用戶跨標準以太網(wǎng)使用 NVMe。得益于成熟 TCP/IP 棧的穩(wěn)定性和可移植性，這可實現(xiàn)更低的部署成本，并降低設計復雜性。

我們將重點關注 SPDK NVMe over TCP，它集 NVMe over TCP 和 SPDK 工作機制的優(yōu)點于一身。?

使用 TCP 傳輸時（圖 5），每個主機端 NVMe 隊列對都有一個對應的控制器端隊列對，后者被映射至自己的 TCP 連接。該 NVMe 隊列對將會分配給單獨的 CPU 核心。命令包 (Command Capsules) 被封裝到 TCP 協(xié)議數(shù)據(jù)單元 (PDU) 中，并通過 Linux 系統(tǒng)調用（包括?sendmsg），經標準 TCP/IP 套接字發(fā)送出去?？刂破鞫藦奶捉幼志彌_區(qū)讀取接收到的數(shù)據(jù)并構建接收 CMD 包。這其中就包括用于進一步處理的請求信息。處理完請求后，會生成一個 RSP 包并通過套接字發(fā)送出去。響應數(shù)據(jù)到達主機端套接字緩沖區(qū)，該緩沖區(qū)已被封裝到接收 CMD 包中。

圖 5：NVMe over TCP 數(shù)據(jù)路徑

Arm 平臺上的優(yōu)化工作

SPDK NVMe over TCP 是一個高性能解決方案，它通過 TCP/IP 網(wǎng)絡將 NVMe 存儲提供給遠程客戶端。雖然 SPDK 是無鎖的，并且 NVMe 驅動程序位于用戶空間內，但基于內核的 TCP/IP 棧并不是無鎖的。因此，內核與用戶空間之間的系統(tǒng)調用和內存復制是不可避免的。為了有效利用 TCP/IP 棧，SPDK 引入了多項優(yōu)化，包括：

批量寫入

管道緩沖

零拷貝

我們的優(yōu)化工作基于現(xiàn)有的實現(xiàn)，旨在進一步提高 SPDK NVMe over TCP 性能：

調整系統(tǒng)配置

改進數(shù)據(jù)局部性

平衡零拷貝和非零拷貝

減少功耗浪費

配置優(yōu)化

正確的系統(tǒng)配置對于 SPDK 來說至關重要。平臺會根據(jù)架構和功能進行配置，包括：

Linux 內核設置

PCIe 參數(shù)

NIC 參數(shù)

Linux 內核命令行設置

Hugepage：SPDK 依賴于數(shù)據(jù)平面開發(fā)套件 (DPDK)?庫來管理組件，包括大內存頁和緩沖池。DPDK 支持 2MB 和 1GB，以涵蓋大內存區(qū)域，同時不會出現(xiàn)過多 TLB 未命中的情況，從而提供更好的性能。

核心隔離：將 CPU 與內核調度程序隔離開，以減少上下文切換。

Iommu.passthrough：如果 IOMMU 可用，SPDK 建議使用?vfio-pci 驅動程序。否則，請使用?uio_pci_generic 或 igb_uio。要使用?uio_pci_generic 或 igb_uio 驅動程序，應禁用 IOMMU 或將其設為直通模式。如果未設置 iommu.passthrough，vfio-pci 驅動程序將對 DMA 使用 I/O 虛擬地址 (IOVA)。這對于?IOMMU 的轉換更為安全。如果在 GRUB 命令行中添加“iommu.passthrough=1”，則對 DMA 使用物理地址。這樣可以提高性能。

例如，對于四個?1G 的大頁，請將以下參數(shù)添加到 GRUB 命令行中。SPDK 運行在 CPU 核心 0-7 上，而 IOVA 為物理地址。

PCIe 參數(shù)調整

PCIe 最大有效負載大小 (PCIe Max Payload Size) 決定了 PCIe 數(shù)據(jù)包的最大大小。制造商會設置最大 TLP 有效負載大小，該值還取決于所連接的設備。將“pci=pcie_bus_perf”添加到內核命令行，以確保使用 PCIe 最大有效負載大小。

PCIe 最大讀取請求 (PCIe Max Read Request) 決定了所允許的最大 PCIe 讀取請求。PCIe 最大讀取請求的大小可能會影響待處理請求的數(shù)量。請根據(jù)工作負載進行調整。

使用以下命令設置最大請求大?。?/p>

NIC 參數(shù)調整

NIC 隊列數(shù)和隊列深度

通常情況下，NIC Rx/Tx 隊列數(shù)的設置與 CPU 數(shù)量相同。隊列大小需要適當，因為較小的隊列可能會導致數(shù)據(jù)包丟失。如果環(huán)的大小超過了緩存，則較大的隊列可能會導致緩存利用率較差。請根據(jù)系統(tǒng)資源和工作負載進行調整。

硬中斷關聯(lián)

IRQ 關聯(lián)是一項 Linux 功能，它會將一些 IRQ 分配給專用處理器。正確的 IRQ 關聯(lián)設置可提高服務器工作效率。對于大多數(shù)情況而言，NIC 的 IRQ 應綁定至 NIC 所在的同一 NUMA 節(jié)點。Irqbalance 是一個 Linux 守護進程，它有助于平衡所有 CPU 之間的中斷所產生的 CPU 負載。要設置 IRQ 關聯(lián)，應首先停止 irqbalance 服務。

例如，在 64 核系統(tǒng)的上層 32 核上，請將以下命令用于 IRQ 40：

硬中斷合并

中斷合并[1]是一種控制設備何時引發(fā)中斷的方法。在產生中斷之前，NIC 會收集入站數(shù)據(jù)包并等待達到特定閾值。這樣便減少了 CPU 必須處理的總中斷數(shù)，從而導致吞吐量提高、延遲增加以及 CPU 使用率降低。

請使用以下命令啟用自適應 irq 合并：

根據(jù)用例，使用?ethtool -C 設置 irq 合并：

參數(shù)為：

rx-usecs：在數(shù)據(jù)包到達后會延遲 RX 中斷的?usecs?數(shù)量

rx-frames：在 RX 中斷之前所接收到的最大數(shù)據(jù)幀數(shù)

rx-frames-irq：在主機處理中斷時，在生成 RX 中斷之前所接收到的最大數(shù)據(jù)幀數(shù)

軟中斷合并

NAPI[2] 是一種減少網(wǎng)絡設備在數(shù)據(jù)包到達時所生成的 IRQ 數(shù)量的機制。它會注冊一個輪詢函數(shù)，NAPI 子系統(tǒng)調用此函數(shù)可收集數(shù)據(jù)幀。

設置“net.core.netdev_budget”和“net.core.netdev_budget_usecs”可限制在一個 NAPI 輪詢周期內輪詢的數(shù)據(jù)包數(shù)量。Netdev_budget 是在一個輪詢周期內從所有接口獲取的最大數(shù)據(jù)包數(shù)。即使 netdev_budget 尚未耗盡，輪詢周期也不得超過 netdev_budget_usecs 微秒。而?dev_weight 是內核在 NAPI 中斷上可以處理的最大數(shù)據(jù)包數(shù)，它是一個 Per-CPU 變量。

請參閱?Linux 網(wǎng)絡性能參數(shù)[3]，獲取更多信息。

TCP 套接字緩沖區(qū)

默認情況下，TCP 套接字緩沖區(qū)大小是根據(jù)系統(tǒng)內存自動計算的。較小的套接字緩沖區(qū)可能會導致接收數(shù)據(jù)時丟包，以及發(fā)送數(shù)據(jù)時頻繁寫操作阻塞。要調整緩沖區(qū)，請使用以下命令：

數(shù)據(jù)局部性優(yōu)化

在 TCP 內核空間中，當數(shù)據(jù)到達 NIC 且 NIC DMA 數(shù)據(jù)包到達 RAM 時，會根據(jù) RSS 中的哈希函數(shù)選擇一個接收環(huán)。數(shù)據(jù)包的引用被排入環(huán)形緩沖區(qū)中。系統(tǒng)會發(fā)起硬 IRQ，由 CPU 負責處理。如果設置 IRQ 綁定，則是所分配的 CPU，否則 irqbalance 服務會選擇一個。默認情況下，軟 IRQ 會在與硬 IRQ 相同的 CPU 核心上觸發(fā)；硬 IRQ 會觸發(fā) NAPI，以從接收環(huán)形緩沖區(qū)輪詢數(shù)據(jù)。該數(shù)據(jù)包的處理是在?CPU 核心中進行的，直到被排入套接字接收緩沖區(qū)中。

在 SPDK NVMe over TCP 中，每個來自客戶端的連接在啟動期間都會分配給一個 Reactor（CPU 核心）。此連接的套接字讀/寫是在該 CPU?核心上完成的。所以，內核空間與用戶空間之間存在語義差距，這與?CPU 核心親和性有關。

為了保證 CPU 核心處理內核空間中的此套接字數(shù)據(jù)與用戶空間中讀取此套接字的核心 (SPDK) 完全相同，在 SPDK NVMe over TCP 中，我們引入了基于 CPU 親和性的套接字處理[4]?。它將獲取套接字的 CPU 親和性，并確定在連接啟動期間應將此套接字分配給哪個 CPU 核心。例如，當新連接（套接字 A）啟動時（圖 6），我們會獲得套接字 A 的 CPU 親和性。這里是?CPU 核心 1，它負責該套接字數(shù)據(jù)包的內核空間處理。然后在 SPDK 中，套接字 A 會被分配給核心 1 中的輪詢組，以后套接字 A 的讀/寫將會在核心 1 上執(zhí)行。

圖 6：TCP 數(shù)據(jù)接收流程

例如：對于六個 P4600 NVMe 盤的服務器，它使用八個核心，NIC IRQ 被綁定至這八個核心，而客戶端程序使用 24 個和 32 個核心。這個優(yōu)化使隨機寫入性能提升 11% - 17%。

零拷貝優(yōu)化

對于使用套接字發(fā)送數(shù)據(jù)時，MSG_ZEROCOPY[5]?標記可以使能零拷貝。該功能目前主要針對 TCP 套接字實現(xiàn)。然而，零拷貝并不是沒有代價的，因為它會在頁面固定期間導致額外的頁面記錄和完成后通知的開銷。

在 SPDK NVMe over TCP 中，零拷貝可以在啟動期間進行啟用或禁用。啟用后，不論大小，所有數(shù)據(jù)均通過零拷貝發(fā)送。這對于小數(shù)據(jù)（例如回復請求）的性能有負面影響。因此，平衡內存復制開銷與頁面固定開銷至關重要。動態(tài)零拷貝[6]的引入是為了設置數(shù)據(jù)發(fā)送的閾值，以確定是否通過零拷貝發(fā)送數(shù)據(jù)。任何大于閾值的數(shù)據(jù)由零拷貝發(fā)送，其他數(shù)據(jù)則不然。

例如，?在 16 個 P4610 NVMe SSD、兩個客戶端，且客戶端與服務器端程序的配置與?SPDK 報告[7]相同的測試環(huán)境中，對于 posix 套接字 rw_percent=0 (randwrite)，經測試，128 隊列深度、服務器端 1 至 40 個 CPU 核心下的性能提升可達 2.4% - 8.3%。當讀取百分比大于 50% 時，其影響并不明顯。對于 uring 套接字 rw_percent=0 (randwrite)，經測試，128 隊列深度、服務器端 1 至 40 個 CPU 核心下的性能提升可達 1.8% - 7.9%（圖 7）。當讀取百分比大于 50% 時，性能提升可達 1% - 7%。

圖 7：qdepth=128 時的 4KB 隨機寫入性能

功耗優(yōu)化

以前在 SPDK 中，無論要處理的工作負載數(shù)量如何?，CPU 核心上的每個線程都工作在輪詢模式下。然而，如果工作負載隨時間變化較大，可能會造成功耗浪費。為了解決這個問題，我們引入了動態(tài)調度程序框架，以實現(xiàn)節(jié)能并降低 CPU 占用率。

調度程序框架會動態(tài)收集每個線程和 Reactor 的數(shù)據(jù)，并執(zhí)行包括移動線程、切換 Reactor 模式和設置 CPU 核心頻率等在內的操作。例如，如果 Reactor 1 到 Reactor N 中的輪詢器空閑，則相應的 SPDK 線程將遷移至 Reactor 0（圖 8）。然后，Reactor 1 至 Reactor N 切換至中斷模式。Reactor 0 的 CPU 頻率會根據(jù)該 Reactor 的繁忙程度進行調整。我們將這稱之為?CPU 頻率調節(jié)。

圖 8：SPDK 動態(tài)調度程序解決方案

Linux 內核通過 CPU 頻率調節(jié) (CPUFreq) 子系統(tǒng)支持 CPU 性能調節(jié)。它由三個模塊組成：

核心

調節(jié)調控器

調節(jié)驅動程序

調節(jié)驅動程序與硬件通信。cppc_cpufreq 驅動程序適用于大多數(shù) AArch64 平臺。該驅動程序使用 ACPIv5.1 規(guī)范中所述的協(xié)作處理器性能控制 (CPPC) 方法。CPPC 是以 CPU 性能值的抽象連續(xù)量表為基礎的。這樣就允許遠程功耗處理器靈活地進行優(yōu)化，以提高功率和性能。

為了啟用 AArch64 上的 CPU 頻率調節(jié)，cppc_cpufreq 驅動程序支持[11]被添加到? DPDK Power Library（DPDK 功率庫）中。SPDK 利用它來調節(jié) CPU 頻率，也利用它來獲取頻率信息供調節(jié)使用。選項包括 highest_perf、nominal_perf?以及?scaling_max_freq、scaling_min_freq?等等。它為用戶提供了?API，用于設置 CPU 頻率和啟用或禁用加速技術。請參閱?DPDK Power Library[12]，獲取有關 API 的更多信息。

結論

本文介紹了?SPDK、SPDK NVMe over TCP 以及如何對其進行優(yōu)化，其中包括系統(tǒng)配置優(yōu)化、數(shù)據(jù)局部性優(yōu)化、內存零拷貝優(yōu)化和功耗優(yōu)化。它們可用于解決對性能至關重要的存儲問題。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴