全閃存時(shí)代背景下,傳統(tǒng)的FC(Fibre Channel,網(wǎng)狀通道)存儲(chǔ)網(wǎng)絡(luò)已經(jīng)無(wú)法滿足全閃存數(shù)據(jù)中心的要求,NVMe(Non-Volatile Memory express,非易失性內(nèi)存主機(jī)控制器接口規(guī)范)存儲(chǔ)協(xié)議的出現(xiàn)極大提升了存儲(chǔ)系統(tǒng)內(nèi)部的存儲(chǔ)吞吐性能、降低了傳輸時(shí)延,NoF(NVMe over Fabric)存儲(chǔ)網(wǎng)絡(luò)應(yīng)運(yùn)而生。在多種Fabric技術(shù)中,NVMe over RoCE(RDMA over Converged Ethernet)被廣大存儲(chǔ)廠商所接受,成為業(yè)界NoF的主流。華為推出的NoF+存儲(chǔ)網(wǎng)絡(luò)解決方案,相較于標(biāo)準(zhǔn)NoF方案,在性能、可靠性、易用性上均實(shí)現(xiàn)了顛覆性改進(jìn),是全閃存時(shí)代的最佳選擇。

為什么需要NoF+?
隨著智能時(shí)代的到來(lái),各種業(yè)務(wù)對(duì)海量數(shù)據(jù)的存儲(chǔ)和讀寫需求,催生了新的存儲(chǔ)介質(zhì)(SSD)和存儲(chǔ)協(xié)議(NVMe),存儲(chǔ)性能提升了百倍。存儲(chǔ)節(jié)點(diǎn)不是獨(dú)立存在的,多個(gè)存儲(chǔ)節(jié)點(diǎn)之間通過(guò)存儲(chǔ)網(wǎng)絡(luò)互連。存儲(chǔ)性能提升后,需要一個(gè)更快、更高質(zhì)量的存儲(chǔ)網(wǎng)絡(luò)與之匹配,這張網(wǎng)絡(luò)就是NVMe over Fabric,即NoF。
NoF將NVMe協(xié)議應(yīng)用到服務(wù)器主機(jī)前端,作為存儲(chǔ)陣列與前端主機(jī)連接的通道,可端到端取代SAN網(wǎng)絡(luò)中的SCSI協(xié)議,構(gòu)建全以太的存儲(chǔ)SAN網(wǎng)絡(luò),如圖1-2所示。

NoF的產(chǎn)生背景
NVMe over Fabric中的“Fabric”,是NVMe的承載網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)可以是RoCE、FC或TCP。
NVMe over FC協(xié)議標(biāo)準(zhǔn)為FC-NVMe,F(xiàn)C-NVMe和FC-SCSI同樣都基于FCP,IO交互基于Exchange。FC-NVMe基于傳統(tǒng)的FC網(wǎng)絡(luò),通過(guò)升級(jí)主機(jī)驅(qū)動(dòng)和交換機(jī)支持,F(xiàn)C-SCSI和FC-NVMe能同時(shí)運(yùn)行在同一個(gè)FC網(wǎng)絡(luò)中。FC-NVMe能最大化繼承傳統(tǒng)的FC網(wǎng)絡(luò),復(fù)用網(wǎng)絡(luò)基礎(chǔ)設(shè)施,基于FC物理網(wǎng)絡(luò)發(fā)揮NVMe新協(xié)議的優(yōu)勢(shì)。
NVMe over TCP基于現(xiàn)有的IP網(wǎng)絡(luò),采用TCP協(xié)議傳輸NVMe,在網(wǎng)絡(luò)基礎(chǔ)設(shè)施不變的情況下實(shí)現(xiàn)了端到端NVMe。雖然NVME over TCP網(wǎng)絡(luò)性能弱于FC和RoCE,但整體性能通過(guò)NVMe得到提升,對(duì)比iSCSI仍有大幅度的提升。而且NVME over TCP對(duì)網(wǎng)絡(luò)的要求比較低,具有更強(qiáng)大的兼容性,不需要單獨(dú)建設(shè)無(wú)損網(wǎng)絡(luò),傳統(tǒng)以太網(wǎng)即可支持,因此在不追求高性能的情況下,NVMe over TCP將是未來(lái)市場(chǎng)的普遍選擇。
NVMe over RoCE是NVMe over RDMA的一種,RDMA是承載NoF的原生網(wǎng)絡(luò)協(xié)議,RDMA協(xié)議除了RoCE外還包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。其中,基于以太網(wǎng)的RoCE目前已成為RDMA的主流網(wǎng)絡(luò)承載方式。NVMe over RDMA協(xié)議比較簡(jiǎn)單,直接把NVMe的IO隊(duì)列映射到RDMA QP(Queue Pair)連接,通過(guò)RDMA SEND,RDMA WRITE,RDMA READ三個(gè)語(yǔ)義實(shí)現(xiàn)IO交互。NVMe over RoCE基于融合以太網(wǎng)的RDMA技術(shù)承載NVMe協(xié)議。
三種方案相比較,基于以太網(wǎng)的RoCE比FC性能更高(更高的帶寬、更低的時(shí)延),同時(shí)兼具TCP的優(yōu)勢(shì)(全以太化、全I(xiàn)P化),因此NVMe over RoCE是NoF最優(yōu)的承載網(wǎng)絡(luò)方案,也已成為業(yè)界NoF的主流技術(shù)。
基于以太網(wǎng)的RoCE在存儲(chǔ)性能、帶寬方面比FC有顯著優(yōu)勢(shì),但替換FC、聯(lián)接全閃存,標(biāo)準(zhǔn)的NoF(NVMe over RoCE)還需在3個(gè)方面加強(qiáng)完善:
網(wǎng)絡(luò)性能:零丟包
網(wǎng)絡(luò)零丟包是存儲(chǔ)網(wǎng)絡(luò)的基本需求,傳統(tǒng)以太網(wǎng)絡(luò)擁塞易丟包。
可靠性:秒級(jí)主備切換
存儲(chǔ)為了可靠性,會(huì)構(gòu)建多個(gè)網(wǎng)絡(luò)平面,切換時(shí)間需<1s。
易用性:即插即用
FC存儲(chǔ)網(wǎng)絡(luò)場(chǎng)景單一、配置簡(jiǎn)單,當(dāng)前以太網(wǎng)絡(luò)還需針對(duì)存儲(chǔ)場(chǎng)景適應(yīng)性改進(jìn)。
NoF+與NoF比有哪些優(yōu)勢(shì)?
基于當(dāng)下業(yè)界主流的標(biāo)準(zhǔn)NoF方案,華為依靠在網(wǎng)絡(luò)和存儲(chǔ)領(lǐng)域的深厚積累,進(jìn)一步從網(wǎng)絡(luò)性能、可靠性和易用性這三點(diǎn)都進(jìn)行提升,基于智能無(wú)損網(wǎng)絡(luò)面向集中式存儲(chǔ)場(chǎng)景提出了NoF+解決方案,將數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)進(jìn)一步推向更廣闊的發(fā)展空間。
網(wǎng)絡(luò)性能增強(qiáng):
華為NoF+方案改變了傳統(tǒng)以太網(wǎng)靜態(tài)水線方式,對(duì)網(wǎng)絡(luò)預(yù)測(cè)性能力進(jìn)行專項(xiàng)優(yōu)化,通過(guò)樣本計(jì)算,針對(duì)特定場(chǎng)景,基于獨(dú)創(chuàng)的iLossless智能無(wú)損算法進(jìn)行精準(zhǔn)的控制,從而預(yù)判業(yè)務(wù)對(duì)網(wǎng)絡(luò)的訴求,實(shí)時(shí)感知網(wǎng)絡(luò)流量模型,動(dòng)態(tài)調(diào)整水線,可實(shí)現(xiàn)存儲(chǔ)網(wǎng)絡(luò)高吞吐下的零丟包,進(jìn)一步提升性能。
可靠性增強(qiáng):
保障業(yè)務(wù)系統(tǒng)可靠是存儲(chǔ)的根基,比如存儲(chǔ)的秒級(jí)切換功能就是可靠性的關(guān)鍵保障之一,傳統(tǒng)以太網(wǎng)缺乏故障主動(dòng)發(fā)現(xiàn)和通知機(jī)制,發(fā)生故障時(shí)鏈路切換時(shí)間長(zhǎng),造成存儲(chǔ)業(yè)務(wù)中斷。華為NoF+方案推出智能感知特性,實(shí)現(xiàn)了從事后被動(dòng)響應(yīng)到主動(dòng)通知、提前識(shí)別擁塞和故障。當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)故障,業(yè)務(wù)會(huì)以亞秒級(jí)響應(yīng)速度切換,在高性能運(yùn)行的前提下,也能維持系統(tǒng)的穩(wěn)定可靠。
易用性增強(qiáng):
存儲(chǔ)場(chǎng)景下傳統(tǒng)以太網(wǎng)需要逐點(diǎn)手工配置,操作復(fù)雜且易出錯(cuò)。華為NoF+方案實(shí)現(xiàn)存儲(chǔ)和交換機(jī)的智能聯(lián)動(dòng),支持存儲(chǔ)設(shè)備的即插即用和一鍵式擴(kuò)容。業(yè)務(wù)變更只需在單點(diǎn)配置,即可自動(dòng)同步到全網(wǎng),業(yè)務(wù)發(fā)放效率顯著提升,增強(qiáng)了在未來(lái)建設(shè)時(shí)的易用性。
華為NoF+方案是業(yè)界唯一零丟包的以太網(wǎng),基于全閃存數(shù)據(jù)中心和超融合以太網(wǎng)絡(luò),通過(guò)最新一代OceanStor Dorado全閃存存儲(chǔ)系統(tǒng)和CloudEngine數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)交換機(jī)的聯(lián)合創(chuàng)新,針對(duì)傳統(tǒng)專用存儲(chǔ)網(wǎng)絡(luò),在性能、可靠性、易用性上均實(shí)現(xiàn)了顛覆性改進(jìn),是全閃存時(shí)代存儲(chǔ)網(wǎng)絡(luò)的的最佳選擇。
NoF+的網(wǎng)絡(luò)架構(gòu)
在數(shù)據(jù)中心常規(guī)組網(wǎng)里面,存儲(chǔ)網(wǎng)絡(luò)只是其中的一部分,集中式存儲(chǔ)是一個(gè)獨(dú)立的網(wǎng)絡(luò),與業(yè)務(wù)網(wǎng)絡(luò)在物理上隔離,如圖1-3所示。

數(shù)據(jù)中心集中式存儲(chǔ)網(wǎng)絡(luò)架構(gòu)圖
業(yè)務(wù)網(wǎng)絡(luò):是指業(yè)務(wù)服務(wù)器對(duì)外提供服務(wù)通信網(wǎng)絡(luò),該網(wǎng)絡(luò)與外部網(wǎng)絡(luò)互連互通。
計(jì)算網(wǎng)絡(luò):是指運(yùn)行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)數(shù)據(jù)庫(kù)的后臺(tái)服務(wù)計(jì)算節(jié)點(diǎn)所組成的物理網(wǎng)絡(luò),使用不同的網(wǎng)卡連接業(yè)務(wù)網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò),實(shí)現(xiàn)業(yè)務(wù)網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)之間物理隔離,避免相互影響。
存儲(chǔ)網(wǎng)絡(luò):是指計(jì)算服務(wù)器訪問(wèn)存儲(chǔ)數(shù)據(jù)時(shí)使用通信網(wǎng)絡(luò),該網(wǎng)絡(luò)一般是獨(dú)立的物理網(wǎng)絡(luò)。為了保證數(shù)據(jù)高可靠,存儲(chǔ)網(wǎng)絡(luò)支持DC級(jí)容災(zāi),支持同城雙活存儲(chǔ)網(wǎng)絡(luò),確保業(yè)務(wù)系統(tǒng)發(fā)生設(shè)備故障、甚至單數(shù)據(jù)中心故障時(shí),業(yè)務(wù)無(wú)感知自動(dòng)切換,實(shí)現(xiàn)RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0。
數(shù)據(jù)中心為了容災(zāi)考慮,需要實(shí)現(xiàn)多數(shù)據(jù)中心互通。同城兩個(gè)數(shù)據(jù)中心互為備份,且都處于運(yùn)行狀態(tài)。當(dāng)一個(gè)數(shù)據(jù)中心發(fā)生設(shè)備故障,甚至數(shù)據(jù)中心整體故障時(shí),業(yè)務(wù)自動(dòng)切換到另一個(gè)數(shù)據(jù)中心,解決了傳統(tǒng)災(zāi)備中心不能承載業(yè)務(wù)和業(yè)務(wù)無(wú)法自動(dòng)切換的問(wèn)題。提供給用戶高級(jí)別的數(shù)據(jù)可靠性以及業(yè)務(wù)連續(xù)性的同時(shí),提高存儲(chǔ)系統(tǒng)的資源利用率。
在集中式存儲(chǔ)下,DC間同城互聯(lián)的一般組網(wǎng)如圖1-4所示。為了實(shí)現(xiàn)同城讀寫支持NVME over RoCE,需要實(shí)現(xiàn)同城無(wú)損網(wǎng)絡(luò),即需要一套跨DC的無(wú)損網(wǎng)絡(luò),每個(gè)DC部署兩臺(tái)支持智能長(zhǎng)距無(wú)損的DCILeaf,中間通過(guò)波分設(shè)備或者裸光纖直連實(shí)現(xiàn)雙平面,實(shí)現(xiàn)端到端的RoCE無(wú)損網(wǎng)絡(luò)。

DC間同城互聯(lián)一般組網(wǎng)示意圖
NoF+的關(guān)鍵技術(shù)
流量控制
流量控制是端到端的,需要做的是抑制發(fā)送端的發(fā)送速率,以便接收端來(lái)得及接收,防止設(shè)備端口在擁塞的情況下出現(xiàn)丟包。華為提供了PFC死鎖檢測(cè)和死鎖預(yù)防,提前預(yù)防PFC死鎖的發(fā)生。
PFC(Priority-based Flow Control,基于優(yōu)先級(jí)的流量控制):是目前應(yīng)用最廣泛的流量控制技術(shù)。對(duì)于PFC控制的隊(duì)列,當(dāng)隊(duì)列在下游設(shè)備發(fā)生擁塞時(shí),上游設(shè)備會(huì)停止發(fā)送該隊(duì)列的流量,從而實(shí)現(xiàn)報(bào)文的零丟包傳輸。
PFC死鎖檢測(cè):通過(guò)對(duì)PFC死鎖進(jìn)行全程監(jiān)控,當(dāng)死鎖檢測(cè)周期內(nèi)持續(xù)收到PFC反壓幀時(shí),設(shè)備可以通過(guò)不響應(yīng)反壓幀的方式去解除PFC死鎖現(xiàn)象。
PFC死鎖預(yù)防:通過(guò)識(shí)別易造成PFC死鎖的業(yè)務(wù)流,修改隊(duì)列優(yōu)先級(jí),改變PFC反壓的路徑,避免PFC反壓幀形成環(huán)路,從而預(yù)防PFC死鎖的發(fā)生。
擁塞控制
擁塞控制是指對(duì)進(jìn)入網(wǎng)絡(luò)的數(shù)據(jù)總量進(jìn)行控制,使網(wǎng)絡(luò)流量保持在可接受水平的一種控制方法。擁塞控制與流量控制的區(qū)別在于,流量控制作用于接收者,而擁塞控制作用于網(wǎng)絡(luò),往往需要轉(zhuǎn)發(fā)設(shè)備、流量發(fā)送端、流量接收端協(xié)同作用,并結(jié)合網(wǎng)絡(luò)中的擁塞反饋機(jī)制來(lái)調(diào)節(jié)整網(wǎng)流量才能起到緩解擁塞、解除擁塞的效果。
ECN(Explicit Congestion Notification,顯式擁塞通知):是指流量接收端感知到網(wǎng)絡(luò)上發(fā)生擁塞后,通過(guò)協(xié)議報(bào)文通知流量發(fā)送端,使得流量發(fā)送端降低報(bào)文的發(fā)送速率,從而從早期避免擁塞而導(dǎo)致的丟包,實(shí)現(xiàn)網(wǎng)絡(luò)性能的最大利用。
AI ECN(Artificial Intelligence Explicit Congestion Notification):是指通過(guò)iLossless智能無(wú)損算法,根據(jù)現(xiàn)網(wǎng)流量模型進(jìn)行AI訓(xùn)練,以對(duì)網(wǎng)絡(luò)流量變化進(jìn)行預(yù)測(cè),及時(shí)推理出最優(yōu)的ECN門限,并且支持根據(jù)現(xiàn)網(wǎng)流量變化實(shí)時(shí)調(diào)整ECN門限,進(jìn)行無(wú)損隊(duì)列緩存的精確管控,保障整網(wǎng)的最優(yōu)性能。同時(shí),AI ECN功能與隊(duì)列調(diào)度技術(shù)配合使用時(shí),可以實(shí)現(xiàn)網(wǎng)絡(luò)中TCP流量與RoCEv2流量的混合調(diào)度,保障RoCEv2流量無(wú)損傳輸?shù)耐瑫r(shí)實(shí)現(xiàn)低時(shí)延和高吞吐,讓無(wú)損業(yè)務(wù)達(dá)到最優(yōu)性能。
NPCC(Network-based Proactive Congestion Control):是一種以網(wǎng)絡(luò)設(shè)備為核心的主動(dòng)擁塞控制技術(shù),可以在網(wǎng)絡(luò)設(shè)備上智能識(shí)別設(shè)備端口的擁塞狀態(tài),主動(dòng)發(fā)送CNP(Congestion Notification Packets,擁塞通知報(bào)文)報(bào)文,準(zhǔn)確控制服務(wù)器發(fā)送RoCEv2報(bào)文的速率,既可以確保擁塞時(shí)的及時(shí)降速,又可以避免擁塞已經(jīng)緩解時(shí)的過(guò)度降速,最終確保數(shù)據(jù)中心互聯(lián)這種長(zhǎng)距場(chǎng)景中RoCEv2業(yè)務(wù)的低時(shí)延和高吞吐。
iNOF
iNOF(Intelligent Lossless NVMe Over Fabric,智能無(wú)損存儲(chǔ)網(wǎng)絡(luò))是指通過(guò)對(duì)接入主機(jī)的快速管控,將智能無(wú)損網(wǎng)絡(luò)應(yīng)用到存儲(chǔ)系統(tǒng),實(shí)現(xiàn)計(jì)算和存儲(chǔ)網(wǎng)絡(luò)融合的技術(shù)。
存儲(chǔ)系統(tǒng)為了存儲(chǔ)大量的數(shù)據(jù),往往需要管理數(shù)量龐大的主機(jī),并且存在新主機(jī)陸續(xù)接入網(wǎng)絡(luò)設(shè)備的情況。為了讓智能無(wú)損網(wǎng)絡(luò)技術(shù)更好的服務(wù)于存儲(chǔ)系統(tǒng),提出了iNOF技術(shù),通過(guò)對(duì)接入主機(jī)的快速管控,可以第一時(shí)間獲知新接入的主機(jī),智能的調(diào)整智能無(wú)損網(wǎng)絡(luò)的相關(guān)配置,并且iNOF技術(shù)支持將主機(jī)信息通告給存儲(chǔ)系統(tǒng),可以協(xié)助存儲(chǔ)系統(tǒng)管理主機(jī)。
審核編輯:湯梓紅
-
華為
+關(guān)注
關(guān)注
218文章
35907瀏覽量
261504 -
服務(wù)器
+關(guān)注
關(guān)注
14文章
10176瀏覽量
91241 -
存儲(chǔ)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
31瀏覽量
8435 -
nvme
+關(guān)注
關(guān)注
0文章
292瀏覽量
23776 -
全閃存
+關(guān)注
關(guān)注
0文章
15瀏覽量
5146
原文標(biāo)題:什么是NoF+,相比NoF有哪些優(yōu)勢(shì)?
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
華為水利信息網(wǎng)解決方案
華為智能電網(wǎng)解決方案
超實(shí)用智能電網(wǎng)解決方案
華為智能電網(wǎng)解決方案
網(wǎng)絡(luò)存儲(chǔ)解決方案:存儲(chǔ)區(qū)域網(wǎng)(SAN)
華為發(fā)布數(shù)據(jù)存儲(chǔ)OneStorage解決方案
華為押寶新方向,中國(guó)專利申請(qǐng)量連續(xù)兩年超美國(guó)獲第一
華為發(fā)布NoF+存儲(chǔ)網(wǎng)絡(luò)解決方案
華為全無(wú)損以太存儲(chǔ)網(wǎng)絡(luò)NoF+整體架構(gòu)實(shí)現(xiàn)全網(wǎng)無(wú)差別可視與仿真
華為數(shù)字城軌2.0敏捷IP網(wǎng)絡(luò)解決方案分享
業(yè)界首個(gè)!華為首發(fā)微存儲(chǔ)新品:1ms穩(wěn)定低時(shí)延
華為NoF+存儲(chǔ)網(wǎng)絡(luò)解決方案實(shí)現(xiàn)顛覆性改進(jìn)
存儲(chǔ)網(wǎng)絡(luò)業(yè)務(wù)連續(xù)性解決方案
華為NoF+存儲(chǔ)網(wǎng)絡(luò)解決方案
評(píng)論