? ? ? 數(shù)據(jù)中心規(guī)模的提升直接導致組網(wǎng)復雜度的跨越式升級。而在新基建大潮之下,企業(yè)和社會對各類數(shù)字基礎設施的需求則有增無減。要讓數(shù)據(jù)和業(yè)務在數(shù)據(jù)中心內(nèi)暢行無阻,一張能夠與數(shù)據(jù)中心規(guī)模相匹配的高效網(wǎng)絡是關鍵。而組建高效網(wǎng)絡的第一步便是選對網(wǎng)絡架構。
? 三種數(shù)據(jù)中心場景,三種組網(wǎng)模型
伴隨數(shù)字化轉型的深入,“場景化”一度成為近兩年的熱詞。而就在計算和存儲設備還在為不同場景的需求和設計絞盡腦汁時,網(wǎng)絡的場景化卻早已在業(yè)內(nèi)成為共識。 正如面對不同的通行需求人們會修建不同等級的公路,工程師們也早已根據(jù)數(shù)據(jù)中心的不同規(guī)模和應用規(guī)劃了匹配的組網(wǎng)方案。
場景1:中小型數(shù)據(jù)中心
兩級Clos架構是應用應用較早、較普遍的網(wǎng)絡架構,現(xiàn)如今依然是很多行業(yè)客戶的首選。對于規(guī)??傮w有限的中小型數(shù)據(jù)中心來說,借由規(guī)格不斷提升的交換機,我們?nèi)阅芤赃@種簡單結構組成可靠的網(wǎng)絡。而這也正是兩級Clos架構能夠在中小型數(shù)據(jù)中心內(nèi)大行其道的主要原因。
典型的兩級Clos架構:AD-DC應用驅動數(shù)據(jù)中心解決方案 在兩級Clos架構中,整網(wǎng)設備只有兩種角色,此種架構的優(yōu)點是數(shù)據(jù)轉發(fā)路徑短,跨Leaf一跳可達,路徑和時延具有很強的一致性。統(tǒng)一的接入方式也給上線部署和水平擴展帶來了很大的便利條件,例如BGP協(xié)議的部署,策略的控制,日常維護和問題排查等。 兩級Clos架構對Spine交換機的性能和可靠性要求很高,一般采用數(shù)據(jù)中心框式核心交換機產(chǎn)品??蚴胶诵慕粨Q機有獨立的控制平面、轉發(fā)平面和支撐系統(tǒng),而且采用冗余設計,這使得整個系統(tǒng)在可靠性上遠高于盒式交換機。
數(shù)據(jù)中心框式核心交換機從576*10G到576*400G的性能演進 兩級Clos架構在和商用SDN控制器方案的適配上更成熟,結合SDN控制器可快速構建基于EVPN的網(wǎng)絡Overlay方案,降低東西向和南北向服務鏈的部署難度,滿足云場景下網(wǎng)絡對VM、裸金屬、容器等全形態(tài)計算資源聯(lián)動的需求。 另外,該架構也同樣適用于大型企業(yè)在各地部署的匯聚機房和邊緣機房,用于構建邊緣計算網(wǎng)絡,緩解主干網(wǎng)絡壓力和降低訪問時延。 場景2:大中型數(shù)據(jù)中心 兩級Clos架構所支撐的服務器規(guī)模一般小于20000臺,三級Clos架構的引入解決了兩級Clos架構在網(wǎng)絡規(guī)模上的瓶頸。三級Clos架構在兩級Clos架構的中間增加了一級匯聚交換機(Pod Spine),由一組Pod Spine交換機和其下連的所有Leaf交換機一起組成一個Pod,通過Spine層交換機將多個Pod互連組成整個網(wǎng)絡。增加Pod的數(shù)量即可實現(xiàn)網(wǎng)絡的水平擴展,大幅提升了網(wǎng)絡的擴展能力。同時,以Pod為單位進行業(yè)務部署,在適配多種業(yè)務需求、提供差異化服務等方面,三級Clos架構更具靈活性。
三級Clos架構示例 此外由于高密匯聚交換機Pod Spine的引入,Spine層的框式核心交換機突破了個位數(shù)限制,可以部署數(shù)十臺,Spine層框式核心交換機提供的總端口數(shù)可用于連接數(shù)十個Pod,整個網(wǎng)絡可以支撐服務器規(guī)模超過10萬臺。
高密匯聚交換機從32*100G到64*400G的性能演進 另外,通過調(diào)整Pod內(nèi)Pod Spine交換機的上、下行端口比例,可以靈活定義每個Pod的收斂比,在滿足不同業(yè)務需求的同時還有助于降低成本,避免不必要的浪費。 場景3:大型、超大型數(shù)據(jù)中心 互聯(lián)網(wǎng)企業(yè)總是能刷新人們對“海量”一詞的認知,無論是在商業(yè)模式層面還是在基礎架構層面都是如此。每分鐘幾億乃至幾十億的業(yè)務對數(shù)據(jù)中心的規(guī)模提出了更高的要求,而這也帶動了網(wǎng)絡結構的再一次進化?;诤惺皆O備的多平面組網(wǎng)架構,是當前頭部互聯(lián)網(wǎng)公司采用的新架構,用于組建大規(guī)模和超大規(guī)模的數(shù)據(jù)中心網(wǎng)絡。
基于盒式設備的多平面組網(wǎng)示例 不同于三級Clos架構中每臺Pod Spine都需要和所有Spine層交換機全互聯(lián);新架構中的Spine層交換機被分成多組(組數(shù)與每個Pod中Pod Spine交換機數(shù)量一致),每組中的Spine交換機均可構成一個獨立平面,而每個Pod中的Pod Spine交換機只需和對應平面中的Spine交換機全互聯(lián)即可。 這樣,整個Spine層便可連接更多的Pod,構建出支撐數(shù)十萬級別服務器的超大規(guī)模網(wǎng)絡。并且,隨著盒式交換機性能的提升,該架構還可以持續(xù)的提升容量空間。 同時,由于Spine和Pod Spine使用的設備相同,整個網(wǎng)絡在功能性、轉發(fā)延遲等方面均具備高度一致性。這就為業(yè)務部署和網(wǎng)絡調(diào)優(yōu)創(chuàng)造了巨大的優(yōu)勢。并且,整個網(wǎng)絡從100G組網(wǎng)向200G、400G組網(wǎng)以及后續(xù)更高速組網(wǎng)的演進上能保持同步。
未來數(shù)據(jù)中心網(wǎng)絡
01、可視化的網(wǎng)絡管理
從以上三種不同規(guī)模的數(shù)據(jù)中心組網(wǎng)方案中我們可以發(fā)現(xiàn),無論何種架構,管理都是一個不可不談的核心問題。那么,問題接踵而至:如何以更低的成本,實現(xiàn)更高效的網(wǎng)絡管理? 看得到交通情況,我們才能更好地管理公路;網(wǎng)絡的可視化也是高效管理的前提。 在實際應用中,網(wǎng)絡可視化技術不但能夠完成端到端的流量監(jiān)控、風險預警、協(xié)助故障排查;更可以通過數(shù)據(jù)積累和分析,實現(xiàn)數(shù)據(jù)中心網(wǎng)絡架構的優(yōu)化設計。
02、智能網(wǎng)卡將成為網(wǎng)絡的新末端
交換機+SmartNIC+UniServer服務器的端到端解決方案 智能網(wǎng)卡將是DCN網(wǎng)絡中重要的組成部分,具備可編程能力的智能網(wǎng)卡在釋放CPU資源、實現(xiàn)高性能轉發(fā)的同時,還擁有隧道封裝/解封裝、虛擬交換、加解密、RDMA等功能,隨著業(yè)務場景和需求的增加,越來越多的數(shù)據(jù)平面功能將由智能網(wǎng)卡來完成,打破了基于服務器或交換機各自實現(xiàn)的局限性,有望做到性能、功能和靈活性的完美平衡。
為什么會產(chǎn)生超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)?
現(xiàn)狀:數(shù)據(jù)中心內(nèi)有三張網(wǎng)絡
數(shù)據(jù)中心內(nèi)部有三類典型的業(yè)務:通用計算(一般業(yè)務)、高性能計算(HPC)業(yè)務和存儲業(yè)務。每類業(yè)務對于網(wǎng)絡有不同的訴求,比如:HPC業(yè)務的多節(jié)點進程間通信,對于時延要求非常高;而存儲業(yè)務對可靠性訴求非常高,要求網(wǎng)絡0丟包;通用計算業(yè)務規(guī)模大,擴展性強,要求網(wǎng)絡低成本、易擴展。 由于上述業(yè)務對網(wǎng)絡的要求不同,當前數(shù)據(jù)中心內(nèi)部一般會部署三張不同的網(wǎng)絡:
由IB(InfiniBand)網(wǎng)絡來承載HPC業(yè)務
由FC(Fiber Channel)網(wǎng)絡來承載存儲網(wǎng)絡
由以太網(wǎng)來承載通用計算業(yè)務
數(shù)據(jù)中心內(nèi)的三張網(wǎng)絡
AI時代的變化1:存儲和計算能力大幅提升,網(wǎng)絡成為瓶頸
企業(yè)數(shù)字化過程中將產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)正在成為企業(yè)核心資產(chǎn)。通過AI技術從海量數(shù)據(jù)中挖掘價值成為AI時代不變的主題。通過AI機器學習利用各種數(shù)據(jù)輔助實時決策,已經(jīng)成為企業(yè)經(jīng)營的核心任務之一。與云計算時代相比,AI時代企業(yè)數(shù)據(jù)中心的使命正在從聚焦業(yè)務快速發(fā)放向聚焦數(shù)據(jù)高效處理轉變。 ?
數(shù)據(jù)中心正在從云計算時代走向AI時代 ? 為了提升海量AI數(shù)據(jù)處理的效率,存儲和計算領域正在發(fā)生革命性的變化:
存儲介質(zhì)從機械硬盤(HDD)演進到閃存盤(SSD),來滿足數(shù)據(jù)的實時存取要求,存儲介質(zhì)時延降低了不止100倍。
為了滿足數(shù)據(jù)高效計算的訴求,業(yè)界已經(jīng)在采用GPU甚至專用的AI芯片,處理數(shù)據(jù)的能力提升了100倍以上。
隨著存儲介質(zhì)和計算能力的大幅提升,在高性能的數(shù)據(jù)中心集群系統(tǒng)中,當前網(wǎng)絡通信的時延成為應用整體性能進一步提升的瓶頸,通信時延在整個端到端時延中占比從10%上升到60%以上,也就是說,寶貴的存儲或計算資源有一半以上的時間是在等待網(wǎng)絡通信。 ? 總的來說,隨著存儲介質(zhì)和計算處理器的演進,網(wǎng)絡的低效阻礙了計算和存儲性能的發(fā)揮;只有將通信時長降低到與計算和存儲接近,才能消除木桶原理中的“短板”,提升應用整體的性能。
AI時代的變化2:RDMA替代TCP/IP成為大勢所趨,但RDMA的網(wǎng)絡承載方案存在不足
如下圖所示,在服務器內(nèi)部,由于TCP協(xié)議棧在接收/發(fā)送報文,以及對報文進行內(nèi)部處理時,會產(chǎn)生數(shù)十微秒的固定時延,這使得在AI數(shù)據(jù)運算和SSD分布式存儲這些微秒級系統(tǒng)中,TCP協(xié)議棧時延成為最明顯的瓶頸。另外,隨著網(wǎng)絡規(guī)模的擴大和帶寬的提高,寶貴的CPU資源越來越地多被用于傳輸數(shù)據(jù)。 ? RDMA(Remote Direct Memory Access)允許應用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫,將服務器內(nèi)的數(shù)據(jù)傳輸時延降低到接近1us。同時,RDMA允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大減少了CPU的負擔。 ?
RDMA與TCP的對比 ? 根據(jù)業(yè)務的測試數(shù)據(jù), 采用RDMA可以將計算的效率同比提升6~8倍;而服務器內(nèi)1us的傳輸時延也使得SSD分布式存儲的時延從ms級降低到us級成為可能,所以在最新的NVMe(Non-Volatile Memory express)接口協(xié)議中,RDMA成為主流的默認網(wǎng)絡通信協(xié)議棧。因此,RDMA替換TCP/IP成為大勢所趨。 ? 在服務器之間的互聯(lián)網(wǎng)絡中,當前有兩種方案來承載RDMA:專用InfiniBand網(wǎng)絡和傳統(tǒng)IP以太網(wǎng)絡,然而,它們都存在不足:
InfiniBand網(wǎng)絡:架構封閉,采用私有協(xié)議,難以與現(xiàn)網(wǎng)大規(guī)模的IP網(wǎng)絡實現(xiàn)很好的兼容互通;運維復雜,專人運維,OPEX居高不下。
傳統(tǒng)IP以太網(wǎng):對于RDMA來說,大于10-3的丟包率,將導致網(wǎng)絡有效吞吐急劇下降,2%的丟包則使得RDMA的吞吐率下降為0。要使得RDMA吞吐不受影響,丟包率必須保證在十萬分之一以下,最好為無丟包。而擁塞丟包是傳統(tǒng)IP以太網(wǎng)絡的基本機制,傳統(tǒng)IP以太網(wǎng)中會使用PFC和ECN機制來避免丟包,但其基本原理是通過反壓降低發(fā)送端速度來保證不丟包,實際上并沒有達到提升吞吐率的效果。
因此,RDMA的高效運行,離不開一個0丟包、高吞吐的開放以太網(wǎng)作為承載。
AI時代的變化3:分布式架構成為趨勢,加劇網(wǎng)絡擁塞,驅動網(wǎng)絡變革
在企業(yè)的數(shù)字化轉型中,以金融和互聯(lián)網(wǎng)企業(yè)為代表,大量的應用系統(tǒng)遷移到分布式系統(tǒng)上:通過海量的PC平臺替代傳統(tǒng)小型機,帶來了成本低廉、易擴展、自主可控等優(yōu)勢,同時也給網(wǎng)絡互聯(lián)帶來了挑戰(zhàn):
分布式架構帶來了服務器間大量的互通需求。
Incast型流量(多點對一點的流量)會在接收端造成流量突發(fā),瞬間超過接收端接口能力,造成擁塞丟包。
分布式架構流量模型示意
隨著分布式系統(tǒng)應用復雜度的增加,服務器之間交互的消息長度越來越大,即流量具備“大包”特征,進一步加劇了網(wǎng)絡擁塞。
什么是超融合網(wǎng)數(shù)據(jù)中心網(wǎng)絡的核心指標?
從上一節(jié)來看,為了滿足AI時代的數(shù)據(jù)高效處理訴求、應對分布式架構挑戰(zhàn),0丟包、低時延、高吞吐成為下一代數(shù)據(jù)中心網(wǎng)絡的三個核心指標。這三個核心指標是互相影響,有蹺蹺板效應,同時達到最優(yōu)有很大的挑戰(zhàn)。 ?
三個核心指標相互影響 ? 同時滿足0丟包、低時延、高吞吐,背后的核心技術是擁塞控制算法。通用的無損網(wǎng)絡的擁塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要網(wǎng)卡和網(wǎng)絡進行協(xié)作,每個節(jié)點需要配置數(shù)十個參數(shù),全網(wǎng)的參數(shù)組合達到幾十萬;為了簡化配置,只能采用通用的配置,導致針對不同的流量模型,常常無法同時滿足這三個核心指標。
超融合數(shù)據(jù)中心網(wǎng)絡與HCI有什么異同?
HCI(Hyper-Converged Infrastructure,超融合基礎架構)是指在同一套單元設備中不但具備了計算、網(wǎng)絡、存儲和服務器虛擬化等資源和技術,而且多套單元設備可以通過網(wǎng)絡聚合起來,實現(xiàn)模塊化的無縫橫向擴展(Scale—Out),形成統(tǒng)一的資源池。 ? HCI將虛擬化計算和存儲整合到同一個系統(tǒng)平臺。簡單地說就是物理服務器上運行虛擬化軟件(Hypervisor),通過在虛擬化軟件上運行分布式存儲服務供虛擬機使用。分布式存儲可以運行在虛擬化軟件上的虛擬機里也可以是與虛擬化軟件整合的模塊。廣義上說,HCI既可以整合計算和存儲資源,還可以整合網(wǎng)絡以及其它更多的平臺和服務。目前業(yè)界普遍認為,軟件定義的分布式存儲層和虛擬化計算是HCI架構的最小集。 ? 與HCI不同,超融合數(shù)據(jù)中心網(wǎng)絡只專注于網(wǎng)絡層面,提供全新的計算、存儲互聯(lián)的網(wǎng)絡層方案。使用超融合數(shù)據(jù)中心網(wǎng)絡,不需像HCI那樣對計算資源、存儲資源進行改造和融合,并且基于以太網(wǎng)很容易實現(xiàn)成低成本的快速擴容。 ? 的超融合數(shù)據(jù)中心網(wǎng)絡,基于開放以太網(wǎng),通過獨特的AI算法,可以使以太網(wǎng)絡同時滿足低成本,0丟包和低時延的訴求。超融合數(shù)據(jù)中心網(wǎng)絡成為AI時代的數(shù)據(jù)中心構建統(tǒng)一融合的網(wǎng)絡架構的最佳選擇。 ?
從獨立組網(wǎng)到統(tǒng)一融合的組網(wǎng)
超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)絡有什么價值?
傳統(tǒng)的FC專網(wǎng)和IB專網(wǎng),價格昂貴,生態(tài)封閉,且需要專人運維,也不支持SDN,無法滿足云網(wǎng)協(xié)同等自動化部署的訴求。 使用華為超融合數(shù)據(jù)中心網(wǎng)絡具有以下價值:
提升端到端業(yè)務性能使用華為超融合數(shù)據(jù)中心網(wǎng)絡,據(jù)權威第三方測試EANTC測試結論,可以在HPC場景下最高降低44.3%的計算時延,在分布式存儲場景下提升25%的IOPS能力,且所有場景保證網(wǎng)絡0丟包。 使用華為超融合數(shù)據(jù)中心網(wǎng)絡,可提供25G/100G/400G組網(wǎng),滿足AI時代海量數(shù)據(jù)對網(wǎng)絡大帶寬的需求。
降低成本,提升收益 數(shù)據(jù)中心投資中網(wǎng)絡占比僅10%左右,相對服務器/存儲的投資(占比85%),有10倍的杠桿效應,撬動服務器和存儲投資的大幅降低;華為超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)絡可以帶來25%的存儲性能提升,40%的計算效率提升,將帶來數(shù)十倍的ROI(Return On Investment)能力。
支持SDN自動化和智能運維 華為超融合數(shù)據(jù)中心網(wǎng)絡支持SDN云網(wǎng)協(xié)同的全生命周期業(yè)務自動化,OPEX降低至少60%以上。另外,由于華為超融合數(shù)據(jù)中心網(wǎng)絡本質(zhì)上是以太網(wǎng),因此傳統(tǒng)以太網(wǎng)運維人員就可以管理,且可以依托華為智能分析平臺iMaster NCE-FabricInsight,多維度地、可視化地對網(wǎng)絡進行運維。
超融合數(shù)據(jù)數(shù)據(jù)中心網(wǎng)絡如何工作? 上文提到,使用以太網(wǎng)來承載RDMA流量,目前使用的協(xié)議為RoCE(RDMA over Converged Ethernet)v2。華為超融合數(shù)據(jù)中心網(wǎng)絡,使用iLossless智能無損算法構建無損以太網(wǎng)絡,是一系列技術的合集,通過以下三個方面技術的相互配合,真正解決傳統(tǒng)以太網(wǎng)絡擁塞丟包的問題,為RoCEv2流量提供“無丟包、低時延、高吞吐”的網(wǎng)絡環(huán)境,滿足RoCEv2應用的高性能需求。
流量控制技術 流量控制是端到端的,需要做的是抑制發(fā)送端的發(fā)送速率,以便接收端來得及接收,防止設備端口在擁塞的情況下出現(xiàn)丟包。華為提供了PFC死鎖檢測和死鎖預防,提前預防PFC死鎖的發(fā)生。
擁塞控制技術 擁塞控制是一個全局性的過程,目的是讓網(wǎng)絡能承受現(xiàn)有的網(wǎng)絡負荷,往往需要轉發(fā)設備、流量發(fā)送端、流量接收端協(xié)同作用,并結合網(wǎng)絡中的擁塞反饋機制來調(diào)節(jié)整網(wǎng)流量才能起到緩解擁塞、解除擁塞的效果。在擁塞控制過程中,華為提供了AI ECN、iQCN、ECN Overlay和NPCC功能,解決了傳統(tǒng)DCQCN存在的問題。
智能無損存儲網(wǎng)絡技術
為了更好地服務存儲系統(tǒng),華為提供了iNOF(智能無損存儲網(wǎng)絡)功能,實現(xiàn)對主機的快速管控。
編輯:黃飛
?
評論