云計算旨在靈活、有彈性地為企業(yè)提供附加價值。中國移動(CMCC)是中國最大的電信運營商和云服務(wù)提供商之一,正是通過其 Bigcloud 公共云產(chǎn)品提供這一服務(wù)。
Bigcloud 為關(guān)鍵任務(wù)應用程序提供 PaaS 和 SaaS 服務(wù),以滿足企業(yè)云和混合云解決方案的需求。中國移動深知企業(yè)想要在實時在線的數(shù)字世界中保持競爭力就必須依賴其網(wǎng)絡(luò)和通信基礎(chǔ)設(shè)施。
當他們開始遇到對其云原生服務(wù)的巨大需求時,中國移動通過開放虛擬交換機 (OVS – Open vSwitch)實現(xiàn)網(wǎng)絡(luò)抽象和虛擬化,以自動化并獲得對其網(wǎng)絡(luò)的動態(tài)網(wǎng)絡(luò)控制,幫助他們滿足不斷增長的需求。
然而,由于東西向網(wǎng)絡(luò)流量的增加,維持網(wǎng)絡(luò)性能成為一項嚴峻的挑戰(zhàn)。

圖 1 。 Bigcloud 網(wǎng)絡(luò)解決方案。
識別網(wǎng)絡(luò)挑戰(zhàn)
隨著云服務(wù)的大量采用,中國移動在其虛擬化環(huán)境方面獲得了巨大的增長。這種虛擬化的擴展在其數(shù)據(jù)中心內(nèi)的服務(wù)器之間產(chǎn)生了東西向流量的爆炸式增長。
由于網(wǎng)絡(luò)流量的增加,他們還看到了網(wǎng)絡(luò)擁塞的增加,導致更多的抖動和延遲,并阻礙了整體網(wǎng)絡(luò)吞吐量和應用程序性能。這導致了有效帶寬不足,他們無法跟上業(yè)務(wù)高峰時間的大量網(wǎng)絡(luò)流量。
在中國移動調(diào)查這些挑戰(zhàn)的原因時,他們確定這些問題的根源來自開放式交換機(OVS)的四個主要方面:
由于服務(wù)器 CPU 同時處理應用程序和網(wǎng)絡(luò)請求, 用于 VXLAN 封裝和解封規(guī)則處理的 vSwitch 交換效率低下。
由于在用戶空間、內(nèi)核空間和內(nèi)存之間頻繁進行上下文切換,導致基于內(nèi)核的 vSwitch 轉(zhuǎn)發(fā)性能不佳,從而產(chǎn)生數(shù)據(jù)復制開銷。
基于 DPDK 的 vSwitch 轉(zhuǎn)發(fā)造成了對服務(wù)器 CPU 資源的爭搶,這些資源本已受到嚴格的限制。
由于過度的數(shù)據(jù)包丟失、抖動和延遲導致吞吐量降低, vSwitch 流規(guī)則能力有限。
這些挑戰(zhàn)成為了瓶頸,阻礙了應用程序以盡可能低的延遲獲得所需的高網(wǎng)絡(luò)流量吞吐量。
雖然 OVS 允許在主機之間以及外部世界之間轉(zhuǎn)發(fā)數(shù)據(jù)包和流規(guī)則,但它是 CPU 密集型的,并通過消耗本應用于客戶應用程序的 CPU 內(nèi)核來影響系統(tǒng)性能,這將阻礙充分利用可用帶寬。
中國移動希望確保網(wǎng)絡(luò)應用程序的響應時間保持在較低水平,交付的帶寬保持一致,并且能夠滿足峰值需求。

圖 2 。 中國移動想要在其 BigCloud 的vSwitch Forwarding 上
同時支持 OVS 和 OVS-DPDK, 但在這方面面臨挑戰(zhàn)。
中國移動與這一領(lǐng)域的兩位專家,NVIDIA 和諾基亞合作,他們共同提供了一種高效的軟件定義網(wǎng)絡(luò)(SDN)解決方案。該解決方案結(jié)合了 NVIDIA ConnectX SmartNIC 和 NVIDIA BlueField DPU(數(shù)據(jù)處理器)在卸載、性能和效率方面的技術(shù),以及 Nuage Networks 虛擬化服務(wù)平臺(VSP)的靈活性、彈性和自動化。
NVIDIA 和 Nuage 共同卸載了與 OVS 相關(guān)的計算密集型數(shù)據(jù)包處理操作,并釋放了昂貴的計算資源,以便它們可以運行應用程序而不是 SDN 任務(wù)。
SmartNIC 和 DPU 賦能的加速網(wǎng)絡(luò)
NVIDIA ConnectX 系列智能網(wǎng)卡和 BlueField 系列 DPU 提供 NVIDIA 加速交換和數(shù)據(jù)包處理(ASAP 2)技術(shù),該技術(shù)在網(wǎng)卡(NIC)硬件內(nèi)運行 OVS 數(shù)據(jù)平面,同時保持 OVS 控制平面完整性和對應用程序的完全透明性。
ASAP2 有兩種模式。在第一種模式中,硬件數(shù)據(jù)平面構(gòu)建在 SR-IOV 虛擬功能(VF)之上,以便每個網(wǎng)絡(luò) VF 可以直接連接到其對應的虛擬機(VM) 。
另一種模式是通過虛擬數(shù)據(jù)路徑加速(vDPA)進行 VirtIO 加速。VirtIO 允許虛擬機對硬件設(shè)備(如網(wǎng)卡)進行本地訪問,而 vDPA 通過使用稱之為 Virtqueue 的設(shè)備隊列來在網(wǎng)絡(luò)設(shè)備和標準 VirtIO 驅(qū)動程序之間構(gòu)建的 OVS 數(shù)據(jù)平面,并與 VM 建立連接。這實現(xiàn)了虛擬機和加速網(wǎng)絡(luò)之間的無縫集成,控制平面在主機上進行管理,而 VirtIO 數(shù)據(jù)平面則由智能網(wǎng)卡進行硬件加速。

圖 3 。 vDPA 使用智能網(wǎng)卡硬件來卸載和加速每個虛擬機的流量。
Nuage Networks SDN 與
NVIDIA vDPA 技術(shù)的無縫集成
Nuage Networks 通過其虛擬化服務(wù)平臺(VSP)對本解決方案做出貢獻。VSP 執(zhí)行虛擬路由和交換,是基于開放虛擬交換機的分布式轉(zhuǎn)發(fā)模塊,用作網(wǎng)絡(luò)服務(wù)的虛擬端點。VSP 立即識別計算環(huán)境中的任何變化,觸發(fā)網(wǎng)絡(luò)連接和配置中基于策略的即時響應,以確保應用程序性能。
Nuage Networks 的 VSP 使用 VXLAN 等隧道協(xié)議將原始有效負載封裝為覆蓋 SDN 解決方案。
由于標準網(wǎng)卡不識別新的數(shù)據(jù)包頭格式,傳統(tǒng)上所有數(shù)據(jù)包操作都必須由 CPU 執(zhí)行,這可能會使 CPU 負擔過重,并導致網(wǎng)絡(luò)輸入/輸出(I/O)性能顯著下降,尤其是隨著服務(wù)器輸入/輸出速度的增加。
因此,Overlay 網(wǎng)絡(luò)處理需要被卸載到一個特定用于 I / O 的硬件適配器上,該適配器可以處理 VXLAN ,如 ConnectX 或 BlueField ,以減少 CPU 壓力。
vDPA 的性能優(yōu)勢

圖 4 。 在軟件中運行 OVS-DPDK 和 ASAP2 vDPA 硬件加速的性能對比。
中國移動決定采用 VirtIO 解決方案以實現(xiàn)最大的兼容性,他們希望能夠根據(jù)使用情況選擇純 OVS 或 OVS DPDK 。Nuage Network 和 NVIDIA 攜手合作,為中國移動的公共云提供了一個敏捷、可擴展、硬件加速的 SDN 解決方案,并支持兩種類型的網(wǎng)絡(luò)虛擬化。
使用 Nuage Networks VSP 和 NVIDIA 硬件加速 vDPA 的聯(lián)合解決方案顯著提高了性能。與單獨在軟件中運行 OVS-DPDK 相比,網(wǎng)絡(luò)吞吐量增加了 1.5 倍,數(shù)據(jù)包轉(zhuǎn)發(fā)速度加快了 3 倍,Apache 基準測試每秒支持的請求數(shù)增加了 7 倍。
-
交換機
+關(guān)注
關(guān)注
23文章
2849瀏覽量
103482 -
中國移動
+關(guān)注
關(guān)注
22文章
5688瀏覽量
76440 -
應用程序
+關(guān)注
關(guān)注
38文章
3339瀏覽量
59766
原文標題:在中國移動 Bigcloud 上加速云原生應用
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄

中國移動Bigcloud為關(guān)鍵任務(wù)應用程序提供 PaaS 和 SaaS 服務(wù)
評論