chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么需要可預期高性能網絡呢?

SDNLAB ? 來源:阿里云基礎設施 ? 作者:阿里云基礎設施 ? 2022-11-11 11:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,阿里云智能在SIGCOMM 2022斬獲兩篇關于“可預期高性能網絡”的研究論文“μFAB”和“Solar”。

可預期高性能網絡,是阿里云基礎設施研發(fā)的下一代數據中心網絡架構,是一種可以為上層應用提供穩(wěn)定的可用性、帶寬和低延遲保證的網絡。作為可預期高性能網絡的技術成果之一,本文將對“μFAB”和“Solar”這兩篇發(fā)表在SIGCOMM 2022的論文進行深度解讀。

為什么需要“可預期高性能網絡”?

當前的數據中心發(fā)展面臨重大挑戰(zhàn),無論從硬件更迭、應用規(guī)模,還是架構演進都對網絡提出了更高的要求。

首先,隨著CPU、GPU、TPU、DPU等新型算力硬件的不斷推陳出新,大量的數據需要網絡進行交互。存儲介質的不斷推陳出新,使得磁盤處理的時延從毫秒級降低到了微秒級,數據讀取的吞吐也得到了極大的提升,從而使得網絡逐漸成為端到端性能的短板。

其次,ML/HPC、存儲、數據庫等大型新型分布式系統(tǒng)和應用,對于性能越來越敏感,作為端到端性能的重要一環(huán),勢必要求網絡提供極致的網絡傳輸服務:例如,ESSD存儲要求百萬IOPS和100微秒的訪問時延,這種情況下任何網絡的抖動都會造成應用性能的下降。另外,分布式機器學習在單集群部署規(guī)模已達到10K-100K加速卡的情況下,需要頻繁的數據聚合和再分配,依賴網絡帶寬的保障和微秒級別的網絡時延,系統(tǒng)的瓶頸已經逐漸從計算轉移到了網絡傳輸。

此外,數據中心的資源池化(包括硬盤、GPU,甚至內存等)已成為主流。資源池化能夠帶來應用部署的便利,并且不同資源可以獨立進行演進升級,更能節(jié)省資源降低使用成本。但資源池化對網絡有非??量痰囊?,各種資源至少需要100G以上的接入網絡帶寬和10us以內甚至2us以內的時延。隨著內存池化的研發(fā),對于網絡的依賴會更加迫切。

μFAB:Predictable vFabric on Informative Data Plane

今天,隨著云計算的不斷發(fā)展,高性能存儲、分布式機器學習、資源池化等應用和架構的變革,對于網絡傳輸的要求也越來越高,即使微秒級別的網絡異常也會使得應用受影響。傳統(tǒng)的“盡力而為”的網絡服務模型已越來越不適應未來應用的需求。

可預期DCN服務模型

μFAB的目標,是在云數據中心為租戶提供帶寬保障、低延遲保障,以及最大化利用網絡帶寬資源。但在目前的網絡架構中,要同時實現這三點是非常困難,主要原因是:之前的工作通常把網絡當作一個黑盒,利用時延、探測等一系列的啟發(fā)式算法來做速率控制和路徑選擇,這樣便造成了需要毫秒級別的收斂時間,難以滿足應用日漸增加的對于性能的需求。

321dd4fc-5126-11ed-a3b6-dac502259ad0.png

圖 | μFAB的服務模型

μFAB的設計理念則恰好相反,其核心思想是網絡的透明化和信息化,即利用可編程網絡數據平面提供的鏈路狀態(tài)和租戶信息,并將這些信息反饋到主機側用于智能的速率控制和路徑選擇。

上圖所示μFAB的服務模型,每個租戶會被分配一個虛擬的網絡(Virtual Fabric),該虛擬網絡為租戶提供最小帶寬保障、最大化利用資源、低長尾延遲等三個SLA保障。而租戶的最小帶寬分配遵循云的彈性部署規(guī)范,租戶總帶寬之和不會超過網絡物理總帶寬。μFAB利用可編程網絡提供的精確信息,再通過端網協同的機制達到上述目標。

端網協同的具體工作方式為:一方面,主機側的μFAB-E模塊發(fā)送探測包,用以獲取網絡的信息,從而指導其做“速率控制”和“路徑選擇”。另一方面,網絡交換機上的μFAB-C模塊收集鏈路狀態(tài)和租戶的信息,并將這些信息做聚合,插入到發(fā)過來的探測包中,反饋給μFAB-E。

帶寬延遲保障算法

有了網絡透明化和端網協同,如何才能做到帶寬和時延的保障呢? μFAB使用的是按權重分配的做法,這樣做的好處是可以很快判斷出帶寬是否得到了滿足。發(fā)送窗口的計算方法為:

3274ea08-5126-11ed-a3b6-dac502259ad0.png

其中,3285b180-5126-11ed-a3b6-dac502259ad0.png是按租戶的權重進行的按權分配,而329f0798-5126-11ed-a3b6-dac502259ad0.png是交換機維護的所有租戶的發(fā)送窗口之和,32a9333a-5126-11ed-a3b6-dac502259ad0.png則是根據鏈路的負載進行的調整,用于最大化鏈路利用,同時做擁塞避免。32c4a16a-5126-11ed-a3b6-dac502259ad0.png、32d70ecc-5126-11ed-a3b6-dac502259ad0.png由探測包攜帶到網絡交換機中,32e6ac88-5126-11ed-a3b6-dac502259ad0.png、329f0798-5126-11ed-a3b6-dac502259ad0.png由交換機維護的租戶信息的聚合,而tx、qlen是交換機維護的網絡鏈路信息。 ?

那么,當多個租戶同時有流量請求的時候,是不是大家一起發(fā)流量就會造成網絡擁塞,從而導致長尾時延呢?μFAB在解決這個問題同時保障長尾低時延的做法是:允許租戶無論何時都可以按照最小帶寬保障發(fā)送,只有在網絡有剩余帶寬的情況下,才會逐漸增大發(fā)送速率。這么做的原理是,最小帶寬是租戶的SLA保障必須滿足,而盡可能地提高發(fā)送速率則是額外的獎勵,時效性要求相對較低。這樣既滿足了租戶對于隨時獲取最小帶寬的承諾,又使得在有多租戶突發(fā)流量的沖突的時候,依然能夠保障網絡的長尾時延。

另一個重要的點是,μFAB能夠充分利用整個網絡的帶寬資源,當一個路徑上的帶寬資源已經被分配完時,能夠快速地進行路徑切換,從而使用多個路徑的網絡帶寬資源。在路徑切換時,需要考慮兩種場景:一是當前路徑的帶寬已經不滿足租戶SLA,這種情況需要立刻進行路徑切換,但也要注意不要過于頻繁地連續(xù)切換。二是發(fā)現有路徑的更多帶寬資源的時候,這種情況的路徑切換是一種最大化利用網絡資源的行為,但相對來說沒有緊迫的時間需求,因此不用做得過于頻繁。

理論分析和硬件實驗


330af6f6-5126-11ed-a3b6-dac502259ad0.png

圖 | 測試環(huán)境和硬件測試結果

μFAB的理論分析表明:μFAB具備快速收斂,帶寬和時延保障等特性,即使在路徑切換中也能做到快速收斂而不會造成網絡震蕩。我們分別在FPGA和SOC的硬件網卡和Tofino交換機上做了相應的算法實現,并在三層fat-tree的網絡拓撲上做了網絡層驗證和應用層驗證。實驗表明,μFAB能提供給租戶最小帶寬保障和長尾低延遲,同時提供最大化地網絡帶寬利用,即使面對網絡故障的場景下,依然能夠快速收斂。

333141da-5126-11ed-a3b6-dac502259ad0.png

圖 | 應用層實測結果 為了驗證μFAB對于應用的實際增益,我們將一個租戶運行時延敏感型的Memcached,另一個租戶運行大帶寬的MongoDB應用進行對比實驗。實驗表明,μFAB能實現接近于理想狀態(tài)下的QPS(Query Per Second)和QCT(Query Completion Time)。這是因為μFAB總是能正確的選擇流量路徑,從而實現性能的隔離,以及快速的響應網絡擁塞。上圖可以看出μFAB能為應用等提供2.5倍的QPS提升、21倍的長尾延遲下降。

From Luna to Solar:The Evolutions of the Compute-to-Storage Networks in Alibaba Cloud

與傳統(tǒng)的“盡力而為(best effort)”的網絡設計理念不同,可預期高性能網絡利用軟硬結合、跨層設計和端網協同的理念,可提供微秒級別的帶寬、延遲保障。

計算存儲分離架構

3354bcd2-5126-11ed-a3b6-dac502259ad0.png

圖 | 計算存儲分離架構

在計算存儲分離架構下,所有的存儲I/O都需要網絡傳遞,因此網絡成為存儲應用的重要瓶頸。而存儲流量本身占了整個DCN的60%左右,大量的流量都是很多的小流組成的,例如40%的流量都不超過4KB。因此,存儲的流量對于帶寬和時延都有極高的要求。

Luna用戶態(tài)TCP協議

在應對SSD介質帶來的低時延同時,傳統(tǒng)內核態(tài)的tcp協議已然成為端到端性能的瓶頸。與存儲內部網絡使用RDMA來提高性能不同,計算到存儲網絡由于它的特殊要求,例如,需要支持十萬個連接這個規(guī)模,同時需要很高的互通性,而選擇了截然不同的協議。

2018年,阿里云在計算到存儲部署了用戶態(tài)tcp協議luna,實現了網絡到存儲的零拷貝和無鎖、零共享等機制,長尾延遲降低了80%。支持了新發(fā)布的ESSD產品,實現百萬IOPS和100微秒的I/O時延。

33ad9000-5126-11ed-a3b6-dac502259ad0.png

圖 | luna的長尾性能收益

裸金屬下的存儲挑戰(zhàn)

33e47f52-5126-11ed-a3b6-dac502259ad0.png

圖 | 裸金屬云的部署 裸金屬云為租戶提供整個物理主機,這樣租戶不僅可以靈活地定制機型和虛擬化平臺,快速上云,還能提供安全和性能的保障。例如,租戶在使用裸金屬服務器時,可以運行自定義的虛擬化平臺(如VMware cloud)或完成多云部署,甚至可以調用硬件底層API功能(如Intel RDT)。

但裸金屬云在提供給租戶更多可能的同時,也面臨自身性能和成本的挑戰(zhàn)。因為在將整個物理服務器交付給租戶的同時,裸金屬也不得不將云基礎設施軟件運行在“非侵入式”的硬件中,通常是網絡設備,如智能網卡、DPU、IPU、交換機等等。這樣的部署面臨著以下兩大挑戰(zhàn):

資源受限:相對于物理服務器,這些網絡設備通常面臨更少的資源和更低的功耗限制。在這種條件下,要實現相同甚至更好的云服務性能變得極具挑戰(zhàn);

帶寬受限:與傳統(tǒng)的虛擬化部署中,hypervisor和租戶使用內存拷貝交互數據不同,裸金屬場景下的虛擬化和數據交互需要經過智能網卡的緩存、處理和轉發(fā),在單個方向上數據會兩次通過智能網卡內的PCIe拷貝,數據在網卡中的雙向拷貝造成帶寬減半。

33f37372-5126-11ed-a3b6-dac502259ad0.png

圖 | 裸金屬下存儲前端的挑戰(zhàn) 帶寬減半原因如上圖所示。當租戶發(fā)送數據→數據通過主機PCIe到達智能網卡→通過智能網卡內部PCIe到達網卡CPU(一次拷貝)→網卡CPU處理→再通過智能網卡內部PCIe發(fā)到網口(二次拷貝),再從網口中發(fā)出。同理,租戶從網絡中接收數據也要經歷2次拷貝,例如,當網口提供雙向100Gb/s吞吐時候,租戶實際能獲得的帶寬只有雙向50Gb/s。

理想情況下,我們希望數據平面能夠直達主機PCIe,不用經歷智能網卡內部PCIe的中轉。

存儲與網絡融合的Solar協議

Solar的設計目標是:能夠極大地卸載存儲和網絡處理到硬件網卡中,從而降低CPU開銷,在提供網絡性能的同時規(guī)避網絡故障。但面臨的現實問題是存儲和網絡的協議處理都非常復雜,且存在大量的狀態(tài)。尤其在資源受限的智能網卡中,能留給存儲使用的資源非常有限。做硬件卸載是非常困難的。

340f73ce-5126-11ed-a3b6-dac502259ad0.png

圖 | 存儲硬件卸載的挑戰(zhàn)和解決方案 因此,Solar的設計理念是盡可能地減少協議的復雜度,使得硬件卸載可以非常容易地實現。如上圖所示,具體做法是對網絡和存儲進行跨層融合,利用網絡的jumbo frame使得一個網絡的數據包就直接等效成一個存儲的block。這樣協議上就不需要維護數據包到block的映射,也不會有在丟包后出現的隊首阻塞問題。更少的狀態(tài)處理也意味著Solar能夠節(jié)省CPU開銷,以及支持多路徑等能力。

343307f8-5126-11ed-a3b6-dac502259ad0.png

圖 | Solar的性能收益 從線上觀測看到,在采用Solar之后,計算側Storage agent(SA)的長尾時延下降了40%,這是因為Solar采用了存儲流量的數據平面卸載,這樣減少了CPU上的協議處理時延和時延的抖動。同時,由于流量不用經過兩次DPU上的PCIe bus,所以網絡吞吐能夠翻倍。

34a44684-5126-11ed-a3b6-dac502259ad0.png

圖 | EBS存儲的時延和帶寬演進 多年的線上實測試數據表明,隨著luna和Solar的規(guī)?;渴?,ebs存儲的時延在近幾年降低了72%,而IOPS提高了3倍。

結 語

可預期高性能網絡,是阿里云基礎設施為ML/HPC、高性能存儲等新型應用打造的新一代網絡架構,其核心目標是“為應用提供微秒級別的時延和帶寬保障”。μFAB和Solar分別闡述了實現上述目標的兩種重要技術手段:μFAB揭示了端網協同的融合設計,利用可編程網絡提供的精細網絡信息,在端上智能網卡用于速率控制和路徑選擇;Solar闡述了應用和網絡融合的設計理念,利用數據包和數據塊的一一映射,從而極大簡化狀態(tài)處理,提高處理吞吐、降低時延。這些設計的部署,極大地提升了網絡傳輸的服務質量,也給云上客戶以及未來算力融合帶來了持續(xù)價值。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • DPU
    DPU
    +關注

    關注

    0

    文章

    393

    瀏覽量

    24937
  • TPU
    TPU
    +關注

    關注

    0

    文章

    154

    瀏覽量

    21203
  • eSSD
    +關注

    關注

    0

    文章

    11

    瀏覽量

    7915

原文標題:深度解讀SIGCOMM 2022“可預期高性能網絡”論文

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何利用先進網絡技術實現持續(xù)AI云服務

    隨著 AI 技術的飛速發(fā)展,企業(yè)對云網絡高性能、低延遲和高擴展性提出了更高的要求。AI 應用通常需要兼顧訓練與推理,在處理海量數據和復雜的計算任務的同時,應對不可預測的突發(fā)和局部擁
    的頭像 發(fā)表于 05-16 10:41 ?471次閱讀
    如何利用先進<b class='flag-5'>網絡</b>技術實現<b class='flag-5'>可</b>持續(xù)AI云服務

    LMH6522 高性能四路DVGA技術手冊

    LMH6522包含四個高性能數控可變增益放大器(DVGA)。它被設計用于窄帶和寬帶中頻采樣應用。通常,LMH6522在廣泛的混合信號和數字通信應用中驅動高性能ADC,例如需要自動增益控制(AGC)來增加系統(tǒng)動態(tài)范圍的移動無線電和
    的頭像 發(fā)表于 05-09 09:37 ?283次閱讀
    LMH6522 <b class='flag-5'>高性能</b>四路DVGA技術手冊

    雙口萬兆光纖網卡:高性能網絡的基石與應用展望

    雙口萬兆光纖網卡,作為現代高性能網絡架構的關鍵組件,正日益受到數據中心、云計算、高性能計算(HPC)以及企業(yè)級網絡的廣泛應用。它以其卓越的吞吐量、極低的延遲以及光纖傳輸的inheren
    的頭像 發(fā)表于 05-06 15:47 ?291次閱讀
    雙口萬兆光纖網卡:<b class='flag-5'>高性能</b><b class='flag-5'>網絡</b>的基石與應用展望

    開售RK3576 高性能人工智能主板

    ZYSJ-2476B 高性能智能主板,采用瑞芯微 RK3576 高性能 AI 處理器、神經網絡處理器 NPU, Android 14.0/debian11/ubuntu20.04 操作系統(tǒng)
    發(fā)表于 04-23 10:55

    愛立信和Telstr部署亞太地區(qū)首個高性能可編程網絡

    愛立信近日將與運營商Telstra開展重要合作,提供亞太地區(qū)首個具有5G Advanced功能的高性能可編程網絡,此次轉型將為Telstra提供全球最先進、最具彈性、最可靠的5G網絡之一。
    的頭像 發(fā)表于 03-19 16:37 ?1.1w次閱讀

    Supermicro高性能服務器量產供貨,優(yōu)化多重工作負載

    應對計算需求嚴苛的高性能工作負載而設計。無論是大規(guī)模AI應用、集群規(guī)模的高性能計算,還是需要大量GPU支持的協作設計、媒體傳播等場景,這些服務器都能提供卓越的性能表現。 Supermi
    的頭像 發(fā)表于 01-21 11:00 ?481次閱讀

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應用開發(fā)熱度高漲,數量激增。但在三方應用鴻蒙化進程中,性能問題頻出。為此,HarmonyOS NEXT推出了一整套原生頁面高性能解決方案,包括
    發(fā)表于 01-02 18:00

    如何采購高性能的MOS管?

    在現代電子設計中,MOS管(金屬氧化物半導體場效應晶體管)作為關鍵元件,其性能直接影響到整個電路的穩(wěn)定性和效率。因此,在采購高性能MOS管時,需要從多個方面進行綜合考慮,以確保選擇到最適合的器件
    的頭像 發(fā)表于 11-19 14:22 ?623次閱讀
    如何采購<b class='flag-5'>高性能</b>的MOS管?

    AI高性能計算平臺是什么

    AI高性能計算平臺不僅是AI技術發(fā)展的基石,更是推動AI應用落地、加速產業(yè)升級的重要工具。以下,是對AI高性能計算平臺的介紹,由AI部落小編為您整理分享。
    的頭像 發(fā)表于 11-11 09:56 ?706次閱讀

    高性能云服務器有什么用處?

    高性能云服務器是一種基于云計算技術的虛擬化服務器,具有高性能、靈活性、可靠性和安全性等特點。它廣泛應用于網絡托管服務、數據備份與恢復、大數據分析、Web應用托管、流媒體存儲和播放、開發(fā)和測試環(huán)境
    的頭像 發(fā)表于 11-04 10:22 ?557次閱讀

    如何設計才能達到符合預期的THD+N性能指標?

    請問如何設計才能達到符合預期的THD+N性能指標?避免以低性能運行? 一、比如用在一個10倍放大的線路中,作為正相放大,正相輸入端可以懸空接信號輸入還是需要并聯電阻接地?
    發(fā)表于 09-30 06:42

    這些關鍵詞帶你了解智算中心高性能網絡

    以GPT-4和Llama3為代表的大語言模型實現了突破性進展,引爆了高性能計算。由于大語言模型爆炸增長的存儲和算力需求,其分布式計算需要芯片間進行高頻通信,網絡流量急劇增加。所以對通信網絡
    的頭像 發(fā)表于 09-19 11:52 ?791次閱讀

    燧原科技與銳捷網絡攜手共筑AI數據中心高性能網絡新紀元

    近日,燧原科技與知名網絡解決方案提供商銳捷網絡正式簽署戰(zhàn)略合作協議,雙方宣布將共同研發(fā)面向未來人工智能數據中心的高性能網絡互聯解決方案。此次合作旨在應對超大規(guī)模集群帶來的
    的頭像 發(fā)表于 07-29 11:27 ?928次閱讀

    國產高性能溫補晶振替換SiTime用于GPS導航系統(tǒng)

    國產高性能溫補晶振替換SiTime用于GPS導航系統(tǒng)
    的頭像 發(fā)表于 07-23 10:15 ?644次閱讀
    國產<b class='flag-5'>高性能</b>溫補晶振<b class='flag-5'>可</b>替換SiTime用于GPS導航系統(tǒng)

    帶你了解什么是高性能計算(HPC)

    受益于HPC更高的速度處理大量數據的能力,全球正在進入HPC大周期,高性能計算的發(fā)展水平已經成為衡量一個國家綜合實力和高科技發(fā)展水平的重要標志,美國、歐盟、日本、英國都高度重視高性能計算的發(fā)展,并在
    的頭像 發(fā)表于 07-20 08:28 ?1341次閱讀
    帶你了解什么是<b class='flag-5'>高性能</b>計算(HPC)