開放數(shù)據(jù)中心峰會(ODCC2020)在北京召開,峰會圍繞數(shù)據(jù)中心新基建為主題,有數(shù)據(jù)中心領域及相關行業(yè)的眾多專家與會。在9月16日網(wǎng)絡分論壇上,阿里巴巴的高級技術專家王永燦先生就阿里近年來自研交換機的實踐和探索進行了分享。
阿里巴巴高級技術專家王永燦
王永燦:隨著阿里云業(yè)務的快速發(fā)展,我們的數(shù)據(jù)中心網(wǎng)絡已經(jīng)發(fā)展成為一個超大規(guī)模的網(wǎng)絡,傳統(tǒng)的商業(yè)設備在運維的穩(wěn)定性和效率都是帶來了很大的挑戰(zhàn),網(wǎng)絡芯片在摩爾定律下仍然保持高速狂奔,基本上每兩年芯片帶寬就會翻一倍,所以阿里數(shù)據(jù)中心網(wǎng)絡已經(jīng)全面走向自研。
我們的自研交換機是盒式的單芯片交換機,整個數(shù)據(jù)中心實現(xiàn)了整集群全自研,包括自研光模塊、自研DAC?;谧匝薪粨Q機,實現(xiàn)了多平面可擴展的新一代網(wǎng)絡架構,實現(xiàn)單集群可部署超過10萬臺服務器
自研交換機和商業(yè)設備到底有什么區(qū)別?商業(yè)設備面對的是多客戶、多場景,所以特點是功能非常全,什么場景都可以用,數(shù)據(jù)中心對功能的要求不多,但對穩(wěn)定性和運維的效率有非常大的挑戰(zhàn),自研交換機正是這個場景的專用設備。
首先我們在功能上要求極簡,因為簡單所以穩(wěn)定,而實際上要做到真正的簡單比復雜更難。另一方面,在特定場景上,需要做到極致,來提升運維效率。舉個汽車換輪的例子,家用汽車有一個備胎,更換一般需要幾個小時。但是在一級方程式中,賽車需要在幾秒內(nèi)完成4個輪胎的更換,因此需要人和車的完美結(jié)合,整體能力的輸出,自研交換機也一樣,通過自研將架構、管控、運維和研發(fā)結(jié)合起來,形成一個內(nèi)部閉環(huán)的、迭代的體系,來提升整體網(wǎng)絡的能力。下面,在幾個代表性的場景上,進行詳細的介紹。
首先大規(guī)模網(wǎng)絡穩(wěn)定性的最重要一環(huán)是監(jiān)控。而商業(yè)設備是一個黑盒,因此主要以外部流量相關的監(jiān)控為主,而自研交換機是白盒,是系統(tǒng)內(nèi)部的代碼級監(jiān)控。其次,我們把運維經(jīng)驗與設備系統(tǒng)結(jié)合,設備可以主動告警、自修復。另外,在大規(guī)模網(wǎng)絡里,如果告警有噪聲,那么這個監(jiān)控幾乎是不可用的,因此自研機在本地進行數(shù)據(jù)分析,消除噪聲,精確告警。最后,在監(jiān)控數(shù)據(jù)的顆粒度上,從分鐘級提升到秒級,可以看到任何一秒的流量數(shù)據(jù),使監(jiān)控進入了秒級時代。因此雖然自研是新系統(tǒng),新芯片,新硬件,但是比商業(yè)機更穩(wěn)定,至今保持著0故障的記錄。
在數(shù)據(jù)中心網(wǎng)絡中,設備的硬件故障占比高,而硬件故障有兩個痛點:第一是硬件宕機故障,處理不可控,第二是,根因定位困難,重復發(fā)生。因此我們在自研上引入了服務器的BMC,并自主研發(fā)了BMC的OS – AliBMC。通過AliBMC,對硬件部件級監(jiān)控,對CPU和轉(zhuǎn)發(fā)芯片定制化監(jiān)控,使硬件故障可分析、可定位。另外通過標準化底層接口,與硬件解耦,從差異化的設備,變?yōu)榻y(tǒng)一的軟件系統(tǒng),完成了運維設備到運維軟件的轉(zhuǎn)變。最后我們將AliBMC向ODM進行了開源,來促進白盒的生態(tài)發(fā)展。
隨著自研的規(guī)模部署,設備鏈路也進入了百萬級。而以往的鏈路排查,是人工排查,靠換靠試,幾乎每天都需要花大量的人力、物力。鏈路排查的難點在于,涉及多器件,而且信號串聯(lián),互相干擾,一個器件有問題,多個器件狀態(tài)異常,而且還與軟件、配置、甚至機房環(huán)境、現(xiàn)場的人都相關,所以時間不可控,10天半月都很正常。因此我們在自研上,通過AliNOS將設備軟硬件技術、光模塊技術、運維經(jīng)驗深度融合,研發(fā)了鏈路自動診斷系統(tǒng) -- 明眸,通過明眸,對鏈路實時監(jiān)控、自動分析原因,建立數(shù)據(jù)大盤,實現(xiàn)百萬級鏈路的智能化運維。
最后,問題修復、新功能發(fā)布,都必須依賴設備的升級,而大規(guī)模網(wǎng)絡升級對效率和業(yè)務無損有極高的要求,因此我們在自研上從冷升級全面轉(zhuǎn)向了熱升級。AliNOS是一個開放的標準Linux,所有模塊都以Docker的方式部署,各個容器間通過DB通信。通過DB進行數(shù)據(jù)的存儲、恢復,實現(xiàn)了基于Docker的熱升級,做到升級對業(yè)務無損、0感知。另外通過AliNOS屏蔽了硬件差異,所有硬件型號一個版本、一個補丁,1萬臺和1臺無差別升級,簡化了運維復雜度,提升了運維效率
最后總結(jié)一下,通過自研交換機,我們把設備、運維、架構和管控進行結(jié)合,形成了一個內(nèi)部的閉環(huán),所以在很多場景都要做更多的智能化運維,以及針對高性能的新技術進行創(chuàng)新。
責任編輯:gt
-
交換機
+關注
關注
22文章
2747瀏覽量
101936 -
數(shù)據(jù)中心
+關注
關注
16文章
5230瀏覽量
73531 -
阿里巴巴
+關注
關注
7文章
1638瀏覽量
48247
發(fā)布評論請先 登錄
什么是工業(yè)級交換機?工業(yè)交換機作用有哪些?
工業(yè)交換機與普通交換機的區(qū)別:為什么工廠網(wǎng)絡寧貴不?。?/a>
POE交換機接口詳解
如何實現(xiàn)POE交換機串聯(lián)?
PoE交換機如何助力智慧城市基礎設施建設?
PoE交換機在安防監(jiān)控系統(tǒng)中的關鍵作用
PoE交換機與非PoE交換機的比較:兩者能否協(xié)同工作?
交換機與集線器的優(yōu)缺點 如何監(jiān)控交換機流量
24口全千兆交換機方案設計參考原理圖資料(資料可直接使用)
16口多模反射內(nèi)存交換機:高速數(shù)據(jù)共享的核心樞紐
智算中心網(wǎng)絡交換機需要什么樣的緩存架構

反射內(nèi)存交換機與普通交換機的區(qū)別

評論