在阿里巴巴2019云棲大會第二天的飛天智能主論壇上,阿里巴巴副總裁賈揚清宣布,運行在英特爾至強可擴展處理器上的阿里云大數(shù)據(jù)計算服務MaxCompute,在大數(shù)據(jù)性能基準測試TPCx-BB(TPCx-BigBench)中以100TB的規(guī)模創(chuàng)造世界紀錄,并在30TB規(guī)模下性能比第二名高一倍、便宜一半。
TPCx-BB是目前業(yè)界最全面的端到端大數(shù)據(jù)標準測試集,阿里云成為首家公布TPCx-BB成績的云服務提供商,MaxCompute達到的100TB是目前為止的最大數(shù)據(jù)集。
會后,英特爾高級首席工程師、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權(quán),阿里云計算平臺高級總監(jiān)關(guān)濤接受智東西等少數(shù)媒體的采訪,就英特爾與阿里云在大數(shù)據(jù)上的合作、雙方在AI和云計算上的合作、選擇TPCx-BB測試的原因、阿里云大數(shù)據(jù)平臺的特性、升級大數(shù)據(jù)平臺可能遇到的挑戰(zhàn)等問題一一予以解答。
“我們是第一家非Hadoop體系的大數(shù)據(jù)系統(tǒng)接入到這個測試,我們也是第一家以公共云的形式接入這個測試的。”關(guān)濤表示,“之前的測試基本上都是用戶買一些服務器,然后在服務器上來做,最多是一個之前那種數(shù)據(jù)中心的形式。我們這次推動是以云推動服務的形式在上面做的測試?!?/p>
▲阿里云計算平臺高級總監(jiān)關(guān)濤(左),英特爾高級首席工程師、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權(quán)(右)
一、阿里大數(shù)據(jù)服務打破兩項世界紀錄
大數(shù)據(jù)性能基準測試TPCx-BB由國際標準組織TPC(Transaction Processing Performance Council)制定,通過最常用大數(shù)據(jù)應用場景,來全面衡量系統(tǒng)軟硬件性能,是業(yè)界選擇最佳軟硬件平臺的重要參考標準。
阿里云MaxCompute是一項大數(shù)據(jù)計算服務,能面向大數(shù)據(jù)開發(fā)者,提供快速、完全托管的PB級數(shù)據(jù)倉庫解決方案,從而經(jīng)濟、高效地分析和處理海量數(shù)據(jù),并支持SQL、MapReduce、Graph等多種計算模型。
這一新的世界紀錄源自英特爾和阿里云多年的合作。
英特爾作為測試基準中BigBench的重要貢獻者,與阿里云開發(fā)團隊深入合作,在軟硬結(jié)合層面做優(yōu)化,共同擴展TPCx-BB測試集,增加對MaxCompute計算引擎的支持,并一起在TPCx-BB委員會中共同推廣MaxCompute,促成TPCx-BB官方測試集升級,繼而正式納入阿里云MaxCompute計算引擎的支持。
此外,阿里云的EMR(Elastic MapReduce)大數(shù)據(jù)服務在另一項測試TPC-DS中也創(chuàng)造紀錄。
作為云服務提供商,相較于之前OEM公布的結(jié)果,阿里云大數(shù)據(jù)服務的成績不僅衡量了軟硬件的資本性投入,還包含了對運營成本的考量。
英特爾均以軟硬件全方位支持阿里云MaxCompute,為其提供在大數(shù)據(jù)引擎的標準適配、支持云計算模型、性能優(yōu)化及最大化內(nèi)存利用率等方面,大大提升大數(shù)據(jù)分析的性能和可擴展性,從而增強云上的大數(shù)據(jù)挖掘和商業(yè)智能分析的能力。
它在TPCx-BB中可以達到25641BBQpm(每分鐘處理的請求量),最高性價比可達USD224.49/BBQpm。
由兩項紀錄可見,在英特爾先進技術(shù)支持下,阿里云在云上大數(shù)據(jù)服務的規(guī)模和性價比方面都占據(jù)了業(yè)界領(lǐng)先的地位。
二、英特爾:硬件提升+軟硬協(xié)同優(yōu)化
英特爾與阿里云MaxCompute在Benchmark方面合作了約3年,希望通過軟硬件協(xié)作,在改進硬件的同時也優(yōu)化軟件,從而使關(guān)鍵的計算性能有更大的提升。
從硬件角度來說,主要是硬件本身性能的提升,阿里云MaxCompute跑在基于英特爾至強可擴展處理器的服務器上。
從軟件角度來說,雙方合作做了很多軟硬結(jié)合的相關(guān)優(yōu)化。第一,用大量英特爾工具去分析性能,找到性能的瓶頸;第二,針對其中很多核心的算法或算子,雙方工程師合作去提高各種性能。
比如說英特爾新的硬件比如說AVX-512以前是256位,現(xiàn)在是512位,那么這個新技術(shù)就會被應用。再加上在純軟件層面的優(yōu)化,疊加到一起使得系統(tǒng)性能翻一倍。
另外,雙方也在探索如何將包括大數(shù)據(jù)和AI計算框架在內(nèi)的整個計算流水線上,能在補充能力上有更好的合作。
關(guān)濤說,這些優(yōu)化大多數(shù)不會是一項優(yōu)化提升30%、40%,更多可以理解是幾十到幾百個小點上的優(yōu)化在一起,是一個逐步的過程。
英特爾的人會定期從上海到杭州來,除此之外,阿里與英特爾在上海有聯(lián)合的實驗室,雙方中間還打通了很多合作層面的環(huán)節(jié),讓兩個公司真正無縫的合作,因為阿里云是國內(nèi)最大的云廠商,英特爾從芯片層面是最大的公司,雙方有非常好的合作意愿,聯(lián)合實驗室、聯(lián)合項目組等工作都在進行。
三、英特爾和阿里云在AI和云計算的合作
除了TPCx-BB合作外,英特爾與阿里云在機器學習、深度學習等AI方面也有很多合作,包括英特爾的BigDL也可以跑在MaxCompute平臺上,為阿里內(nèi)部提供服務。
戴金權(quán)舉了個例子,今年7月,英特爾和阿里共同開啟了大數(shù)據(jù)處理分析競賽天池大賽,其中英特爾就將Flink、Analytics Zoo以及其非易失內(nèi)存等產(chǎn)品提供給大賽。
作為戰(zhàn)略合作伙伴,英特爾與阿里云還有著從云到端的合作。雙方在云計算方面還共同發(fā)布了“阿拉丁神燈計劃”,共建“開發(fā)者云”平臺。這一平臺將全面覆蓋從入門級云客戶到頂級ISV開發(fā)者社區(qū),為開發(fā)者提供零門檻云體驗。
英特爾不僅提供第二代英特爾至強可擴展處理器、英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存、英特爾深度學習加速技術(shù)等先進軟硬件,以建設“開發(fā)者云”平臺,幫助開發(fā)者持續(xù)進行創(chuàng)新,還將提供工程資源和推廣方面的支持,促進阿里云平臺的生態(tài)系統(tǒng)發(fā)展,并推動阿里云上的PaaS和IaaS應用。
此外,英特爾與阿里云在物聯(lián)網(wǎng)、邊緣計算等方面也將繼續(xù)深入合作,為各行各業(yè)數(shù)字化轉(zhuǎn)型注入更強動力。
四、阿里為什么選擇TPCx-BB測試?
阿里云計算平臺高級總監(jiān)關(guān)濤回憶了選擇TPCx-BB測試的原因。
2015年阿里最初開始測試時,做的是非常簡單的Softmark測試,是在大規(guī)模上純做排序。后來他們發(fā)現(xiàn),如果只做排序,無法代表越來越豐富的用戶作業(yè)場景,所以最后他們選擇了BigBench。
BigBench是一個相對權(quán)威的Benchmarking組織,同時包含大數(shù)據(jù)和機器學習的工作負載。它既包含了結(jié)構(gòu)化的24小時數(shù)據(jù),也包含了非結(jié)構(gòu)化的數(shù)據(jù)組成。它的測試結(jié)果更加豐富,有30種不同的維度基準聯(lián)合來測評。
阿里通過這個測試來評判其系統(tǒng)優(yōu)化程度,這需要一個穩(wěn)定的測試集合。據(jù)關(guān)濤介紹,其成績基本上每年約翻一倍,2018年的成績比2017年的成績快一倍還多一點,2019年的成績比2018年一倍稍差一點,但這幾個成績都是現(xiàn)今在世界上非常領(lǐng)先的成績。
目前,阿里巴巴和英特爾新發(fā)布的成績是兩個:(1)全球唯一一家通過100TB測試的系統(tǒng);(2)由于通過100TB的僅阿里一家,很難跟其他系統(tǒng)做對比,所以他們把這個維度稍微降低,和第二名系統(tǒng)在30TB上做對比,性能快一倍的同時,成本還可以大約降低一半。
這意味著,如果用阿里的系統(tǒng),以前需要1000臺機器完成的工作,MaxCompute僅用一半就能完成。
阿里集團內(nèi)部有接近10萬臺服務器的規(guī)模,同時保持著非常高的增速,從這個角度上,性能對他們來說是非常重要的。關(guān)濤說,“這也是為什么我們一直通過以Benchmark作為抓手,來鍛煉我們的平臺去做更多的優(yōu)化。”
五、阿里云MaxCompute的兩個唯一性
關(guān)濤說,阿里巴巴是國內(nèi)唯一一家,也是英特爾的客戶里唯一一家具備全棧自研大平臺的公司。
他告訴智東西,目前阿里巴巴公共云付費口的量級達到5000-10000,阿里將國內(nèi)行業(yè)性的專有云大概分成17個維度,其中有16個均已覆蓋,浙江省的“最多跑一次”項目、浙江省稅務系統(tǒng)、新浪微博、國內(nèi)最大在線互聯(lián)網(wǎng)保險公司眾安保險等都跑在阿里云上。
阿里巴巴從2009年就開始做飛天系統(tǒng),飛天系統(tǒng)當時分為三大塊,分別是分布式存儲“盤古”、資源調(diào)度“伏羲”、分布式計算MaxCompute。
約從2015年起,阿里云開始通過各種Benchmark,一方面以此為抓手優(yōu)化其系統(tǒng),另外一方面用以來體現(xiàn)其性能和性價比。
在阿里巴巴內(nèi)部,MaxCompute存儲了阿里巴巴99%的數(shù)據(jù),承接95%以上的計算需求,可以理解成阿里巴巴經(jīng)濟體的大數(shù)據(jù)內(nèi)存,大家能想到的所有阿里數(shù)據(jù)都從這個平臺走,比如淘寶、拍立淘、支付寶、支付信用分等應用,以及城市大腦、市政、石油、石化等面向各行業(yè)的底層性服務。
同樣也是從2015年開始,阿里在云上提供對外云服務,這也是目前阿里云排名前十的旗艦產(chǎn)品之一。
關(guān)濤表示,MaxCompute的功能和能力和Hadoop是同樣場景,但是其實現(xiàn)并非基于Hadoop,而是按照從存儲到計算都完全自研的系統(tǒng)。它有兩個唯一性:
其一,MaxCompute所做的是一個非Hadoop的系統(tǒng)測試;
其二,該系統(tǒng)在10年前開始做時,即按照云原生的角度設計,是第一個以云平臺的方式做這個測試的,而此前接入此測試的基本屬于Hadoop體系的原版或改進版,以線下自己買服務器這種方式來做。
這對計價系統(tǒng)、計費系統(tǒng)、整個BigBench的體系都有改變。他舉例道,之前的計費計價模式是,如果購買線下服務器可能要3年,而測試只用3天,但在云上的話,因為云端本來就是開箱即用,不用時也不收費,無需做采購硬件和應用規(guī)劃,時間上只用算3天即可。
阿里云與英特爾認為,云是未來發(fā)展的方向,大家會慢慢自建機房的方式轉(zhuǎn)向云。
六、升級大數(shù)據(jù)平臺所面臨的挑戰(zhàn)
在采訪期間,關(guān)濤從多個維度分享了升級大數(shù)據(jù)平臺可能會面臨的挑戰(zhàn)。
從最底層看,雖然大數(shù)據(jù)平臺是分布式系統(tǒng),但最基本的單元實際上是每個機器上運行的算子。這個算子運行在下層硬件的操作系統(tǒng)之上的,是最基礎(chǔ)的優(yōu)化,需考慮怎么樣讓底層設計更快、怎樣支持下層硬件。再往上是多機之間的網(wǎng)絡通訊問題,再往上是分布式系統(tǒng)的另外一點,叫水平拓展。
另外一個挑戰(zhàn)是,如何能在10萬臺規(guī)模上做到對應的水平。舉例而言,以前是5萬臺,增加到10萬臺后,性能能否按照服務器數(shù)量的增長水平翻一番。
如果分布式系統(tǒng)只有幾十臺、幾百臺服務器可能比較容易,但到萬臺規(guī)模還是比較難的,特別是當達到10萬臺規(guī)模時,這些機器甚至都不在一個數(shù)據(jù)中心里面。
比如10萬臺機器分散在杭州、內(nèi)蒙、河北,要使得在用戶看來這10萬臺機器是一體的,而實際上它又是分布式的,其調(diào)度系統(tǒng)、智能調(diào)度數(shù)據(jù)和作業(yè)使它們在10萬臺機器上能暢通地瀏覽,這里面包含負載均衡、調(diào)度策略的平衡,還要考慮偶爾某些機器壞掉的情況。
另外,TPCx-BB測試不僅看速度,還要看成本,這也是大數(shù)據(jù)平臺的客戶所在意的兩個指標。而僅僅是機器數(shù)量的增多,會導致成本上升,如何實現(xiàn)兩者的平衡同樣是一個考驗。
七、阿里大數(shù)據(jù)平臺的三個特點
關(guān)于阿里大數(shù)據(jù)平臺的特點,關(guān)濤談到評測、具體能力和系統(tǒng)特點等三個角度。
從評測層面來說,阿里應該是國內(nèi)做所有大數(shù)據(jù)評測中評價最高的一家公司。
從具體能力來說,阿里較早開始做云計算、大數(shù)據(jù),當初最早發(fā)現(xiàn)很多開源的技術(shù)很難達到阿里內(nèi)部和他們所認為的云成本控制要求,因此選擇了更艱難的自研之路,需要更多的資源投入、自己建標準?!暗俏覀兓〞r間堅持下來了?!标P(guān)濤說。
從系統(tǒng)特點來說,其系統(tǒng)有如下幾個方面。
第一方面,阿里非常關(guān)注性能和成本,包括底層實現(xiàn),比如阿里更多在大數(shù)據(jù)平臺下層用C++代碼,而大部分大數(shù)據(jù)平臺都是用Java來做的。我們C++可以更容易發(fā)揮優(yōu)勢,同時在優(yōu)化層面也可以更容易。
第二方面,阿里也是一家大數(shù)據(jù)的公司,有非常多的數(shù)據(jù),其大數(shù)據(jù)系統(tǒng)經(jīng)過阿里巴巴業(yè)務的充分錘煉和實踐。它既包括螞蟻金服這種金融級大數(shù)據(jù)的要求,也包括雙十一極致峰值沖擊的要求。
第三方面,其研發(fā)團隊背后靠的是阿里研究體系“達摩院”,MaxCompute也是“達摩院”加持的大數(shù)據(jù)平臺。
在偏硬件層面,阿里云和包括英特爾在內(nèi)的企業(yè)合作,這種合作也會給他們帶來非常好的性能提升。
結(jié)語:大數(shù)據(jù)是AI的數(shù)據(jù)支撐底座
在當日上午的主論壇中,阿里巴巴副總裁賈揚清提到一個概念:“AI算法孕育于數(shù)據(jù)的土壤?!彼f,由于深度學習的發(fā)展,人們發(fā)現(xiàn)更多數(shù)據(jù)往往帶來更好性能;真正落地的實際應用背后都有大量數(shù)據(jù)在支撐;數(shù)據(jù)有非常大的多樣性和復雜性,需要一套成熟的方法論做數(shù)據(jù)清洗、建模。
會后采訪期間,關(guān)濤也表達了相似的看法,他表示大數(shù)據(jù)是AI的數(shù)據(jù)支撐底座,在阿里,大數(shù)據(jù)平臺和AI平臺是一個“雙生系統(tǒng)”。比如,AI平臺的數(shù)據(jù)是從大數(shù)據(jù)平臺上來的,在前一部分數(shù)據(jù)的處理也是由大數(shù)據(jù)平臺來做,完成后會推到AI平臺上做機器學習和深度學習的處理,數(shù)據(jù)也可能再回流大數(shù)據(jù)平臺做其他的工作。
同樣,戴金權(quán)認為大數(shù)據(jù)和AI在真正的現(xiàn)實應用中應緊密聯(lián)合在一起。如何把AI模型應用和大數(shù)據(jù)處理分析的一整套流水線打通、將不同的組件更好的結(jié)合,是英特爾、阿里云都在做的事情。
他對國內(nèi)大數(shù)據(jù)技術(shù)的實力非常認可,認為國內(nèi)外大數(shù)據(jù)技術(shù)都在同一個起跑線,都能做到非常好的水準。全世界的工程師都在合作,某種意義上,國內(nèi)的數(shù)據(jù)更大、應用場景更多。
-
英特爾
+關(guān)注
關(guān)注
61文章
10196瀏覽量
174723 -
阿里巴巴
+關(guān)注
關(guān)注
7文章
1638瀏覽量
48247 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8960瀏覽量
140269
發(fā)布評論請先 登錄
評論