阿里云存儲(chǔ)的本質(zhì)及特性分析
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
最近兩年,鑒黃、CDN是云存儲(chǔ)提供商津津樂道的特性,但在阿里云看來,鑒黃只是視覺計(jì)算的一部分,視覺計(jì)算、CDN也不足以代表云存儲(chǔ)的研發(fā)方向。世界究竟需要什么樣的云存儲(chǔ)呢?在日前的北京云棲大會(huì)上,阿里云資深總監(jiān)Jason和阿里云存儲(chǔ)專家承宗接受CSDN記者采訪,介紹了了他們對(duì)云存儲(chǔ)的理解,以及阿里云存儲(chǔ)的研發(fā)規(guī)劃和研發(fā)進(jìn)展。
在阿里云存儲(chǔ)看來,相對(duì)于承擔(dān)傳統(tǒng)數(shù)據(jù)存儲(chǔ)的任務(wù),云存儲(chǔ)更重要的是扮演整個(gè)大規(guī)模計(jì)算和大規(guī)模分發(fā)的底盤的角色。為了實(shí)現(xiàn)這種能力,阿里云存儲(chǔ)不僅要提供對(duì)象、文件、NAS、SAN以及數(shù)據(jù)完整性/安全性的保障,保證云存儲(chǔ)的通用性、兼容性(對(duì)存儲(chǔ)模式)以及其他各種企業(yè)級(jí)特性,更重要的是要能夠提供接口支持各種不同的計(jì)算框架,比如MapReduce、Hadoop和Spark等主流大數(shù)據(jù)技術(shù),阿里云自研的MaxCompute(原ODPS)和流式計(jì)算,以及不同行業(yè)、不同類型的不同算法需求。
云存儲(chǔ)的本質(zhì)
提出數(shù)據(jù)技術(shù)(DT)時(shí)代概念的阿里云,在談云存儲(chǔ)的時(shí)候,已經(jīng)把重心放在數(shù)據(jù)和計(jì)算上。所謂大規(guī)模計(jì)算和大規(guī)模分發(fā)的底盤,意味著用戶只要將數(shù)據(jù)存儲(chǔ)在云存儲(chǔ)產(chǎn)品上,就能夠在上面隨時(shí)部署一套靈活的計(jì)算系統(tǒng)進(jìn)行這些數(shù)據(jù)的計(jì)算,然后進(jìn)行加工,并再次進(jìn)行分發(fā),從而實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。
阿里云表示,其他的云存儲(chǔ)廠商不會(huì)和基因公司產(chǎn)生很大的關(guān)聯(lián),因?yàn)榛蚬竞芏鄷r(shí)候用到的是計(jì)算,但北京云棲大會(huì)會(huì)迎來一個(gè)基因計(jì)算專場(chǎng),Genedock和安諾優(yōu)達(dá)兩家基因公司會(huì)分享他們?cè)粕线M(jìn)行計(jì)算和數(shù)據(jù)交付的實(shí)踐經(jīng)驗(yàn)。此前,華大基因的專家曾介紹,華大基因在阿里云存儲(chǔ)和ECS上進(jìn)行了大規(guī)模的算法的比較,由于吞吐和IO的線性擴(kuò)展,基于云存儲(chǔ)可以大幅提高計(jì)算的效率。這得益于性能優(yōu)化以及對(duì)大規(guī)模計(jì)算、大規(guī)模存儲(chǔ)的支持。
關(guān)注計(jì)算的原因在與釋放數(shù)據(jù)價(jià)值。對(duì)于阿里云存儲(chǔ)而言,目前主要有兩個(gè)方向:
當(dāng)前數(shù)據(jù)是通過分發(fā)和交互產(chǎn)生價(jià)值的。針對(duì)娛樂領(lǐng)域,阿里云存儲(chǔ)會(huì)不斷加強(qiáng)與分發(fā)網(wǎng)絡(luò)以及圖片、音視頻多媒體的結(jié)合,和視頻云部門一起合作研發(fā),整合出一些更好的應(yīng)用。
數(shù)據(jù)產(chǎn)生價(jià)值的方式,有可能是數(shù)據(jù)加工,數(shù)據(jù)處理,以及數(shù)據(jù)的轉(zhuǎn)化,再次產(chǎn)生數(shù)據(jù)產(chǎn)生的價(jià)值,這就和計(jì)算緊密的相關(guān)。例如,針對(duì)當(dāng)前業(yè)界最火的視覺計(jì)算,阿里云存儲(chǔ)已經(jīng)在和數(shù)加團(tuán)隊(duì)(阿里云的大數(shù)據(jù)處理團(tuán)隊(duì))展開聯(lián)合研發(fā),未來會(huì)和數(shù)加以及更多的第三方公司在計(jì)算機(jī)視覺上進(jìn)行深入的合作研發(fā),目標(biāo)是提供更好的數(shù)據(jù)產(chǎn)品。
視覺計(jì)算只是一部分。大概半年前,阿里云存儲(chǔ)就開始思考和實(shí)現(xiàn)一種“輕計(jì)算框架”,和包括數(shù)加團(tuán)隊(duì)在內(nèi)的各個(gè)集團(tuán)技術(shù)團(tuán)隊(duì)一起進(jìn)行生命科學(xué)、交通控制、天氣預(yù)報(bào)、地震預(yù)測(cè)和研究等存儲(chǔ)加計(jì)算的合作。
對(duì)于一些免費(fèi)提供云存儲(chǔ)同時(shí)提供收費(fèi)CDN的做法,阿里云則認(rèn)為,這種云存儲(chǔ)實(shí)際上已經(jīng)轉(zhuǎn)型為CDN廠商,其目標(biāo)是把CDN以比較高的價(jià)格賣出去,隱含的存儲(chǔ)成本被包含在CDN成本里,并且CDN包含的存儲(chǔ)也不可能是無限量的,超出一定數(shù)量的部分還是會(huì)收費(fèi)。
輕計(jì)算框架的實(shí)現(xiàn)
所謂輕計(jì)算框架,作為阿里云存儲(chǔ)的戰(zhàn)略之一,就是希望打破傳統(tǒng)的存儲(chǔ)和計(jì)算弱相關(guān)的狀態(tài)(不同計(jì)算系統(tǒng)后端的數(shù)據(jù)存儲(chǔ)是一座孤島,各自割裂),從發(fā)掘數(shù)據(jù)價(jià)值的維度去考慮存儲(chǔ)系統(tǒng)設(shè)計(jì)與研發(fā),以及存儲(chǔ)作為基礎(chǔ)設(shè)施如何與各種周邊產(chǎn)品和生態(tài)之間的合作。
具體而言,阿里云今天要解決的問題,就是為一份相同的數(shù)據(jù)提供一套不同的接口,讓用戶可以通過這些接口連接不同的計(jì)算框架或者計(jì)算系統(tǒng),而且這些計(jì)算系統(tǒng)產(chǎn)生的數(shù)據(jù)又可以回流并被共享。
輕計(jì)算框架的實(shí)現(xiàn)有很多技術(shù)挑戰(zhàn)。首當(dāng)其沖的是如何提供不同的API實(shí)現(xiàn)數(shù)據(jù)被不同的計(jì)算系統(tǒng)共享。阿里云存儲(chǔ)目前實(shí)現(xiàn)了哪些技術(shù)更新?專家從內(nèi)部和外部?jī)煞矫娣謩e說明。
首先,阿里云大數(shù)據(jù)計(jì)算框架MaxCompute(原ODPS)已經(jīng)和阿里云存儲(chǔ)產(chǎn)品打通,提供結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理。數(shù)加平臺(tái)上很多計(jì)算,比如推薦系統(tǒng)的數(shù)據(jù),都可以放在結(jié)構(gòu)化或者是非結(jié)構(gòu)化的存儲(chǔ)系統(tǒng)里面。
阿里云最近發(fā)布的E-MapReduce(EMR),也是一個(gè)典型的存儲(chǔ)跟計(jì)算之間融合打通的產(chǎn)品,用戶可以把數(shù)據(jù)存在非結(jié)構(gòu)化的OSS上面,或者是結(jié)構(gòu)化的表格存儲(chǔ)上面,然后在上面跑EMR。
同時(shí),阿里云存儲(chǔ)也在和內(nèi)部的流計(jì)算系統(tǒng)都有很好的融合和連接。
HPC整合。阿里云HPC產(chǎn)品可以把GPU的能力,以及GPU加速機(jī)器學(xué)習(xí)的算法提供給用戶,阿里云希望做一種diskless Computing——在計(jì)算單元里面不帶任何的磁盤,啟動(dòng)、數(shù)據(jù)、計(jì)算、結(jié)果,一切都由外掛的云存儲(chǔ)支持。阿里云存儲(chǔ)在做兩種嘗試:
跟NAS系統(tǒng)連接起來,即所有的GPU和HPC的計(jì)算單元,結(jié)合進(jìn)阿里云的NAS文件系統(tǒng)上。數(shù)據(jù),既可以直接在NAS上讀寫;對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),也可以在OSS上面進(jìn)行讀寫。
視覺計(jì)算。視覺計(jì)算有很多不同的細(xì)分,鑒黃只是其中之一,阿里云利用輕計(jì)算的框架來提供一些已經(jīng)定義好的功能,如廣泛使用的圖片水印,旋轉(zhuǎn)等功能,也可以讓用戶自定義一些計(jì)算,以類似于微服務(wù)的方式,把計(jì)算放到存儲(chǔ)上去,達(dá)到即存即處理的效果。
阿里云還提供一種UDF(user define function)的功能,用戶可以把自己定義的函數(shù)上傳成一個(gè)Docker鏡像。數(shù)據(jù)上傳后,自動(dòng)觸發(fā)函數(shù)的調(diào)用,處理這些數(shù)據(jù)。處理后的結(jié)果又可以轉(zhuǎn)存回來。這個(gè)功能目前只對(duì)部分客戶開戶,很快會(huì)對(duì)所有人開放。
整個(gè)跟外部Hadoop開源的生態(tài)已經(jīng)打通,OSS對(duì)象存儲(chǔ)已經(jīng)像AWS S3一樣成為整個(gè)Hadoop存儲(chǔ)系統(tǒng)缺省的選項(xiàng)之一。如果用戶數(shù)據(jù)已經(jīng)放在OSS上,同時(shí)有一套原生的Hadoop開源計(jì)算系統(tǒng),他可以不需要修改任何代碼,只要有一個(gè)選項(xiàng)填上阿里云OSS,就可以直接用OSS的數(shù)據(jù)來做計(jì)算。這相當(dāng)于一端可以用手機(jī)或者是用其他的終端來上傳數(shù)據(jù),在另外一端可以用已有的大數(shù)據(jù)計(jì)算系統(tǒng)來處理這些數(shù)據(jù)。
Spark開源系統(tǒng)的整合。Spark底層存儲(chǔ)Tachyon,現(xiàn)已更名為Alluxio,已實(shí)現(xiàn)了對(duì)阿里云OSS的原生支持。OSS作為一個(gè)缺省的底層存儲(chǔ)的provider,讓存儲(chǔ)在Alluxio內(nèi)存文件系統(tǒng)中的數(shù)據(jù)可以使用阿里云OSS服務(wù)來作為持久化存儲(chǔ)介質(zhì)和數(shù)據(jù)交換平臺(tái),極大增強(qiáng)了用戶體驗(yàn)。
此外,阿里云存儲(chǔ)也在跟交通、氣象、地震等垂直領(lǐng)域做非結(jié)構(gòu)化存儲(chǔ)、結(jié)構(gòu)化存儲(chǔ)和計(jì)算之間的打通。
典型案例
典型的例子由于涉及國(guó)計(jì)民生的領(lǐng)域還不能談太多,阿里云簡(jiǎn)單介紹了杭州的智能交通的處理系統(tǒng),把各個(gè)點(diǎn)上的路況、車況監(jiān)控的數(shù)據(jù)聯(lián)合在一起,這是非常龐大的數(shù)據(jù)集合,在這上面加上數(shù)加平臺(tái)的深度學(xué)習(xí)等算法,對(duì)整個(gè)交通狀況的改善取得了非常大的效果。
阿里云還有一款計(jì)算產(chǎn)品叫批量計(jì)算(Batch Compute),底層缺省的存儲(chǔ)就是OSS,有渲染和基因計(jì)算兩部分的用戶:
渲染:把素材放到OSS上,批量計(jì)算把這些素材拿過去進(jìn)行渲染,渲染完把這些結(jié)果再寫回OSS。這是最早的和OSS進(jìn)行打通的一個(gè)計(jì)算產(chǎn)品,《小門神》、《昆塔》等電影,實(shí)際上都是在上面渲染出來的。
基因計(jì)算:基因行業(yè)會(huì)把基因測(cè)序文件開得很大,單個(gè)人甚至是水稻基因組的數(shù)據(jù)放到OSS上,然后進(jìn)行計(jì)算,最后的結(jié)果放在OSS,然后再通過某種方式,就是傳送給最終的醫(yī)療機(jī)構(gòu),把數(shù)據(jù)讓他們?cè)偃∽?。這就是云上的數(shù)據(jù)上傳、加工、計(jì)算、轉(zhuǎn)化,然后再分發(fā)的一個(gè)過程。當(dāng)然這個(gè)過程有健全的通道和加密的方式。
阿里云強(qiáng)調(diào),數(shù)據(jù)到云上來,會(huì)有更多的想象力。云存儲(chǔ)系統(tǒng)和各種不同的計(jì)算系統(tǒng),甚至未來第三方數(shù)據(jù)加工商的系統(tǒng)能夠打通,通過完善的授權(quán)和簽權(quán)的方式,通過數(shù)據(jù)加密以及公鑰、密鑰的管理,能夠讓這些數(shù)據(jù)被它最需要去和最能夠被處理的算法,或者是處理的方式加工之后,再次產(chǎn)生分發(fā)的價(jià)值。實(shí)際上這是社會(huì)上的一個(gè)協(xié)作,但是這個(gè)協(xié)作今天看起來只能在云上發(fā)生。舉例來說,云上NAS和線下NAS,即便基礎(chǔ)功能特性相同,但本質(zhì)是不一樣的。
云存儲(chǔ)的企業(yè)級(jí)特性
輕計(jì)算框架的基礎(chǔ),當(dāng)然還是穩(wěn)定的存儲(chǔ)。阿里云存儲(chǔ)專家還介紹了阿里云存儲(chǔ)的一些企業(yè)級(jí)特性,包括容災(zāi)、可用性及數(shù)據(jù)安全等。
容災(zāi)
容災(zāi)方面,阿里云從集群級(jí)別到數(shù)據(jù)中心級(jí)別都進(jìn)行了設(shè)計(jì)。
集群級(jí)別的容災(zāi),設(shè)置了一個(gè)基本的出發(fā)點(diǎn),在機(jī)器、磁盤和網(wǎng)絡(luò)隨時(shí)可以壞的假設(shè)情況下去做系統(tǒng)設(shè)計(jì),做了很多的冗余度的處理??鐓^(qū)域的容災(zāi),提供跨區(qū)域的數(shù)據(jù)復(fù)制,比如把數(shù)據(jù)從上海復(fù)制到北京,或者是從北京復(fù)制到深圳,這樣來提供跨區(qū)域的容災(zāi)。同城多數(shù)據(jù)中心容災(zāi)的延遲基本是分鐘級(jí)別的,北京到上海的跨區(qū)域的復(fù)制,SLA基本上也是保證在分鐘級(jí)之內(nèi),當(dāng)然這得借助整個(gè)阿里巴巴高帶寬,低延遲的網(wǎng)絡(luò)基礎(chǔ)設(shè)施進(jìn)行傳輸?;旌显迫轂?zāi),如果用戶內(nèi)部數(shù)據(jù)中心容災(zāi)程度不是很高,可以通過高速網(wǎng)絡(luò)通道搭到我們阿里云的存儲(chǔ)上,提供容災(zāi)的能力。如果業(yè)務(wù)系統(tǒng)也一起放到云上,線下的系統(tǒng)出問題時(shí),可以快速在云上把系統(tǒng)啟動(dòng)上來,達(dá)到備份加容災(zāi)的效果。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
阿里云存儲(chǔ)的本質(zhì)及特性分析下載
相關(guān)電子資料下載
- 誠(chéng)邀您參加2023云棲大會(huì)平頭哥專場(chǎng)——以芯重塑云存儲(chǔ)系統(tǒng)效能 129
- HK-TrueNAS SCALE可使用公共云存儲(chǔ) 145
- 互聯(lián)黑板的文件管理和云存儲(chǔ)功能 50
- 如何通過華為云云耀云服務(wù)器 L 實(shí)例自建企業(yè) Nextcloud 云存儲(chǔ) 176
- 云存儲(chǔ)的核心技術(shù)有哪些 218
- 網(wǎng)絡(luò)云存儲(chǔ)服務(wù)器,數(shù)據(jù)庫(kù)服務(wù)器|PetaExpress 147
- 恒訊科技分析:云備份與云存儲(chǔ)有什么區(qū)別? 435
- 云存儲(chǔ)服務(wù)技術(shù)架構(gòu)及云存儲(chǔ)服務(wù)的優(yōu)勢(shì) 167
- 想擁有屬于自己的私有云?超簡(jiǎn)單的個(gè)人私有云存儲(chǔ)搭建方案 1924
- 希捷科技:具有周期性價(jià)值的全球云存儲(chǔ)之王 358