盡管大數(shù)據(jù)發(fā)展到現(xiàn)在,已經(jīng)有了一定的技術和商業(yè)積累,但還有很多難題等待我們解決。在眾多的難題中,亟待解決的主要挑戰(zhàn)有:運維挑戰(zhàn)、成本挑戰(zhàn)和安全挑戰(zhàn)。
如何應對這些挑戰(zhàn)?有沒有具體的解決方案?針對這個問題,筆者與在亞馬遜云科技任數(shù)據(jù)架構師的朋友 will(英文名)進行了深度交流。
我們經(jīng)常說:當今社會已經(jīng)進入了大數(shù)據(jù)時代。這句話,容易讓人理解為在過去數(shù)據(jù)似乎離人們很遠,或者說過去的時代只有小數(shù)據(jù)甚至無數(shù)據(jù)。
事實上,自從人類誕生之日起,數(shù)據(jù)就承載著人類對自然萬物、生產(chǎn)生活的記錄和表達。從古代的“結繩記事”,到現(xiàn)在的“智能儀表盤”,從傳統(tǒng)數(shù)據(jù)到網(wǎng)絡數(shù)據(jù),從小數(shù)據(jù)到大數(shù)據(jù),變化的只有承載數(shù)據(jù)的載體和使用數(shù)據(jù)的方法/技術,而數(shù)據(jù)作為大千世界的符碼,一直存在,且亙古未變。萬物皆可產(chǎn)生數(shù)據(jù),萬物皆可數(shù)據(jù)化。
現(xiàn)如今,人們經(jīng)常將數(shù)據(jù)比作石油和金礦,其實在我看來,這只是從經(jīng)濟的視角來闡述數(shù)據(jù)的價值,而數(shù)據(jù)的價值遠不止于此。數(shù)據(jù)中既有宇宙星空的奧秘,也有人類社會的百態(tài)。誰掌握了數(shù)據(jù),誰就掌握了未來!
激活數(shù)據(jù)潛能,釋放數(shù)據(jù)價值,已經(jīng)成為當今社會各界的重要共識。于是乎,我們看到越來越多的組織,將數(shù)據(jù)作為一項重要的資源對其進行采集、存儲、管理和利用。
**01 **
大數(shù)據(jù)技術的發(fā)展歷程
隨著人們對數(shù)據(jù)越來越重視,大數(shù)據(jù)的存儲和處理的技術也有了較快的發(fā)展。注意:這里的數(shù)據(jù)是指已經(jīng)電子化的數(shù)據(jù),龜殼上的甲骨文、泥板上的楔形文字、以及現(xiàn)代在紙質文件等都不在這個范疇。依據(jù)筆者的觀察,數(shù)據(jù)存儲和處理技術主要經(jīng)歷了4個發(fā)展階段:
1、傳統(tǒng)SQL數(shù)據(jù)庫
傳統(tǒng)SQL數(shù)據(jù)庫也叫SMP架構數(shù)據(jù)庫(全稱是Symmetrical Multi-Processing,SMP),其核心原理是多處理器共享統(tǒng)一的內存和磁盤等,應用場景以單機為主。我們常見的Oracle、MySQL、SQLServer、DB2等都屬于SMP數(shù)據(jù)架構,這種架構一直統(tǒng)治了數(shù)據(jù)存儲江湖40年之久,且在“小數(shù)據(jù)”管理領域至今依然經(jīng)久不衰。
2、MPP數(shù)據(jù)架構
隨著DT時代的到來,整個社會數(shù)據(jù)大爆炸。企業(yè)動輒就需要處理TB級數(shù)據(jù)量,而SMP這種共享資源的數(shù)據(jù)存儲架構對于海量數(shù)據(jù)的處理顯得越發(fā)吃力。于是,一種大規(guī)模、分布式數(shù)據(jù)存儲架構出現(xiàn)了,它就是MPP (Massively Parallel Processing)架構,它可以 將查詢分散到不同節(jié)點并行執(zhí)行 ,顯著地提高了數(shù)據(jù)查詢的性能,MPP的出現(xiàn)為數(shù)據(jù)倉庫和數(shù)據(jù)分析平臺提供了出色的解決方案。MPP數(shù)據(jù)架構的代表有:Redshift、Terdata、GreenPlum、Vertica等。
3、Hadoop數(shù)據(jù)架構
數(shù)據(jù)的激增,帶動了數(shù)據(jù)架構的變革,以Hadoop、spark為代表的開源數(shù)據(jù)庫產(chǎn)品,對傳統(tǒng)SQL數(shù)據(jù)庫帶來了巨大的影響和沖擊。**Hadoop的特點是不僅能夠存儲和處理結構化數(shù)據(jù),還能夠對半結構化數(shù)據(jù)、非結構化數(shù)據(jù)的進行采集、存儲、管理和使用。**Hadoop不是單一產(chǎn)品,而是一個龐大的軟件生態(tài)系統(tǒng),部署通常需要熟練掌握一系列工具,包括HDFS,Yarn,Spark,Impala,Hive,F(xiàn)lume,Zookeeper和Kafka等等。
4、云原生數(shù)據(jù)架構
云計算的出現(xiàn)和發(fā)展,讓企業(yè) IT 基礎設施云化,應用轉向云端。與此同時,行業(yè)內也出現(xiàn)了云原生架構的數(shù)據(jù)庫,其核心是充分發(fā)揮云基礎設施帶來的各種資源彈性的優(yōu)勢,通過 將計算和存儲分離,提高數(shù)據(jù)庫資源配置效率,實現(xiàn)計算和存儲彈性擴展,按需分配 ,為客戶帶來超高的ROI。
以亞馬遜云科技的云原生數(shù)據(jù)倉庫Redshift為例,Redshift采用存算分離的云原生架構,底層數(shù)據(jù)是在S3上,支持存儲和計算資源的完全獨立擴展、自動伸縮,使得 Redshift 具備大數(shù)據(jù)量下的高并發(fā)計算能力。值得一提的是Redshift 還支持機器學習算法,用戶可以用SQL方式直接創(chuàng)建機器學習模型,這讓數(shù)據(jù)分析挖掘變得更加簡單。
02
大數(shù)據(jù)所面臨的主要挑戰(zhàn)
“大數(shù)據(jù)蘊含大價值”,這是毋庸置疑的。對企業(yè)而言,盡管大數(shù)據(jù)發(fā)展到現(xiàn)在,已經(jīng)有了一定的技術和商業(yè)積累,但還有很多難題等待我們解決。在眾多的難題中,亟待解決的主要挑戰(zhàn)有:運維挑戰(zhàn)、成本挑戰(zhàn)和安全挑戰(zhàn)。
1、大數(shù)據(jù)的運維挑戰(zhàn)
云計算、大數(shù)據(jù)技術的發(fā)展,尤其是開源Hadoop體系的應用,讓數(shù)據(jù)運維工作迎來了巨大的挑戰(zhàn)。首先,企業(yè)普遍缺乏掌握大數(shù)據(jù)技術的專業(yè)化人才,很多情況下,企業(yè)負責數(shù)據(jù)人員既要做需求,又要做開發(fā),還要做運維。情況好一點的,將大數(shù)據(jù)開發(fā)和運維剝離出來,但是面對龐大的Hadoop體系和不斷的技術發(fā)展,讓大數(shù)據(jù)運維變得越來越困難。其次,隨著數(shù)據(jù)量和數(shù)據(jù)應用的激增,交付運維的東西也會越來越多。大數(shù)據(jù)運維不僅是服務啟停、監(jiān)控、告警、作業(yè)調度等淺層次的運維工作,更多的需要肩負起性能調優(yōu)、資源伸縮、故障處理等工作,以確保大數(shù)據(jù)的穩(wěn)定運行。
2、大數(shù)據(jù)的成本挑戰(zhàn)
對于企業(yè)而言, 大數(shù)據(jù)項目的部署有時候給企業(yè)帶來的不是“大價值”,而是“大成本”。 首先,企業(yè)需要考慮的是新增硬件的費用,例如:機房、服務器、存儲以及電力消耗等。其次,在軟件方面,企業(yè)盡管可以選用開源的Hadoop體系來搭建大數(shù)據(jù)平臺,但也不得不為大數(shù)據(jù)的設計開發(fā)和日常運維付費。當然,也有企業(yè)選擇了云數(shù)據(jù)架構解決方案,但是在購置云服務時,沿用過去的本地化部署的“超配”思維,資源過度配置,不必要的容量以及環(huán)境的可見性不良等問題,導致了云計算成本失控。
3、大數(shù)據(jù)的安全挑戰(zhàn)
大數(shù)據(jù)的安全問題,一直是業(yè)內的一個難題。大數(shù)據(jù)所存儲的數(shù)據(jù)非常巨大,也非常容易被黑客盯上。企業(yè)采用分布式數(shù)據(jù)架構進行存儲,而這種架構數(shù)據(jù)存儲的路徑視圖相對清晰,導致數(shù)據(jù)保護相對簡單,黑客較為輕易利用相關漏洞,實施不法操作。甚至有的企業(yè)有 **“開源等于安全” ** 的錯誤認知 ,于是積極擁抱開源軟件。事實上,開源軟件的漏洞并不少,而由此引發(fā)的數(shù)據(jù)安全和泄露問題也在逐年攀升。
03
尋求解決方案,積極應對挑戰(zhàn)
大數(shù)據(jù)的3大挑戰(zhàn),是當今每個企業(yè)不得不面對的問題。但要如何應對,有沒有具體的解決方案?
近日,針對這個問題,筆者與在亞馬遜云科技任數(shù)據(jù)架構師的朋友 ** will ** (英文名)進行了深度交流,will給出的解決方案是——Serverless data,他認為 Serverless data將是基于云原生數(shù)據(jù)服務的下一代技術架構的新常態(tài) 。
說實話,對于Serverless我倒是聽過,但什么是Serverless data服務,以及它是否真的可以解決大數(shù)據(jù)的挑戰(zhàn),我卻是丈二和尚摸不著頭腦,于是只能虛心請教!在一番交杯換盞、深度交流之后,對于這個全新的數(shù)據(jù)架構,我終于有了一定的認知,于是迫不及待分享給大家。
1、先說一說什么是Serverless
Serverless是一種云計算架構模式,也稱為無服務器計算。 這個術語最早出現(xiàn)在 2012 年左右的一篇文章里,作者 Ken Fromm 對它的解釋是:Serverless一詞并不意味著不再涉及服務器,它只是意味著開發(fā)人員不再需要考慮那么多的物理容量或其他基礎設施資源管理責任。通過消除后端基礎設施的復雜性,無服務器讓開發(fā)人員將注意力從服務器級別轉移到任務級別。
Serverless是一種事件驅動的計算模型,開發(fā)者不需要關心底層的服務器和基礎設施,只需要編寫處理邏輯代碼,并將其上傳到云服務提供商的平臺上。這種架構模式具有高度的可擴展性、靈活性、可靠性和低成本等優(yōu)點,適合于處理復雜的高并發(fā)應用場景。
據(jù)朋友介紹,亞馬遜云科技是Serverless技術的開創(chuàng)者和引領者。雖然我知道華為、阿里、騰訊也都推出了自己的Serverless產(chǎn)品,但朋友說亞馬遜云科技在這個領域全程領跑。沒有實質證據(jù),我就不反駁他了,哈哈哈!
2、再說說什么是Serverless data
Serverless data是指一種無服務器架構的數(shù)據(jù)處理方式,它利用云服務提供商的基礎設施和平臺服務,以事件驅動的方式來執(zhí)行和管理數(shù)據(jù)處理任務。在Serverless數(shù)據(jù)處理中,開發(fā)者不需要關注服務器的運維和部署,只需要編寫處理邏輯代碼,將其部署到云服務提供商的平臺上,然后通過事件觸發(fā)器來觸發(fā)處理任務的執(zhí)行。 這種處理方式具有高可擴展性、高可靠性、低成本等優(yōu)點,適合于處理大規(guī)模、復雜的數(shù)據(jù)處理任務。 以Serverless架構的數(shù)據(jù)庫為例,它的工作原理如下:
3、Serverless data能夠解決的問題
在聽完will對Serverless data的介紹,我大致理解Serverless data在數(shù)據(jù)計算和存儲方面確實有一定的優(yōu)勢,但will還提到了亞馬遜云科技的全線Serverless data,據(jù)說可以有效解決企業(yè)數(shù)據(jù)管理和應用中的各種挑戰(zhàn)和問題。
“啥是全線Serverless data?它到底能解決哪些問題?” 在我的不斷追問之下,will給出了如下回答:
**第一,Serverless data無需運維。**使用 Serverless Data,用戶無需關心服務器、操作系統(tǒng)、網(wǎng)絡配置等底層細節(jié),只需要編寫代碼,托管數(shù)據(jù)庫服務或數(shù)據(jù)分析服務,它會自動托管運行環(huán)境,為用戶提供高可用的計算資源和彈性擴縮容能力,從而免去了傳統(tǒng)架構中的服務器運維成本和風險。
第二,Serverless data可以有效降低IT成本。 使用 Serverless Data,用戶只需要在需要時啟動服務,無需預先為未來的峰值流量或訪問量準備資源,也無需為不使用的空閑資源付費。簡單來講就是,Serverless data不需要用戶預留集群容量,而是根據(jù)任務需求實現(xiàn)資源的自動伸縮,從而提高了資源利用率和成本效益,避免資源的浪費,有效降低企業(yè)的 IT 成本。
第三,Serverless data支持數(shù)據(jù)的實時處理。 Serverless data可以通過事件觸發(fā)器和調度器,自動觸發(fā)和調度數(shù)據(jù)處理任務的執(zhí)行,響應實時事件,處理實時數(shù)據(jù)流并生成實時數(shù)據(jù)結果。
第四,Serverless data支持數(shù)據(jù)治理。 Serverless data可以通過編寫數(shù)據(jù)處理邏輯代碼,對數(shù)據(jù)進行清洗、轉換和格式化等操作,讓企業(yè)的數(shù)據(jù)資源轉化為數(shù)據(jù)資產(chǎn)。云服務廠商也會提供一些列基于Serverless架構的數(shù)據(jù)治理和管理工具,支持對企業(yè)數(shù)據(jù)進行管理、監(jiān)控和維護。在數(shù)據(jù)安全防護方面,利用云服務廠商的安全防護體系,可以有效保證數(shù)據(jù)的安全和隱私。
**第五,Serverless data還能支持數(shù)據(jù)分析和挖掘。**以亞馬遜為代表云服務廠商在數(shù)據(jù)分析和挖掘方面也提供了一系列的Serverless架構的產(chǎn)品和工具,利用這些工具,可以對大量數(shù)據(jù)進行分析、挖掘和可視化,以發(fā)現(xiàn)數(shù)據(jù)中的有價值信息,讓數(shù)據(jù)為業(yè)務賦能,助力企業(yè)實現(xiàn)數(shù)字化轉型。
第六……
第七……
吧啦吧啦……&*#¥#@~##!
will這個技術控就是這樣,聊起技術來沒完沒了。雖然我自認為技術也還行,但跟他比起來還是自愧不如……
04
亞馬遜云科技 Serverless Data
通過這次與will的交流,我確實也學到了不少東西,對 Serverless 和 Serverless Data 也有了更深的認知。臨別之際,他丟下了一個亞馬遜云科技 Serverless 服務介紹材料。讓我們一起來看一下號稱引領 Serverless 技術發(fā)展的亞馬遜云科技,在數(shù)據(jù)服務這個領域到底有哪些無服務器的服務,以及能夠給企業(yè)帶來哪些價值!
-
SQL
+關注
關注
1文章
783瀏覽量
45122 -
MPP
+關注
關注
0文章
24瀏覽量
10818 -
大數(shù)據(jù)
+關注
關注
64文章
8960瀏覽量
140169
發(fā)布評論請先 登錄
淺談大數(shù)據(jù)視頻圖像處理系統(tǒng)技術
探尋大數(shù)據(jù)時代的商業(yè)變革
常見大數(shù)據(jù)應用有哪些?
大數(shù)據(jù)運用的技術
大數(shù)據(jù)專業(yè)技術學習之大數(shù)據(jù)處理流程
大數(shù)據(jù)開發(fā)核心技術詳解
NLPIR系統(tǒng)KGB知識圖譜技術助力大數(shù)據(jù)深度挖掘
幾種數(shù)據(jù)庫的大數(shù)據(jù)批量插入解決方法
什么是大數(shù)據(jù)?大數(shù)據(jù)的特點有哪些
大數(shù)據(jù)技術與應用是學什么的?
設計汽車系統(tǒng)的挑戰(zhàn)及相應解決方法

評論