作者:Hebert W. Pereyra,IBM 杰出工程師,Hybrid Data Management首席架構(gòu)師
譯者:劉俊 ,IBM watsonx.data開(kāi)發(fā)架構(gòu)師
北京2023年7月17日/美通社/ -- 數(shù)據(jù)湖誕生至今已有十多年的歷史,為全球一些最大的企業(yè)提供了數(shù)據(jù)分析的支持。然而,也有人認(rèn)為,絕大多數(shù)數(shù)據(jù)湖部署已經(jīng)演變成為"數(shù)據(jù)沼澤"。不論你站在哪一邊,現(xiàn)實(shí)情況是,這些系統(tǒng)中仍然承載著大量的數(shù)據(jù)。這些數(shù)據(jù)規(guī)模龐大,使得移動(dòng)、遷移或?qū)ζ溥M(jìn)行現(xiàn)代化都變得異常困難。
數(shù)據(jù)湖的巨大挑戰(zhàn):?jiǎn)我唤Y(jié)構(gòu)的架構(gòu)問(wèn)題
從較高層次來(lái)看,數(shù)據(jù)湖是一個(gè)大規(guī)模的單一數(shù)據(jù)存儲(chǔ)庫(kù)。數(shù)據(jù)可以以原始形式存儲(chǔ),也可以經(jīng)過(guò)優(yōu)化,采用適合專(zhuān)用引擎使用的不同格式。
就Hadoop而言,它是最受歡迎的數(shù)據(jù)湖之一,通過(guò)使用開(kāi)源軟件實(shí)現(xiàn)該存儲(chǔ)庫(kù),并在通用硬件上運(yùn)行,可以以非常低的成本在系統(tǒng)中存儲(chǔ)大量數(shù)據(jù)。數(shù)據(jù)可以以開(kāi)放的數(shù)據(jù)格式進(jìn)行持久化,從而實(shí)現(xiàn)了數(shù)據(jù)消費(fèi)的民主化,并通過(guò)自動(dòng)復(fù)制提供了高可用性的支持。默認(rèn)的處理框架具備從故障中恢復(fù)的能力。這無(wú)疑是與傳統(tǒng)分析環(huán)境有著顯著差異的重要轉(zhuǎn)變,傳統(tǒng)數(shù)據(jù)分析環(huán)境往往意味著供應(yīng)商鎖定以及無(wú)法處理大規(guī)模數(shù)據(jù)。
另一個(gè)出乎意料的挑戰(zhàn)是將Spark引入作為大數(shù)據(jù)處理框架。由于其支持?jǐn)?shù)據(jù)轉(zhuǎn)換、流式處理和SQL,它迅速獲得了廣泛的認(rèn)可。然而,它并未能與現(xiàn)有的數(shù)據(jù)湖環(huán)境友好共存,因此通常需要額外的專(zhuān)用計(jì)算集群才能運(yùn)行Spark。
我們將時(shí)間前移15年回到當(dāng)下,現(xiàn)實(shí)已經(jīng)清楚地表明了這項(xiàng)技術(shù)所涉及的權(quán)衡和妥協(xié)。其快速的采用意味著客戶(hù)很快失去了對(duì)數(shù)據(jù)湖中數(shù)據(jù)的追蹤。同樣具有挑戰(zhàn)的是,他們無(wú)法確定數(shù)據(jù)的來(lái)源、獲取方式以及在處理過(guò)程中的轉(zhuǎn)換方式。數(shù)據(jù)治理仍然是這項(xiàng)技術(shù)中尚未探索的領(lǐng)域。雖然軟件可能是開(kāi)源的,但需要有人學(xué)習(xí)如何使用、維護(hù)和支持它。僅依賴(lài)社區(qū)支持并不能持續(xù)滿(mǎn)足業(yè)務(wù)運(yùn)營(yíng)所需的響應(yīng)時(shí)間。高可用性通過(guò)復(fù)制實(shí)現(xiàn)則意味著需要更多磁盤(pán)上的數(shù)據(jù)副本,增加存儲(chǔ)成本,并導(dǎo)致故障更加頻繁。而高可用的分布式處理框架則意味著不得不在性能方面做出妥協(xié),以換取彈性(這將導(dǎo)致交互式分析和商業(yè)智能的性能?chē)?yán)重下降)。
為何要對(duì)數(shù)據(jù)湖進(jìn)行現(xiàn)代化?
數(shù)據(jù)湖在特定的使用場(chǎng)景中已經(jīng)被證明是成功的。然而清楚的是,企業(yè)迫切需要對(duì)這些部署進(jìn)行現(xiàn)代化,保護(hù)基礎(chǔ)設(shè)施、技能和存儲(chǔ)在這些系統(tǒng)中的數(shù)據(jù)的投資。
在尋找答案的過(guò)程中,行業(yè)研究了現(xiàn)有的數(shù)據(jù)平臺(tái)技術(shù)及其優(yōu)勢(shì)。很明顯,有效的方法是將傳統(tǒng)的(或者說(shuō)是遺留的)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的關(guān)鍵特性與數(shù)據(jù)湖的優(yōu)勢(shì)結(jié)合起來(lái)。以下幾個(gè)關(guān)鍵要素迅速浮出水面:
具備彈性和可擴(kuò)展的存儲(chǔ),能夠滿(mǎn)足日益增長(zhǎng)的數(shù)據(jù)規(guī)模需求。
采用開(kāi)放的數(shù)據(jù)格式,使數(shù)據(jù)對(duì)所有人都可訪問(wèn),同時(shí)針對(duì)高性能進(jìn)行優(yōu)化,并具備良好定義的結(jié)構(gòu)。
開(kāi)放的元數(shù)據(jù)(可共享),能夠支持多個(gè)消費(fèi)引擎或框架。
支持?jǐn)?shù)據(jù)更新(ACID特性)和事務(wù)并發(fā)處理。
綜合的數(shù)據(jù)安全和數(shù)據(jù)治理(如數(shù)據(jù)血緣、完整的數(shù)據(jù)訪問(wèn)策略定義和執(zhí)行,包括地理分布)。
上述要素導(dǎo)致了湖倉(cāng)一體的出現(xiàn)。湖倉(cāng)一體是一種數(shù)據(jù)平臺(tái),是將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)點(diǎn)融合在一起,形成統(tǒng)一、協(xié)調(diào)的數(shù)據(jù)管理解決方案。
利用watsonx.data來(lái)現(xiàn)代化數(shù)據(jù)湖的好處
站在當(dāng)下數(shù)據(jù)分析的十字路口,IBM的回應(yīng)是為企業(yè)提供watsonx.data解決方案。
站在當(dāng)下數(shù)據(jù)分析的十字路口,IBM的回應(yīng)是為企業(yè)提供watsonx.data解決方案,這是一個(gè)用于大規(guī)模數(shù)據(jù)管理的新型開(kāi)放式數(shù)據(jù)存儲(chǔ),允許企業(yè)在無(wú)需遷移的情況下圍繞、增強(qiáng)和現(xiàn)代化其現(xiàn)有的數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)。它支持開(kāi)放式的多云與混合云,可以在客戶(hù)管理的基礎(chǔ)設(shè)施(本地或者私有云)和公有云上運(yùn)行。它建立在湖倉(cāng)一體架構(gòu)之上,并嵌入了一整套解決方案(以及通用軟件堆棧),適用于所有形態(tài)。
與市場(chǎng)上的競(jìng)品相比,IBM的方法基于開(kāi)源堆棧和架構(gòu)。這些組件并不是新的,而是業(yè)界已經(jīng)廣泛使用的成熟組件。IBM關(guān)注它們的互操作性、共存性和元數(shù)據(jù)交換。用戶(hù)可以快速入門(mén),從而大大降低了入門(mén)和使用的成本,因?yàn)槠渖蠈蛹軜?gòu)和基礎(chǔ)概念是大家熟悉且直觀的:
通過(guò)對(duì)象存儲(chǔ)實(shí)現(xiàn)開(kāi)放的數(shù)據(jù)(和表格格式)
通過(guò)S3進(jìn)行數(shù)據(jù)訪問(wèn)
使用Presto和Spark進(jìn)行查詢(xún)計(jì)算(SQL、數(shù)據(jù)科學(xué)、轉(zhuǎn)換和流處理)
通過(guò)Hive和兼容結(jié)構(gòu)實(shí)現(xiàn)開(kāi)放的元數(shù)據(jù)共享
Watsonx.data為企業(yè)提供了一種保護(hù)他們?cè)跀?shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)數(shù)十年投資的方式,使企業(yè)可立即擴(kuò)展并逐步現(xiàn)代化其安裝,將每個(gè)組件專(zhuān)注于對(duì)企業(yè)最重要的使用場(chǎng)景。
一個(gè)關(guān)鍵的差異化因素是多引擎策略,允許用戶(hù)在統(tǒng)一的數(shù)據(jù)平臺(tái)上根據(jù)實(shí)際情況選擇適合的技術(shù)。watsonx.data使客戶(hù)能夠?qū)崿F(xiàn)完全動(dòng)態(tài)的分層存儲(chǔ)(以及相關(guān)的計(jì)算)。隨著時(shí)間的推移,這可以帶來(lái)非常顯著的數(shù)據(jù)管理和處理的成本節(jié)省。
如果最終企業(yè)的目標(biāo)是通過(guò)湖倉(cāng)一體架構(gòu)來(lái)現(xiàn)代化現(xiàn)有的數(shù)據(jù)湖部署,那么watsonx.data則通過(guò)選擇計(jì)算方式來(lái)最小化數(shù)據(jù)遷移和應(yīng)用遷移,從而簡(jiǎn)化了任務(wù)。
接下來(lái)可以做什么?
在過(guò)去的幾年里,數(shù)據(jù)湖在大多數(shù)企業(yè)的數(shù)據(jù)管理策略中發(fā)揮了重要作用。如果企業(yè)的目標(biāo)是對(duì)其數(shù)據(jù)管理策略進(jìn)行演進(jìn)并現(xiàn)代化為真正的混合分析云架構(gòu),那么IBM基于湖倉(cāng)一體架構(gòu)構(gòu)建的新型數(shù)據(jù)存儲(chǔ)watsonx.data,則是值得企業(yè)考慮的技術(shù)選擇。
審核編輯 黃宇
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4533瀏覽量
87467 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
528瀏覽量
25992 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1473瀏覽量
35044
發(fā)布評(píng)論請(qǐng)先 登錄
軟通動(dòng)力攜手鴻湖萬(wàn)聯(lián)亮相華為開(kāi)發(fā)者大會(huì)2025
從接口到架構(gòu):工控一體機(jī)定制化的深度技術(shù)剖析

觸控一體機(jī)與毛絨玩具的聯(lián)動(dòng),也太可愛(ài)了吧 # 觸控一體機(jī)# 瑞芯微# RK3568 #工控一體機(jī) #聯(lián)動(dòng)
鴻湖萬(wàn)聯(lián)攜手南方科技大學(xué)推動(dòng)開(kāi)源鴻蒙生態(tài)發(fā)展
戴爾數(shù)據(jù)湖倉(cāng)助力企業(yè)數(shù)字化轉(zhuǎn)型
鴻湖萬(wàn)聯(lián)亮相OpenHarmony人才生態(tài)大會(huì)2024

瑞迅工控一體機(jī)—咖啡機(jī)奶茶機(jī)設(shè)備推薦產(chǎn)品,瑞迅一體機(jī)采用ARM架構(gòu),7寸~32寸,自有工廠,17年行業(yè)積淀。
T-Core一體成型貼片電感的優(yōu)勢(shì)
OBOO鷗柏丨PLC嵌入式工控一體機(jī)進(jìn)軍現(xiàn)代工廠產(chǎn)線(xiàn)電子看板市場(chǎng)

測(cè)控一體化閘門(mén)遠(yuǎn)程監(jiān)控運(yùn)維系統(tǒng)解決方案

評(píng)論