當(dāng)前,全球大數(shù)據(jù)正進(jìn)入加速發(fā)展時(shí)期,技術(shù)產(chǎn)業(yè)與應(yīng)用創(chuàng)新不斷邁向新高度。大數(shù)據(jù)通過(guò)數(shù)字化豐富要素供給,通過(guò)網(wǎng)絡(luò)化擴(kuò)大組織邊界,通過(guò)智能化提升產(chǎn)出效能,成為實(shí)體經(jīng)濟(jì)質(zhì)量變革、效率變革、動(dòng)力變革的技術(shù)依托之一,而大數(shù)據(jù)技術(shù)及其融合發(fā)展也已經(jīng)成為最重要的技術(shù)發(fā)展趨勢(shì)。
2019 年以來(lái)全球大數(shù)據(jù)發(fā)展在政策方面略顯平淡,其中,美國(guó)的發(fā)布的《聯(lián)邦數(shù)據(jù)戰(zhàn)略第一年度行動(dòng)計(jì)劃(Federal Data StrategyYear-1 Action Plan)》意味著美國(guó)對(duì)于數(shù)據(jù)的重視程度繼續(xù)提升,并出現(xiàn)了聚焦點(diǎn)從“技術(shù)”到“資產(chǎn)”的轉(zhuǎn)變,其中更是著重提到了金融數(shù)據(jù)和地理信息數(shù)據(jù)的標(biāo)準(zhǔn)統(tǒng)一問(wèn)題。此外,配套文件中“共享行動(dòng):政府范圍內(nèi)的數(shù)據(jù)服務(wù)”成為亮點(diǎn),針對(duì)數(shù)據(jù)跨機(jī)構(gòu)協(xié)同與共享,從執(zhí)行機(jī)構(gòu)到時(shí)間節(jié)點(diǎn)都進(jìn)行了戰(zhàn)略部署。同時(shí),歐洲議會(huì)也通過(guò)決議敦促歐盟及其成員國(guó)創(chuàng)造一個(gè)“繁榮的數(shù)據(jù)驅(qū)動(dòng)經(jīng)濟(jì)”。該決議預(yù)計(jì),到 2020 年歐盟國(guó)內(nèi)生產(chǎn)總值將因更好的數(shù)據(jù)使用而增加 1.9%。不管是否有更多的大數(shù)據(jù)政策出臺(tái),拓寬和深入大數(shù)據(jù)技術(shù)應(yīng)用已經(jīng)是各國(guó)數(shù)據(jù)戰(zhàn)略的共識(shí)。
盡管政策推進(jìn)略顯緩慢,但大數(shù)據(jù)底層技術(shù)發(fā)展日漸成熟。在大數(shù)據(jù)發(fā)展的初期, ApacheHadoop 定義了最基礎(chǔ)的分布式批處理架構(gòu),打破了傳統(tǒng)數(shù)據(jù)庫(kù)一體化的模式,將計(jì)算與存儲(chǔ)分離,聚焦于解決海量數(shù)據(jù)的低成本存儲(chǔ)與規(guī)模化處理。但當(dāng)前 MPP 在擴(kuò)展性方面不斷突破使得 MPP 在海量數(shù)據(jù)處理領(lǐng)域又重新獲得了一席之位。MapReduce 暴露的處理效率問(wèn)題以及 Hadoop 體系龐大復(fù)雜的運(yùn)維操作,推動(dòng)計(jì)算框架不斷進(jìn)行著升級(jí)演進(jìn)。隨后出現(xiàn)的 Apache Spark 已逐步成為計(jì)算框架的事實(shí)標(biāo)準(zhǔn)。在解決了數(shù)據(jù)“大”的問(wèn)題后,數(shù)據(jù)分析時(shí)效性的需求愈發(fā)突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年來(lái)備受關(guān)注的產(chǎn)品為流處理的基礎(chǔ)框架打下了基礎(chǔ)。在此基礎(chǔ)上,大數(shù)據(jù)技術(shù)產(chǎn)品不斷分層細(xì)化,在開(kāi)源社區(qū)形成了豐富的技術(shù)棧,覆蓋存儲(chǔ)、計(jì)算、分析、集成、管理、運(yùn)維等各個(gè)方面。據(jù)統(tǒng)計(jì),目前大數(shù)據(jù)相關(guān)開(kāi)源項(xiàng)目已達(dá)上百個(gè)。
隨著當(dāng)前大數(shù)據(jù)體系的底層技術(shù)框架已基本成熟。大數(shù)據(jù)技術(shù)正逐步成為支撐型的基礎(chǔ)設(shè)施,其發(fā)展方向也開(kāi)始向提升效率轉(zhuǎn)變,逐步向個(gè)性化的上層應(yīng)用聚焦,技術(shù)的融合趨勢(shì)愈發(fā)明顯?!叭诤稀背蔀榇髷?shù)據(jù)技術(shù)發(fā)展的最重要特征——
l 算力融合:多樣性算力提升整體效率
隨著大數(shù)據(jù)應(yīng)用的逐步深入,場(chǎng)景愈發(fā)豐富,數(shù)據(jù)平臺(tái)開(kāi)始承載人工智能、物聯(lián)網(wǎng)、視頻轉(zhuǎn)碼、復(fù)雜分析、高性能計(jì)算等多樣性的任務(wù)負(fù)載。同時(shí),數(shù)據(jù)復(fù)雜度不斷提升,以高維矩陣運(yùn)算為代表的新型計(jì)算范式具有粒度更細(xì)、并行更強(qiáng)、高內(nèi)存占用、高帶寬需求、低延遲高實(shí)時(shí)性等特點(diǎn),因此當(dāng)前以 CPU 為調(diào)度核心,協(xié)同 GPU、FPGA、ASIC 及各類(lèi)用于 AI 加速“xPU”的異構(gòu)算力平臺(tái)成為行業(yè)熱點(diǎn)解決方案,以 GPU為代表的計(jì)算加速單元能夠極大提升新業(yè)務(wù)計(jì)算效率。
不同硬件體系融合存在開(kāi)發(fā)工具相互獨(dú)立、編程語(yǔ)言及接口體系不同、軟硬件協(xié)同缺失等工程問(wèn)題。為此,產(chǎn)業(yè)界試圖從統(tǒng)一軟件開(kāi)發(fā)平臺(tái)和開(kāi)發(fā)工具的層面來(lái)實(shí)現(xiàn)對(duì)不同硬件底層的兼容,如 Intel公司正在設(shè)計(jì)支持跨多架構(gòu)(包括 CPU、GPU、FPGA 和其他加速器)開(kāi)發(fā)的編程模型 oneAPI,它提供一套統(tǒng)一的編程語(yǔ)言和開(kāi)發(fā)工具集,來(lái)實(shí)現(xiàn)對(duì)多樣性算力的調(diào)用,從根本上簡(jiǎn)化開(kāi)發(fā)模式,針對(duì)異構(gòu)計(jì)算形成一套全新的開(kāi)放標(biāo)準(zhǔn)。
l 流批融合:平衡計(jì)算性價(jià)比的最優(yōu)解
流處理能夠有效處理即時(shí)變化的信息,從而反映出信息熱點(diǎn)的實(shí)時(shí)動(dòng)態(tài)變化。而離線批處理則更能夠體現(xiàn)歷史數(shù)據(jù)的累加反饋。考慮到對(duì)于實(shí)時(shí)計(jì)算需求和計(jì)算資源之間的平衡,業(yè)界很早就有了 lambda架構(gòu)的理論來(lái)支撐批處理和流處理共同存在的計(jì)算場(chǎng)景。隨著技術(shù)架構(gòu)的演進(jìn),流批融合計(jì)算正在成為趨勢(shì),并不斷在向更實(shí)時(shí)更高效的計(jì)算推進(jìn),以支撐更豐富的大數(shù)據(jù)處理需求。
流計(jì)算的產(chǎn)生來(lái)源于對(duì)數(shù)據(jù)加工時(shí)效性的嚴(yán)苛要求。數(shù)據(jù)的價(jià)值隨時(shí)間流逝而降低時(shí),我們就必須在數(shù)據(jù)產(chǎn)生后盡可能快的對(duì)其進(jìn)行處理,比如實(shí)時(shí)監(jiān)控、風(fēng)控預(yù)警等。如,近年來(lái)出現(xiàn)的 Apache Flink,則使用了流處理的思想來(lái)實(shí)現(xiàn)批處理,很好地實(shí)現(xiàn)了流批融合的計(jì)算,國(guó)內(nèi)包括阿里、騰訊、百度、字節(jié)跳動(dòng),國(guó)外包括 Uber、Lyft、Netflix 等公司都是Flink 的使用者。
l TA 融合:混合事務(wù)/ 分析支撐即時(shí)決策
TA 融合是指事務(wù)(Transaction)與分析(Analysis)的融合機(jī)制。在數(shù)據(jù)驅(qū)動(dòng)精細(xì)化運(yùn)營(yíng)的今天,海量實(shí)時(shí)的數(shù)據(jù)分析需求無(wú)法避免。分析和業(yè)務(wù)是強(qiáng)關(guān)聯(lián)的,但由于這兩類(lèi)數(shù)據(jù)庫(kù)在數(shù)據(jù)模型、行列存儲(chǔ)模式和響應(yīng)效率等方面的區(qū)別,通常會(huì)造成數(shù)據(jù)的重復(fù)存儲(chǔ)以及數(shù)據(jù)時(shí)效性不足的問(wèn)題。
混合事務(wù)/分析處理(HTAP)是實(shí)現(xiàn)在單一的數(shù)據(jù)源上不加區(qū)分的處理事務(wù)和分析任務(wù)。當(dāng)前的方案主要有三種:一是基于傳統(tǒng)的行存關(guān)系型數(shù)據(jù)庫(kù)(類(lèi)似 MySQL)實(shí)現(xiàn)事務(wù)特性,并在此基礎(chǔ)上通過(guò)引入計(jì)算引擎來(lái)增加復(fù)雜查詢的能力;二是在行存數(shù)據(jù)庫(kù)(如 Postgres-XC 版本)的基礎(chǔ)上增加列存的功能,來(lái)實(shí)現(xiàn)分析類(lèi)業(yè)務(wù)的需求;三是基于列存為主的分析型數(shù)據(jù)庫(kù)(如 Greenplum),增加行存等功能優(yōu)化,提供事務(wù)的支持。但由于沒(méi)有從根本上改變數(shù)據(jù)的存儲(chǔ)模式,三種方案都會(huì)在事務(wù)或分析功能上有所側(cè)重,無(wú)法完美的在一套系統(tǒng)里互不干擾地處理事務(wù)和分析型任務(wù),無(wú)法避免對(duì)數(shù)據(jù)的轉(zhuǎn)換和復(fù)制,但能在一定程度上縮短分析型業(yè)務(wù)的時(shí)延。
l 模塊融合:一站式數(shù)據(jù)能力復(fù)用平臺(tái)
大數(shù)據(jù)的工具和技術(shù)棧已經(jīng)相對(duì)成熟,大公司在實(shí)戰(zhàn)經(jīng)驗(yàn)中圍繞工具與數(shù)據(jù)的生產(chǎn)鏈條、數(shù)據(jù)的管理和應(yīng)用等逐漸形成了能力集合,并通過(guò)這一概念來(lái)統(tǒng)一數(shù)據(jù)資產(chǎn)的視圖和標(biāo)準(zhǔn),提供通用數(shù)據(jù)的加工、管理和分析能力。
數(shù)據(jù)能力集成的趨勢(shì)打破了原有企業(yè)內(nèi)的復(fù)雜數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)和業(yè)務(wù)更貼近,并能更快地使用數(shù)據(jù)驅(qū)動(dòng)決策。主要針對(duì)性地解決三個(gè)問(wèn)題:一是提高數(shù)據(jù)獲取的效率;二是打通數(shù)據(jù)共享的通道;三是提供統(tǒng)一的數(shù)據(jù)開(kāi)發(fā)能力。這樣的“企業(yè)級(jí)數(shù)據(jù)能力復(fù)用平臺(tái)”是一個(gè)由多種工具和能力組合而成的數(shù)據(jù)應(yīng)用引擎、數(shù)據(jù)價(jià)值化的加工廠,來(lái)連接下層的數(shù)據(jù)和上層的數(shù)據(jù)應(yīng)用團(tuán)隊(duì),從而形成敏捷的數(shù)據(jù)驅(qū)動(dòng)精細(xì)化運(yùn)營(yíng)的模式。其中,阿里巴巴提出的“中臺(tái)”概念和華為公司提出的“數(shù)據(jù)基礎(chǔ)設(shè)施”概念都是模塊融合趨勢(shì)的印證。
l 云數(shù)融合:云化趨勢(shì)降低技術(shù)使用門(mén)檻
大數(shù)據(jù)基礎(chǔ)設(shè)施向云上遷移是一個(gè)重要的趨勢(shì)。各大云廠商均開(kāi)始提供各類(lèi)大數(shù)據(jù)產(chǎn)品以滿足用戶需求,紛紛構(gòu)建自己的云上數(shù)據(jù)產(chǎn)品。比如 Amazon Web Service(AWS)和 Google CloudPlatform(GCP)很早就開(kāi)始提供受管理的 MapReduce 或 Spark 服務(wù),以及國(guó)內(nèi)阿里云的 MaxCompute、騰訊云的彈性 MapReduce 等,大規(guī)??蓴U(kuò)展的數(shù)據(jù)庫(kù)服務(wù)也紛紛上云,比如 Google BigQuery、AWS Redshift、阿里云的 PolarDB、騰訊云的 Sparkling 等,來(lái)為 PB 級(jí)的數(shù)據(jù)集提供分布式數(shù)據(jù)庫(kù)服務(wù)。華為也在近期注冊(cè)成立了華為云計(jì)算技術(shù)公司。早期的云化產(chǎn)品大部分是對(duì)已有大數(shù)據(jù)產(chǎn)品的云化改造,現(xiàn)在,越來(lái)越多的大數(shù)據(jù)產(chǎn)品從設(shè)計(jì)之初就遵循了云原生的概念進(jìn)行開(kāi)發(fā),生于云長(zhǎng)于云,更適合云上生態(tài)。向云化解決方案演進(jìn)的最大優(yōu)點(diǎn)是用戶不用再操心如何維護(hù)底層的硬件和網(wǎng)絡(luò),能夠更專注于數(shù)據(jù)和業(yè)務(wù)邏輯,在很大程度上降低了大數(shù)據(jù)技術(shù)的學(xué)習(xí)成本和使用門(mén)檻。
l 數(shù)智融合:數(shù)據(jù)與智能多方位深度整合
大數(shù)據(jù)與人工智能的融合則成為大數(shù)據(jù)領(lǐng)域當(dāng)前最受關(guān)注的趨勢(shì)之一,這種融合主要體現(xiàn)在大數(shù)據(jù)平臺(tái)的智能化與數(shù)據(jù)治理的智能化。智能的平臺(tái)促成了大數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)平臺(tái)深度整合的趨勢(shì),大數(shù)據(jù)平臺(tái)在支持機(jī)器學(xué)習(xí)算法之外,還將支持更多的 AI 類(lèi)應(yīng)用。如,Databricks 為數(shù)據(jù)科學(xué)家提供一站式的分析平臺(tái) Data Science Workspace,Cloudera 也推出了相應(yīng)的分析平臺(tái) Cloudera Data Science Workbench。其次,數(shù)據(jù)治理與人工智能的發(fā)展存在相輔相成的關(guān)系:一方面,數(shù)據(jù)治理為人工智能的應(yīng)用提供高質(zhì)量的合規(guī)數(shù)據(jù);另一方面,人工智能對(duì)數(shù)據(jù)治理存在諸多優(yōu)化作用。AI 使能數(shù)據(jù)治理,是通過(guò)智能化的數(shù)據(jù)治理使數(shù)據(jù)變得智能:通過(guò)智能元數(shù)據(jù)感知和敏感數(shù)據(jù)自動(dòng)識(shí)別,對(duì)數(shù)據(jù)自動(dòng)分級(jí)分類(lèi),形成全局統(tǒng)一的數(shù)據(jù)視圖。通過(guò)智能化的數(shù)據(jù)清洗和關(guān)聯(lián)分析,把關(guān)數(shù)據(jù)質(zhì)量,建立數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)能夠自動(dòng)具備類(lèi)型、級(jí)別、血緣等標(biāo)簽,在降低數(shù)據(jù)治理復(fù)雜性和成本的同時(shí),得到智能的數(shù)據(jù)。
伴隨著技術(shù)融合與應(yīng)用的不斷深化與發(fā)展,大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模也在近年穩(wěn)步提升。有機(jī)構(gòu)預(yù)測(cè),到2020年,全球大數(shù)據(jù)市場(chǎng)的收入規(guī)模將達(dá)到 560 億美元,較2018 年的預(yù)期水平增長(zhǎng)約 33.33%,較 2016 年的市場(chǎng)收入規(guī)模翻一倍。隨著市場(chǎng)整體的日漸成熟和新興技術(shù)的不斷融合發(fā)展,未來(lái)大數(shù)據(jù)市場(chǎng)將呈現(xiàn)穩(wěn)步發(fā)展的態(tài)勢(shì),增速維持在 14%左右。在 2018-2020 年的預(yù)測(cè)期內(nèi),大數(shù)據(jù)市場(chǎng)整體的收入規(guī)模將保持每年約 70 億美元的增長(zhǎng)。在具體的細(xì)分市場(chǎng)中,大數(shù)據(jù)硬件、軟件和服務(wù)的市場(chǎng)規(guī)模均保持較穩(wěn)定的增長(zhǎng),并隨著機(jī)器學(xué)習(xí)、高級(jí)分析算法等技術(shù)的成熟與融合,更多的數(shù)據(jù)應(yīng)用和場(chǎng)景正在落地,大數(shù)據(jù)軟件市場(chǎng)將繼續(xù)高速增長(zhǎng)。
-
FPGA
+關(guān)注
關(guān)注
1659文章
22364瀏覽量
632976 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
4004瀏覽量
68156 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
9049瀏覽量
143392
發(fā)布評(píng)論請(qǐng)先 登錄
2016汽車(chē)與信息通信融合發(fā)展論壇
北斗模塊助力北斗導(dǎo)航系統(tǒng)加速推進(jìn)軍民融合發(fā)展
常見(jiàn)大數(shù)據(jù)應(yīng)用有哪些?
大數(shù)據(jù)運(yùn)用的技術(shù)
大數(shù)據(jù)開(kāi)發(fā)核心技術(shù)詳解
NLPIR系統(tǒng)KGB知識(shí)圖譜技術(shù)助力大數(shù)據(jù)深度挖掘
BAW技術(shù)推進(jìn)大數(shù)據(jù)發(fā)展
阿里巴巴高級(jí)技術(shù)專家章劍鋒:大數(shù)據(jù)發(fā)展的 8 個(gè)要點(diǎn)
大數(shù)據(jù)技術(shù)視閾下如何進(jìn)行偵查工作的轉(zhuǎn)型
百度夯實(shí)“云智數(shù)”融合發(fā)展 助力企業(yè)智能化升級(jí)
物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來(lái)源,大數(shù)據(jù)助力物聯(lián)網(wǎng)
深刻理解關(guān)于融合發(fā)展的論述,充分認(rèn)識(shí)融合發(fā)展的重要意義
如何推動(dòng)區(qū)塊鏈與大數(shù)據(jù)的融合發(fā)展
互聯(lián)網(wǎng)中OT與IT融合發(fā)展的需求分析
大數(shù)據(jù)技術(shù)如何進(jìn)行融合發(fā)展
評(píng)論