大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個(gè)環(huán)節(jié)。
從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:
數(shù)據(jù)采集 -》 數(shù)據(jù)清洗 -》 數(shù)據(jù)存儲(chǔ) -》 數(shù)據(jù)分析統(tǒng)計(jì) -》 數(shù)據(jù)可視化 等幾個(gè)方面
工作內(nèi)容當(dāng)然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來(lái)實(shí)現(xiàn)上面幾個(gè)方面的功能。
很多初學(xué)者,對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:522189307,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系
具體說(shuō)說(shuō)吧,
數(shù)據(jù)采集:
業(yè)務(wù)系統(tǒng)的埋點(diǎn)代碼時(shí)刻會(huì)產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實(shí)現(xiàn)分散日志的聚合,即采集。
數(shù)據(jù)清洗:
原始的日志,數(shù)據(jù)是千奇百怪的
一些字段可能會(huì)有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的“數(shù)據(jù)分析統(tǒng)計(jì)”能拿到比較高質(zhì)量的數(shù)據(jù),需要對(duì)這些記錄進(jìn)行過(guò)濾或者字段數(shù)據(jù)回填。
一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時(shí)也為了節(jié)省存儲(chǔ)開銷,需要?jiǎng)h除這些多余的字段信息。
一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用‘*’字符替換。
數(shù)據(jù)存儲(chǔ):
清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉(cāng)庫(kù)(Hive),供下游做離線分析。如果下游的“數(shù)據(jù)分析統(tǒng)計(jì)”對(duì)實(shí)時(shí)性要求比較高,則可以把日志記錄入到kafka。
數(shù)據(jù)分析統(tǒng)計(jì):
數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費(fèi)來(lái)自上游的數(shù)據(jù)。其實(shí)就是從日志記錄里頭統(tǒng)計(jì)出各種各樣的報(bào)表數(shù)據(jù),簡(jiǎn)單的報(bào)表統(tǒng)計(jì)可以用sql在kylin或者h(yuǎn)ive統(tǒng)計(jì),復(fù)雜的報(bào)表就需要在代碼層面用Spark、Storm做統(tǒng)計(jì)分析。一些公司好像會(huì)有個(gè)叫BI的崗位是專門做這一塊的。
數(shù)據(jù)可視化:
用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游“數(shù)據(jù)分析統(tǒng)計(jì)”的數(shù)據(jù)。一般公司的某些決策會(huì)參考這些圖表里頭的數(shù)據(jù)~
當(dāng)然,大數(shù)據(jù)平臺(tái)(如CDH、FusionInsight等)搭建與維護(hù),也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分喔~
-
工程師
+關(guān)注
關(guān)注
59文章
1590瀏覽量
69500 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8960瀏覽量
140249
發(fā)布評(píng)論請(qǐng)先 登錄


硬件工程師看了只會(huì)找個(gè)角落默默哭泣#硬件工程師 #MDD #MDD辰達(dá)半導(dǎo)體 #產(chǎn)品經(jīng)理 #軟件工程師
新編電氣工程師手冊(cè)



硬件系統(tǒng)工程師寶典—完整版

硬件工程師的終極幻想:焊板子焊上人生巔峰!#半導(dǎo)體器件 #硬件工程師 #MDD辰達(dá)半導(dǎo)體


不同時(shí)期的硬件工程師,最怕發(fā)生的事 #電子工程師 #硬件工程師 #內(nèi)容過(guò)于真實(shí) #YXC晶振 #揚(yáng)興科技
為什么嵌入式驅(qū)動(dòng)開發(fā)工程師可以拿高薪?

當(dāng)你的工程師朋友失聯(lián)時(shí),別氣,ta真的是在忙工作 #搞笑 #電子愛好者 #硬件工程師 #晶振 #揚(yáng)興科技

評(píng)論