眾所周知,大數(shù)據(jù)開發(fā)和分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中,都離不開各種開源分布式系統(tǒng)。最常見的就是 Hadoop、Hive、Spark這三個(gè)框架了。最近不少朋友有問到關(guān)于這些的問題:
大廠里還有在用 Hadoop 嗎?感覺都在用 Spark,有些慌!
SQL boy 大廠面試都問什么?Hadoop、Spark、Flink 都搞過!
聽說百度只用 Hadoop,為什么不用業(yè)界都在用的 Spark !
為什么百度不用SQL支持?jǐn)?shù)據(jù)處理,還在寫一堆 Hadoop 腳本!
Java 開發(fā)需要對(duì)大數(shù)據(jù)了解多少,Hbase、Hive、Spark 這些嗎?
不同的業(yè)務(wù)場(chǎng)景決定了不同的系統(tǒng)架構(gòu)選型。Hadoop 用于分布式存儲(chǔ)和 Map-Reduce 計(jì)算,Spark 用于分布式機(jī)器學(xué)習(xí),Hive 則是分布式數(shù)據(jù)庫。Hive 和 Spark 是大數(shù)據(jù)領(lǐng)域內(nèi)為不同目的而構(gòu)建的不同產(chǎn)品。二者都有不可替代的優(yōu)勢(shì)。Hive 是一個(gè)基于Hadoop 的分布式數(shù)據(jù)庫,Spark 則是一個(gè)用于數(shù)據(jù)分析的框架。
這就要求技術(shù)人不得不掌握各種開源的技術(shù)框架。這就會(huì)造成顧此失彼,學(xué)完易忘、易混淆的情況。為了解決這個(gè)問題,這里推薦給大家一個(gè)高效學(xué)習(xí)和開發(fā)的寶藏:一份大數(shù)據(jù)/分布式開發(fā)速查表。內(nèi)容涵蓋:Spark、Hadoop及Hive等日常工作中幾乎所有的技術(shù)知識(shí)點(diǎn)。
對(duì)比詳細(xì)卻冗長(zhǎng)的技術(shù)文檔,速查表要顯得更加便捷與直觀??梢詭痛蠹液茌p松的從上面找到具體某項(xiàng)技術(shù)的快捷命令與語法,相信能大幅提升開發(fā)效率,同時(shí),一些遺忘的知識(shí)點(diǎn)也都能通過速查表來快速獲取。
由于篇幅原因,下面只展示了速查表的部分內(nèi)容。無論你是學(xué)習(xí)進(jìn)階,還是日后溫習(xí),這套速查表資料都值得好好珍藏。
1.大數(shù)據(jù)內(nèi)存計(jì)算框架之Spark 必知必會(huì)
學(xué)習(xí) Spark ,從大方向說,算子大致可以分為以下兩類: (1)Transformation 變換 / 轉(zhuǎn)換算子:這種變換并不觸發(fā)提交作業(yè),這種算子是延遲執(zhí)行的,也就是說從一個(gè) RDD 轉(zhuǎn)換生成另一個(gè) RDD 的轉(zhuǎn)換操作不是馬上執(zhí)行,需要等到有 Action 操作的時(shí)候才會(huì)真正觸發(fā)。 (2)Action 行動(dòng)算子:這類算子會(huì)觸發(fā) SparkContext 提交 job 作業(yè),并將數(shù)據(jù)輸出到 Spark 系統(tǒng)。



Spark 必知必會(huì):Transformation 算子


Spark 必知必會(huì):Action算子
2.大數(shù)據(jù)分布式文件系統(tǒng)之Hadoop 必知必會(huì)
內(nèi)容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 兩種風(fēng)格,都可使用,效果相同。


Hadoop 必知必會(huì):Hadoop Shell
3.大數(shù)據(jù)分布式數(shù)據(jù)庫之Hive必知必會(huì)
Hive 的本質(zhì)是將 SQL 語句轉(zhuǎn)換為 MapReduce 或者 spark 等任務(wù)執(zhí)行,并可以針對(duì)數(shù)據(jù)倉庫進(jìn)行分布式交互查詢。 內(nèi)容包括:Hive 內(nèi)置函數(shù)速查表,具體有關(guān)系、數(shù)學(xué)及邏輯運(yùn)算符、數(shù)值計(jì)算、日期函數(shù)、條件函數(shù)、字符串函數(shù)、聚合函數(shù)、高級(jí)函數(shù)及窗口函數(shù)等。

Hive 必知必會(huì):關(guān)系運(yùn)算符

Hive 必知必會(huì):數(shù)值計(jì)算

Hive 必知必會(huì):字符串函數(shù)
原文標(biāo)題:在百度,Spark,Hadoop,Hive ,哪個(gè)更香?
文章出處:【微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
SQL
+關(guān)注
關(guān)注
1文章
789瀏覽量
46329 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8540瀏覽量
136198 -
Hadoop
+關(guān)注
關(guān)注
1文章
90瀏覽量
16809 -
SPARK
+關(guān)注
關(guān)注
1文章
108瀏覽量
21094 -
hive
+關(guān)注
關(guān)注
0文章
12瀏覽量
4089
原文標(biāo)題:在百度,Spark,Hadoop,Hive ,哪個(gè)更香?
文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
電磁兼容與電磁干擾在電磁兼容性大數(shù)據(jù)分析中的智能管理系統(tǒng)
【節(jié)能學(xué)院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應(yīng)用
分布式光伏發(fā)電監(jiān)測(cè)系統(tǒng)技術(shù)方案
Ceph分布式存儲(chǔ)系統(tǒng)解析
潤和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例
多通道電源管理芯片在分布式能源系統(tǒng)中的優(yōu)化策略
分布式存儲(chǔ)數(shù)據(jù)恢復(fù)—虛擬機(jī)上hbase和hive數(shù)據(jù)庫數(shù)據(jù)恢復(fù)案例
Hadoop 生態(tài)系統(tǒng)在大數(shù)據(jù)處理中的應(yīng)用與實(shí)踐
分布式云化數(shù)據(jù)庫有哪些類型
基于ptp的分布式系統(tǒng)設(shè)計(jì)
HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù)文件資產(chǎn)遷移
HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對(duì)象遷移數(shù)據(jù)權(quán)限與基礎(chǔ)數(shù)據(jù)
ClickHouse:強(qiáng)大的數(shù)據(jù)分析引擎

大數(shù)據(jù)分析中Spark,Hadoop,Hive框架該用哪種開源分布式系統(tǒng)
評(píng)論