chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于HDFS的概述及組成與架構(gòu)詳解

jf_f8pIz0xS ? 來源:CSDN技術(shù)社區(qū) ? 作者:苜苜的爛筆頭 ? 2021-04-15 13:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、 HDFS簡(jiǎn)介

1.1 HDFS的概述

HDFS是基于 流數(shù)據(jù) 訪問模式的 分布式文件系統(tǒng) ,其設(shè)計(jì)建立在 “一次寫入、多次讀取” 的基礎(chǔ)上,提供高吞吐量、高容錯(cuò)性的數(shù)據(jù)訪問,能很好地解決海量數(shù)據(jù)的存儲(chǔ)問題。

流數(shù)據(jù) 是指數(shù)千個(gè)數(shù)據(jù)源 持續(xù)生成 的數(shù)據(jù),可以理解為隨時(shí)間延續(xù)而 無限增長(zhǎng) 的動(dòng)態(tài)數(shù)據(jù)集合。

通俗點(diǎn)說,如果把數(shù)據(jù)比如成一個(gè)水庫(kù),那么流進(jìn)去的水,就是流數(shù)據(jù)(就像我們聽的音樂,屬于音樂流;而看到的文字、圖片這些較為固定的,一次性下載的,形成不了流)。

在Hadoop生態(tài)圈中,HDFS屬于底層基礎(chǔ),負(fù)責(zé)存儲(chǔ)文件。

1.2 HDFS的優(yōu)點(diǎn)

HDFS的優(yōu)點(diǎn):

高容錯(cuò)性。提供了容錯(cuò)和恢復(fù)機(jī)制,副本丟失后,自動(dòng)恢復(fù)。

高可靠性。數(shù)據(jù)自動(dòng)保存多個(gè)副本,通過多副本提高可靠性。

適合大數(shù)據(jù)處理。可以處理超大文件,比如 TB級(jí)甚至PB級(jí) 的文件。

適合批處理。移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù);數(shù)據(jù)位置暴露給計(jì)算框架。

支持流式數(shù)據(jù)訪問。一次性寫入,多次讀?。ㄒ粋€(gè)數(shù)據(jù)集一旦生成,就會(huì)被復(fù)制分發(fā)到不同的存儲(chǔ)節(jié)點(diǎn),各節(jié)點(diǎn)可以進(jìn)行讀取/訪問);保證數(shù)據(jù)一致性。

低成本運(yùn)行。可以運(yùn)行在低成本的硬件之上。

HDFS 默認(rèn)保存 3 份副本。

第一個(gè)副本:放置在 上傳文件 的數(shù)據(jù)節(jié)點(diǎn)(第一個(gè)副本如果是在 集群外 提交,則隨機(jī)挑選一個(gè) CPU 比較空閑 、 磁盤不太滿 的節(jié)點(diǎn));

第二個(gè)副本:放置在與 第一個(gè)副本 不同 的機(jī)架的節(jié)點(diǎn)上;

第三個(gè)副本:放在與 第二個(gè)副本 相同 的機(jī)架的其他節(jié)點(diǎn)上。

1.3 HDFS的缺點(diǎn)

HDFS的缺點(diǎn):

不適合處理 低延遲 的數(shù)據(jù)訪問。比如用戶 要求時(shí)間比較短 的低延遲應(yīng)用(主要處理高數(shù)據(jù)吞吐量的應(yīng)用)。

不適合處理 大量的小 文件。會(huì)造成尋址時(shí)間超過讀取時(shí)間;會(huì)占用NameNode大量?jī)?nèi)存,因?yàn)镹ameNode把文件系統(tǒng)的元數(shù)據(jù)存放在內(nèi)存中(文件系統(tǒng)的容量由NameNode的大小決定),小文件太多會(huì)消耗NameNode的內(nèi)存。

不適合 并發(fā)寫入。一個(gè)文件只能有一個(gè)寫入者,HDFS暫不支持多個(gè)用戶對(duì)同一個(gè)文件的寫操作。

不適合 任意修改 文件。僅支持append(附加),不支持在文件的任意位置進(jìn)行修改。

二、 HDFS的組成與架構(gòu)

HDFS的組成架構(gòu)圖及各部分功能如下所示:

2.1 NameNode節(jié)點(diǎn)

當(dāng)用戶訪問數(shù)據(jù)文件時(shí),為了保證能夠讀取到每一個(gè)數(shù)據(jù)塊, HDFS有一個(gè)專門 負(fù)責(zé)保存文件屬性信息的節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)就是 NameNode 節(jié)點(diǎn)(即 名稱節(jié)點(diǎn) )。

2.1.1 節(jié)點(diǎn)職責(zé)

NameNode節(jié)點(diǎn) 是HDFS的管理者,負(fù)責(zé)保存和管理HDFS的元數(shù)據(jù)。

其職責(zé)有以下三個(gè)方面:

① 管理維護(hù)HDFS的命名空間

NameNode管理HDFS系統(tǒng)的命名空間,維護(hù)文件系統(tǒng)樹以及文件系統(tǒng)樹中所有文件的元數(shù)據(jù)。管理這些信息的的文件分別是 edits(操作日志文件) 和 fsimage(命名空間鏡像文件) 。

editlog(操作日志):在NameNode啟動(dòng)的情況下,對(duì)HDFS進(jìn)行的各種操作進(jìn)行記錄。(HDFS客戶端執(zhí)行的所有操作都會(huì)被記錄到editlog文件中,這些文件由edits文件保存)

fsimage:包含HDFS中的元信息(比如修改時(shí)間、訪問時(shí)間、數(shù)據(jù)塊信息等)。

② 管理DataNode上的數(shù)據(jù)塊

負(fù)責(zé)管理數(shù)據(jù)塊上所有的元數(shù)據(jù)信息(管理DataNode上數(shù)據(jù)塊的均衡,維持副本數(shù)量)。

③ 接收客戶端的請(qǐng)求

接收客戶端文件上傳、下載、創(chuàng)建目錄等的請(qǐng)求。

2.2 DataNode節(jié)點(diǎn)

HDFS首先把大文件切分成若干個(gè)小的數(shù)據(jù)塊,再把這些數(shù)據(jù)塊寫入不同的節(jié)點(diǎn),這個(gè) 負(fù)責(zé)保存文件數(shù)據(jù)的節(jié)點(diǎn)就是 DataNode 節(jié)點(diǎn)(即 數(shù)據(jù)節(jié)點(diǎn) )。

2.2.1 節(jié)點(diǎn)職責(zé)

DataNode節(jié)點(diǎn) 負(fù)責(zé)存儲(chǔ)數(shù)據(jù),把Block(數(shù)據(jù)塊)以Linux文件的形式保存在磁盤上,并根據(jù)Block標(biāo)識(shí)和字節(jié)范圍來讀寫塊數(shù)據(jù)。

其職責(zé)有以下三個(gè)方面:

① 保存數(shù)據(jù)塊

一個(gè)數(shù)據(jù)塊會(huì)在多個(gè)DataNode進(jìn)行冗余備份(在某一個(gè)DataNode最多只有一個(gè)備份)。

② 負(fù)責(zé)客戶端對(duì)數(shù)據(jù)塊的IO請(qǐng)求

在客戶端執(zhí)行寫操作時(shí),DataNode之間會(huì)相互通信,保證寫操作的一致性。

③ 定期和NameNode進(jìn)行心跳通信,接受NameNode的指令

如果NameNode節(jié)點(diǎn)10分鐘沒有收到DataNode的心跳信息,就會(huì)將其上的數(shù)據(jù)塊復(fù)制到其他DataNode節(jié)點(diǎn)。

因此,NameNode節(jié)點(diǎn)上并不會(huì)永久保存DataNode節(jié)點(diǎn)上的數(shù)據(jù)塊信息,而是通過與DataNode節(jié)點(diǎn)心跳聯(lián)系的方式,來更新節(jié)點(diǎn)上的映射表,以此減輕負(fù)擔(dān)。

問題:HDFS數(shù)據(jù)塊默認(rèn)大小為128M(Hadoop2.2之前為64M),將HDFS的數(shù)據(jù)塊設(shè)置得很大的目的是什么?(傳統(tǒng)數(shù)據(jù)塊只有512個(gè)字節(jié))

答:為了減少尋址開銷,讓HDFS的文件傳輸時(shí)間由傳輸速率決定(如果塊設(shè)置得足夠大,從磁盤 傳輸數(shù)據(jù)的時(shí)間 會(huì)明顯大于 定位這個(gè)塊開始位置 所需的時(shí)間)。

2.3 SecondaryNameNode節(jié)點(diǎn)

HDFS有一個(gè)定期創(chuàng)建命名空間的檢查點(diǎn)(CheckPoint)操作的節(jié)點(diǎn),也就是SecondaryNameNode節(jié)點(diǎn)(即 第二名稱節(jié)點(diǎn))。

出于可靠性考慮,SecondaryNameNode節(jié)點(diǎn)與NameNode節(jié)點(diǎn)通常運(yùn)行在不同的機(jī)器上,且SecondaryNameNode節(jié)點(diǎn)與NameNode節(jié)點(diǎn)的內(nèi)存要一樣大。

(如果想了解 SecondaryNameNode 的工作流程,可以參考這篇文章:淺析 SecondaryNameNode 的工作流程 )

問題:一般情況下,一個(gè)集群中的SecondaryNameNode節(jié)點(diǎn)也是只有一個(gè)的原因是什么?

答:因?yàn)槿绻嗟脑挘瑫?huì)增加NameNode的壓力,使其忙于元數(shù)據(jù)的傳輸/接收、日志的傳輸/切換,從而導(dǎo)致性能下降;同時(shí),NameNode節(jié)點(diǎn)也不支持做并發(fā)檢查點(diǎn)。

2.3.1 節(jié)點(diǎn)職責(zé)

SecondaryNameNode節(jié)點(diǎn) 定期把NameNode的 fsimage 和 edits 下載到本地,再將它們加載到內(nèi)存并進(jìn)行合并,最后把合并后新的 fsimage 返回NameNode (這個(gè)過程稱為檢查點(diǎn))。

經(jīng)典問題:NameNode與SecondaryNameNode有沒有關(guān)系?

SecondaryNameNode節(jié)點(diǎn)的工作流程可以參考這篇文章:

其職責(zé)有以下兩個(gè)方面:

① 防止edits過大

定期合并 fsimage 和 edits 文件,使 edits 大小保持在限制范圍內(nèi)。這樣做減少了重新啟動(dòng)NameNode時(shí)合并 fsimage 和 edits 耗費(fèi)的時(shí)間,從而減少了NameNode啟動(dòng)的時(shí)間。

② 做冷備份

對(duì)一定范圍內(nèi)數(shù)據(jù)做快照性備份,在NameNode失效時(shí)能恢復(fù)部分 fsimage 。

好了,HDFS 及其組成框架介紹完成。

如果想進(jìn)一步了解 HDFS 的工作機(jī)制,可以參考這篇文章:圖文詳解 HDFS 工作機(jī)制及其原理 。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    32

    瀏覽量

    10061
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    芯源MCU架構(gòu)是不是基本都是ARM架構(gòu)?還有其他的架構(gòu)嗎?

    芯源MCU架構(gòu)是不是基本都是ARM架構(gòu)?還有其他的架構(gòu)嗎?
    發(fā)表于 11-20 06:21

    企業(yè)級(jí)HDFS高可用與YARN資源調(diào)度方案

    作為一名在大數(shù)據(jù)運(yùn)維領(lǐng)域摸爬滾打8年的老兵,我見過太多因?yàn)榛A(chǔ)架構(gòu)不夠健壯而導(dǎo)致的生產(chǎn)事故。今天,我想和大家分享一套經(jīng)過實(shí)戰(zhàn)檢驗(yàn)的 HDFS 高可用與 YARN 資源調(diào)度方案,這套方案幫助我們團(tuán)隊(duì)將平臺(tái)可用性從 99.5% 提升到 99.99%,年故障時(shí)間從 43 小時(shí)降
    的頭像 發(fā)表于 09-08 17:15 ?529次閱讀

    新能源汽車高壓架構(gòu)詳解

    應(yīng)讀者建議,講一下高壓電氣架構(gòu),花了一點(diǎn)時(shí)間做了一些圖,便于直觀理解,分析一下高壓架構(gòu)的發(fā)展歷程和趨勢(shì)。
    的頭像 發(fā)表于 09-02 15:01 ?2578次閱讀
    新能源汽車高壓<b class='flag-5'>架構(gòu)</b><b class='flag-5'>詳解</b>

    光伏智能電網(wǎng)的組成架構(gòu)

    光伏智能電網(wǎng)是融合光伏發(fā)電與智能電網(wǎng)技術(shù)的現(xiàn)代電力系統(tǒng),其核心目標(biāo)是通過智能化手段實(shí)現(xiàn)光伏發(fā)電的高效接入、靈活調(diào)控與優(yōu)化運(yùn)行,從而提升電網(wǎng)的可靠性、經(jīng)濟(jì)性和環(huán)保性。以下從組成架構(gòu)兩方面展開
    的頭像 發(fā)表于 07-22 10:54 ?761次閱讀

    MySQL的組成結(jié)構(gòu)與結(jié)構(gòu)化查詢語言詳解

    MySQL作為世界上最流行的開源關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),采用了分層架構(gòu)設(shè)計(jì)
    的頭像 發(fā)表于 07-14 11:21 ?418次閱讀

    Nginx架構(gòu)拆分集群詳解

    單臺(tái)服務(wù)器運(yùn)行整個(gè) LNMP 架構(gòu)會(huì)導(dǎo)致網(wǎng)站訪問緩慢,當(dāng)系統(tǒng)內(nèi)存被吃滿時(shí),很容易導(dǎo)致系統(tǒng)出現(xiàn)oom,從而kill掉MySQL數(shù)據(jù)庫(kù),為了避免這種情況的發(fā)生,我們可以將數(shù)據(jù)庫(kù)服務(wù)拆分到獨(dú)立的服務(wù)器上部署。
    的頭像 發(fā)表于 06-28 16:03 ?464次閱讀
    Nginx<b class='flag-5'>架構(gòu)</b>拆分集群<b class='flag-5'>詳解</b>

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?906次閱讀
    Transformer<b class='flag-5'>架構(gòu)</b><b class='flag-5'>概述</b>

    SSH常用命令詳解

    SSH常用命令詳解
    的頭像 發(fā)表于 06-04 11:30 ?1698次閱讀

    FPC組成簡(jiǎn)介及工程設(shè)計(jì)規(guī)范

    FPC產(chǎn)品簡(jiǎn)介概述: 1,F(xiàn)PC概念 2,F(xiàn)PC產(chǎn)品結(jié)構(gòu)組成 3,F(xiàn)PC材料 4,F(xiàn)PC產(chǎn)品類型 5,F(xiàn)PC產(chǎn)品特征 FPC(Flexible Printed Circuit)撓性印刷電路版,簡(jiǎn)稱
    發(fā)表于 05-27 15:10

    詳解電動(dòng)汽車的區(qū)域控制架構(gòu)

    故障情況。不同于傳統(tǒng)的域架構(gòu),區(qū)域控制架構(gòu)采用集中控制和計(jì)算的方式,將分散在各個(gè) ECU 上的軟件統(tǒng)一交由強(qiáng)大的中央計(jì)算機(jī)處理,從而為下游的電子控制和配電提供了更高的靈活性。
    的頭像 發(fā)表于 05-15 09:23 ?1841次閱讀
    <b class='flag-5'>詳解</b>電動(dòng)汽車的區(qū)域控制<b class='flag-5'>架構(gòu)</b>

    芯片新關(guān)稅涉及的品牌/標(biāo)簽/產(chǎn)地—詳解

    芯片新關(guān)稅涉及的品牌/標(biāo)簽/產(chǎn)地—詳解
    的頭像 發(fā)表于 04-16 17:44 ?837次閱讀
    芯片新關(guān)稅涉及的品牌/標(biāo)簽/產(chǎn)地—<b class='flag-5'>詳解</b>

    水電站技術(shù)供水系統(tǒng)方案概述及技術(shù)優(yōu)勢(shì)

    水電站技術(shù)供水系統(tǒng)是水電廠生產(chǎn)過程中不可或缺的重要組成部分,它為各種機(jī)電設(shè)備的穩(wěn)定運(yùn)行提供必要的冷卻、潤(rùn)滑和水壓操作等功能。
    的頭像 發(fā)表于 04-10 14:33 ?573次閱讀
    水電站技術(shù)供水系統(tǒng)方案<b class='flag-5'>概述及</b>技術(shù)優(yōu)勢(shì)

    SVPWM的原理及法則推導(dǎo)和控制算法詳解

    SVPWM 是近年發(fā)展的一種比較新穎的控制方法,是由三相功率逆變器的六個(gè)功率開關(guān)元件組成的特定開關(guān)模式產(chǎn)生的脈寬調(diào)制波,能夠使輸出電流波形盡 可能接近于理想的正弦波形??臻g電壓矢量 PWM 與傳統(tǒng)
    發(fā)表于 03-14 14:51

    開關(guān)電源各部電路詳解

    開關(guān)電源原理及各功能電路詳解 一、 開關(guān)電源的電路組成:: 開關(guān)電源的主要電路是由輸入電磁干擾濾波器(EMI)、整流濾波電路、功率變換電路、PWM控制器電路、輸出整流濾波電路組成。輔助電路有輸入過
    發(fā)表于 03-10 16:51

    百問MQTT協(xié)議分析 - MQTT簡(jiǎn)述及協(xié)議報(bào)文格式組成

    16.1 mqtt協(xié)議介紹 16.1.1 概述 ?MQTT是一個(gè)客戶端服務(wù)端架構(gòu)的發(fā)布/訂閱模式的消息傳輸協(xié)議。它的設(shè)計(jì)思想是輕巧、開放、簡(jiǎn)單、規(guī)范,易于實(shí)現(xiàn)。這些特點(diǎn)使得它對(duì)很多場(chǎng)景來說都是很好
    發(fā)表于 12-13 09:29