chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hadoop的數(shù)據(jù)寫入、備份、刪除操作

存儲界 ? 來源:未知 ? 作者:李倩 ? 2018-04-29 17:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google 為了應(yīng)對快速增長的數(shù)據(jù)處理,開發(fā)了一套算法。后來有人根據(jù)算法的思想,開發(fā)出開源的軟件框架 ,就是Hadoop, 隨著越來越多的組織和個(gè)人開發(fā)者在框架開發(fā)中不斷貢獻(xiàn)改進(jìn),Hadoop 已經(jīng)形成一套家族產(chǎn)品,成為當(dāng)下最成功最流行的分布式大數(shù)據(jù)處理框架。

Hadoop 受到很多組織青睞,是因?yàn)橛袃纱笠蛩兀?/p>

一、超大規(guī)模的數(shù)據(jù)處理, 通常 10TB 以上;

二、超復(fù)雜的計(jì)算工作,例如統(tǒng)計(jì)和模擬

Hadoop 在很多應(yīng)用場景中發(fā)揮著主要功用,如大規(guī)模統(tǒng)計(jì)、ETL數(shù)據(jù)挖掘、大數(shù)據(jù)智能分析、機(jī)器學(xué)習(xí)等。

Hadoop 和 傳統(tǒng)SQL關(guān)系數(shù)據(jù)存儲 有什么區(qū)別?

Hadoop 讀時(shí)模式(Schema on read),傳統(tǒng)SQL是 寫時(shí)模式(Schema on write).傳統(tǒng)數(shù)據(jù)庫存儲時(shí)對數(shù)據(jù)進(jìn)行檢查,需要檢查表結(jié)構(gòu)定義等必須匹配后才讓存儲(write),否則就報(bào)錯(cuò)。Hadoop 是你拿過任何數(shù)據(jù)格式我都給你存儲,只要你給我讀取這些數(shù)據(jù)的接口程序,在用到這些數(shù)據(jù)時(shí)(read),才會檢查。

左邊是Schema on Read ,右邊是Schema on Write。 右邊數(shù)據(jù)格式不對會報(bào)錯(cuò),左邊更關(guān)注讀數(shù)據(jù)的規(guī)則。Hadoop 是分布式數(shù)據(jù)庫, 而大部分SQL是集中存儲的。

舉例來講: 微信后臺有可能數(shù)千個(gè)服務(wù)器節(jié)點(diǎn)用于存儲微信聊天記錄,假設(shè)我的聊天記錄分布在60個(gè)不同的服務(wù)節(jié)點(diǎn)上。而對于關(guān)系數(shù)據(jù)庫,會集中在多個(gè)表空間中。

假如我搜索我的一個(gè)聊天記錄,Hadoop 會把搜索任務(wù)分成多個(gè)均衡負(fù)載的搜索任務(wù)運(yùn)行在60個(gè)節(jié)點(diǎn)上。而傳統(tǒng)SQL會逐個(gè)搜索存儲空間,直到全部遍歷。如果沒有完全搜索完,會返回搜索結(jié)果嗎? Hadoop的回答是YES,而傳統(tǒng)SQL會是NO。

Hadoop 家族的產(chǎn)品 Hive,可以讓不怎么懂SQL 的客戶開發(fā)出基本上和SQL同樣功能的查詢

Hadoop 的數(shù)據(jù)寫入、備份、刪除操作

一、數(shù)據(jù)寫入

在客戶端想HDFS寫數(shù)據(jù)的過程中,主要分為下面幾個(gè)過程:

客戶端將數(shù)據(jù)緩存到本地的一個(gè)臨時(shí)文件中;

當(dāng)這個(gè)本地的臨時(shí)文件到達(dá)HDFS中的塊大小限制時(shí),客戶端訪問Namenode,Namenode將文件的名字插入到HDFS命名空間中,并且為其分配相應(yīng)的存儲位置;

Namenode與分配好的Datanode進(jìn)行溝通,確定存儲位置可用,然后將這些存儲位置信息返回給客戶端;

客戶端將本地的臨時(shí)文件傳輸?shù)紻atanode中;

當(dāng)寫文件結(jié)束,臨時(shí)文件關(guān)閉時(shí),會將已有的臨時(shí)數(shù)據(jù)傳輸?shù)紻atanode中,并告知Namenode寫數(shù)據(jù)完成;

Namenode將該文件改變?yōu)槌志玫囊恢滦誀顟B(tài),也就事將該操作記錄到日志EditLog中。如果此時(shí)Namenode宕掉,那么文件信息丟失。

上面的過程主要特點(diǎn)是寫入數(shù)據(jù)先緩存到本地,在達(dá)到塊大小限制時(shí)才與Datanode通信進(jìn)行傳輸。這樣的好處在于避免在客戶寫數(shù)據(jù)的過程中持續(xù)占用網(wǎng)絡(luò)帶寬,這對于處理多用戶大量數(shù)據(jù)的寫入是非常關(guān)鍵的。

二、數(shù)據(jù)備份

數(shù)據(jù)的寫入同時(shí)伴隨這數(shù)據(jù)塊的備份,過程如下:

在客戶端臨時(shí)數(shù)據(jù)達(dá)到一個(gè)塊時(shí),與Namenode通信,得到一組Datanode地址,這些Datanode就是用來存儲該數(shù)據(jù)塊的;

客戶端首先將該數(shù)據(jù)塊發(fā)送到一個(gè)Datanode上,Datanode在接受時(shí)是以4kb為單位進(jìn)行,我們把這些小單位稱為緩存頁(參考了Linux管道文件的說法);

對于第一個(gè)接到數(shù)據(jù)的Datanode,它把緩存頁中的數(shù)據(jù)寫入自己的文件系統(tǒng),另一方面,它又將這些緩存頁傳送給下一個(gè)Datanode;

重復(fù)3的過程,第二個(gè)Datanode又將緩存頁存儲在本地文件系統(tǒng),同時(shí)將它傳送給第三個(gè)Datanode;

如果HDFS中的備份數(shù)目設(shè)置為3,那么第三個(gè)Datanode就只需要將緩存頁存儲即可。

上面的過程中,數(shù)據(jù)塊從客戶端流向第一個(gè)Datanode,然后再流向第二個(gè),從第二個(gè)再到第三個(gè),整個(gè)是一個(gè)流水線過程,中間不會有停頓。所以HDFS將它稱為Replication Pipelining。

為什么不采取客戶端同時(shí)向多個(gè)Datanode寫數(shù)據(jù)的方法呢?其實(shí)從Pipelining這個(gè)稱呼上就可以猜到,客戶端和Datanode采用的緩存文件都是管道文件,即只支持一次讀取。

三、 數(shù)據(jù)刪除

HDFS中的數(shù)據(jù)刪除也是比較有特點(diǎn)的,并不是直接刪除,而是先放在一個(gè)類似回收站的地方(/trash),可供恢復(fù)。

對于用戶或者應(yīng)用程序想要刪除的文件,HDFS會將它重命名并移動到/trash中,當(dāng)過了一定的生命期限以后,HDFS才會將它從文件系統(tǒng)中刪除,并由Namenode修改相關(guān)的元數(shù)據(jù)信息。并且只有到這個(gè)時(shí)候,Datanode上相關(guān)的磁盤空間才能節(jié)省出來,也就是說,當(dāng)用戶要求刪除某個(gè)文件以后,并不能馬上看出HDFS存儲空間的增加,得等到一定的時(shí)間周期以后(現(xiàn)在默認(rèn)為6小時(shí))。

對于備份數(shù)據(jù),有時(shí)候也會需要刪除,比如用戶根據(jù)需要下調(diào)了Replicaion的個(gè)數(shù),那么多余的數(shù)據(jù)備份就會在下次Beatheart聯(lián)系中完成刪除,對于接受到刪除操作的Datanode來說,它要刪除的備份塊也是先放入/trash中,然后過一定時(shí)間后才刪除。因此在磁盤空間的查看上,也會有一定的延時(shí)。

那么如何立即徹底刪除文件呢,可以利用HDFS提供的Shell命令:bin/hadoop dfs expunge清空/trash。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4625

    瀏覽量

    89002
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    16741

原文標(biāo)題:Hadoop分布式存儲與傳統(tǒng)SQL存儲比較及存儲操作描述

文章出處:【微信號:cunchujie,微信公眾號:存儲界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    魅族M8數(shù)據(jù)備份操作方法圖解步驟

    魅族M8數(shù)據(jù)備份操作方法圖解步驟魅族M8手機(jī)升級固件,優(yōu)化操作、豐富功能,為了避免原聯(lián)系人和已有個(gè)人設(shè)置信息的丟失,您需要對這些重要的數(shù)據(jù)進(jìn)
    發(fā)表于 04-30 08:23

    山西嵌入式系統(tǒng)課程| Spark與Hadoop計(jì)算模型之Spark比Hadoop更...

    上次我們分享了Spark與Hadoop計(jì)算模型的內(nèi)存問題,今天山西思軟嵌入式學(xué)員為大家分享Spark與Hadoop計(jì)算模型的Spark比Hadoop更通用的問題。 Spark提供的數(shù)據(jù)
    發(fā)表于 11-17 16:44

    從零開始學(xué)習(xí)hadoop?hadoop快速入門

    Hadoop是在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的一個(gè)平臺,其核心部件是HDFS與MapReduce。HDFS是一個(gè)分布式文件系統(tǒng),可對數(shù)據(jù)系統(tǒng)進(jìn)行分布式儲存讀取
    發(fā)表于 03-13 15:21

    Hadoop的整體框架組成

    Hadoop是一個(gè)用Java編寫的Apache開源框架,允許使用簡單的編程模型跨計(jì)算機(jī)集群分布式處理大型數(shù)據(jù)集。Hadoop框架工作的應(yīng)用程序在跨計(jì)算機(jī)集群提供分布式存儲和計(jì)算的環(huán)境中工作
    發(fā)表于 05-11 16:00

    學(xué)hadoop需要什么基礎(chǔ)

    ,就可以開始系統(tǒng)的學(xué)習(xí)hadoop。當(dāng)然,若是能夠結(jié)合一些實(shí)踐性的東西學(xué)習(xí)會更有助于理解hadoop。學(xué)習(xí)hadoop需要什么基礎(chǔ):Linux:① 需要能夠熟練操作linux常用命令以
    發(fā)表于 09-20 16:00

    數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解

    ` 大數(shù)據(jù)這個(gè)詞也許幾年前你聽著還會覺得陌生,但我相信你現(xiàn)在聽到hadoop這個(gè)詞的時(shí)候你應(yīng)該都會覺得“熟悉”!越來越發(fā)現(xiàn)身邊從事hadoop開發(fā)或者是正在學(xué)習(xí)hadoop的人變多了。
    發(fā)表于 12-26 15:02

    Hadoop學(xué)習(xí)之概念命令操作java操作

    Hadoop學(xué)習(xí)筆記(一)—-概念命令操作java操作1. Hadoop概述 HADOOP是apache旗下的一套開源軟件平臺,利用服務(wù)器集
    發(fā)表于 11-27 20:03 ?1248次閱讀

    itunes備份哪里刪除_怎么把itunes備份文件刪除_如何找回itunes刪除備份

    由于iPhone手機(jī)網(wǎng)絡(luò)的原因,小編最近開始使用電腦端的iTunes來進(jìn)行操作,當(dāng)然后邊如果想要使用備份文件來恢復(fù)iPhone手機(jī),也是要在電腦上來操作的。iTunes備份文件在哪?怎
    發(fā)表于 12-19 13:55 ?4.3w次閱讀
    itunes<b class='flag-5'>備份</b>哪里<b class='flag-5'>刪除</b>_怎么把itunes<b class='flag-5'>備份</b>文件<b class='flag-5'>刪除</b>_如何找回itunes<b class='flag-5'>刪除</b>的<b class='flag-5'>備份</b>

    基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除解決方案

    針對數(shù)據(jù)中心存在大量數(shù)據(jù)冗余的問題,特別是備份數(shù)據(jù)造成的存儲容量浪費(fèi),提出一種基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)
    發(fā)表于 12-22 14:19 ?0次下載
    基于<b class='flag-5'>Hadoop</b>平臺的分布式重復(fù)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>刪除</b>解決方案

    hadoop是什么_華為大數(shù)據(jù)平臺hadoop你了解多少

    Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu),將大數(shù)據(jù)
    發(fā)表于 12-25 16:46 ?2.4w次閱讀
    <b class='flag-5'>hadoop</b>是什么_華為大<b class='flag-5'>數(shù)據(jù)</b>平臺<b class='flag-5'>hadoop</b>你了解多少

    Mysql如何快速回滾被刪除數(shù)據(jù)

    數(shù)據(jù)操作中,難免會因?yàn)楦鞣N各樣的原因?qū)?b class='flag-5'>數(shù)據(jù)造成損壞,這個(gè)時(shí)候就需要對數(shù)據(jù)庫快速恢復(fù)。傳統(tǒng)的方法會先恢復(fù)mysql備份,再去用mysqlb
    的頭像 發(fā)表于 07-29 18:27 ?5649次閱讀
    Mysql如何快速回滾被<b class='flag-5'>刪除</b>的<b class='flag-5'>數(shù)據(jù)</b>

    消除重復(fù)數(shù)據(jù)刪除的四大誤區(qū)

    萬一備份數(shù)據(jù)流在寫入的時(shí)候,只對同一個(gè)磁盤進(jìn)行操作,那么這個(gè)問題確實(shí)存在。
    發(fā)表于 07-23 11:23 ?790次閱讀

    數(shù)據(jù)庫插入查詢刪除操作教程

    數(shù)據(jù)庫插入查詢刪除操作教程
    發(fā)表于 12-07 09:57 ?2次下載

    Windows驅(qū)動器分區(qū)可以刪除

    可以刪除Windows驅(qū)動器分區(qū)。刪除驅(qū)動器分區(qū)的操作可以在Windows操作系統(tǒng)中的磁盤管理工具中完成。然而,在執(zhí)行此操作之前,請務(wù)必提前
    的頭像 發(fā)表于 02-14 17:00 ?2298次閱讀

    數(shù)據(jù)數(shù)據(jù)恢復(fù)——MySQL數(shù)據(jù)庫誤刪除表記錄的數(shù)據(jù)恢復(fù)案例

    本地服務(wù)器,安裝的windows server操作系統(tǒng)。 操作系統(tǒng)上部署MySQL單實(shí)例,引擎類型為innodb,表空間類型為獨(dú)立表空間。該MySQL數(shù)據(jù)庫沒有備份,未開啟binlo
    的頭像 發(fā)表于 02-22 09:44 ?1031次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>庫<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)——MySQL<b class='flag-5'>數(shù)據(jù)</b>庫誤<b class='flag-5'>刪除</b>表記錄的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例