chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

對于大數(shù)據(jù)的處理,主要有幾個工具引擎

姚小熊27 ? 來源:今日頭條 ? 作者:今日頭條 ? 2020-11-05 10:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

提到大數(shù)據(jù),我們就離不開數(shù)據(jù)的收集整理,其中ETL是我們經(jīng)常使用的用于構(gòu)建數(shù)據(jù)倉庫, 構(gòu)建大數(shù)據(jù)的方法。

大數(shù)據(jù)處理階段

此階段的目標是使用單個模式來清理,規(guī)范化,處理和保存數(shù)據(jù)。最終結(jié)果是具有定義良好的架構(gòu)的可信數(shù)據(jù)集。例如Spark之類的處理框架用于在機器集群中并行處理數(shù)據(jù)。在這里我們需要進行數(shù)據(jù)的驗證,隔離掉不合法的數(shù)據(jù),我們需要對不良數(shù)據(jù)進行篩選過濾。對于不規(guī)范的數(shù)據(jù),我們需要有整理和清潔功能,我們要能夠?qū)⒁恍┑托У母袷饺雑son進行轉(zhuǎn)換。同時我們可能還需要一些標準化的操作,比如對一些數(shù)值進行小數(shù)點位的精度轉(zhuǎn)化。

大數(shù)據(jù)處理的最終目的就是創(chuàng)建一個可信數(shù)據(jù)集,然后下游系統(tǒng)可以依賴此數(shù)據(jù)源進行業(yè)務分析和數(shù)據(jù)計算。

對于大數(shù)據(jù)的處理,主要有下面的幾個工具引擎。

Apache Hive

它是將SQL請求轉(zhuǎn)換為MapReduce任務鏈的引擎。它主要實現(xiàn)的功能是對傳入的SQL進行排序然后優(yōu)化排序結(jié)果,最終得到高效率的請求結(jié)果。2018年它將MapReduce替換為Tez作為搜索引擎。它具有機器學習功能,并且在和其他流行的大數(shù)據(jù)框架進行集成。

Apache Spark

這是最著名的批處理框架。它是Hadoop生態(tài)系統(tǒng)的一部分,是一個托管集群,可提供強大的并性,有著精準的監(jiān)控和出色的UI。它還支持流處理(結(jié)構(gòu)化流)?;旧?,Spark在內(nèi)存中運行MapReduce作業(yè),其性能是常規(guī)MapReduce性能的100倍。它與Hive集成以支持SQL,并可用于創(chuàng)建Hive表,視圖或查詢數(shù)據(jù)。它具有很多集成,支持多種格式,并且擁有龐大的社區(qū)。所有云提供商都支持它。它可以在YARN上運行作為Hadoop集群的一部分,還可以在Kubernetes和其他平臺中使用。它具有許多的第三方庫可以使用。

Apache Flink

第一個統(tǒng)一批處理和流傳輸?shù)囊?,它可以用作像Kafka這樣的微服務的主干。它可以作為Hadoop集群的一部分在YARN上運行,它還針對其他平臺(如Kubernetes或Mesos)進行了優(yōu)化。它非??欤⑶姨峁崟r流傳輸,使其成為針對低延遲流處理(尤其是有狀態(tài)流)的一個比Spark更好的選擇。它還具有用于SQL,機器學習等的庫。它比Spark更快,是數(shù)據(jù)流的更好選擇。

Apache Storm

是一個免費和開源的分布式實時計算系統(tǒng),它專注于流傳輸,是Hadoop生態(tài)系統(tǒng)的托管解決方案部分。它具有可擴展性,容錯性,可確保您的數(shù)據(jù)將得到處理,并且易于設置和操作。

Apache Samza

一個出色的有狀態(tài)流處理引擎。Samza允許您構(gòu)建有狀態(tài)的應用程序,它可以從多個來源實時處理數(shù)據(jù)。它不僅可以在YARN集群上運行,也可以作為獨立庫單獨運行。

Apache Beam

它本身不是引擎,而是將所有其他引擎結(jié)合在一起的統(tǒng)一編程模型的規(guī)范。它提供了可以與不同語言一起使用的編程模型,因此開發(fā)人員在處理大數(shù)據(jù)管道時不必學習新的語言。然后,它為可以在云或本地運行的處理步驟插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它們之間輕松切換并在任何平臺上運行它們:云,YARN,Mesos,Kubernetes。如果您要開始一個新項目,那么建議您從Beam開始,因為Beam是面向未來的。

Presto

Presto是一個開放源代碼的分布式SQL查詢引擎,適合于對各種大小,各種數(shù)據(jù)源進行交互式分析查詢。

Presto是專為交互式分析而設計和編寫的,當它的規(guī)模擴展到一定的規(guī)模的時候,它也可以實現(xiàn)商業(yè)數(shù)據(jù)倉庫的處理速度。

Presto允許查詢數(shù)據(jù)存在多個地方,包括Hive,Cassandra,關系數(shù)據(jù)庫甚至專有數(shù)據(jù)存儲。一個Presto查詢可以合并來自多個來源的數(shù)據(jù),從而可以在整個組織中進行分析。

Presto適用于期望響應時間從亞秒到數(shù)分鐘不等的分析師。Presto打破了使用昂貴的商業(yè)解決方案進行快速分析或使用需要大量硬件的慢速“免費”解決方案之間的錯誤選擇。

總結(jié)

處理引擎是當前在大數(shù)據(jù)詞中使用的很著名的工具。作為大數(shù)據(jù)工程師,您將經(jīng)常使用這些引擎。了解這些引擎的分布式特性并知道如何優(yōu)化它們,保護它們并監(jiān)視它們至關重要。

請記住,還有一些OLAP引擎提供了一種查詢大量數(shù)據(jù)的單一解決方案,而無需編寫復雜的轉(zhuǎn)換,而是通過以一種特定的格式加載數(shù)據(jù)來提高查詢的性能。

對于一個新項目,建議您研究Apache Beam,因為它在所有其他引擎的基礎上提供了一個抽象,使您無需更改代碼即可更改處理引擎。

對于流處理,特別是有狀態(tài)流處理,請考慮Flink或Samza。對于批處理,請使用Spark。
責任編輯:YYX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    提高RISC-V在Drystone測試中得分的方法

    Drystone 是一種常用的計算機性能基準測試,主要用來測量整數(shù)(非浮點)計算性能。 影響 RISC-V 在 Drystone 測試中得分的因素主要有以下幾個處理器核心設計:
    發(fā)表于 10-21 13:58

    水晶頭主要有哪幾種型號

    水晶頭主要有RJ-45、RJ-11和RJ-12三種型號,具體說明如下: RJ-45水晶頭: 結(jié)構(gòu):有8個凹槽和8個觸點(8p8c),體積相對較大。 應用:廣泛用于以太網(wǎng)、快速以太網(wǎng)、千兆以太網(wǎng)等網(wǎng)絡
    的頭像 發(fā)表于 08-05 09:41 ?1927次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡智能診斷邁向 “自愈”時代

    診斷方案,為網(wǎng)絡運維帶來顯著的實用價值:1.快速提升故障處理效率l 實時監(jiān)控與智能預警: AI引擎持續(xù)分析海量流量、設備狀態(tài)及日志數(shù)據(jù),實時識別異常模式(如流量突增、延遲抖動、微小丟包),實現(xiàn)故障發(fā)生
    發(fā)表于 07-16 15:29

    測量相位差的方法主要有哪些?

    測量相位差可以用示波器測量,也可以把相位差轉(zhuǎn)換為時間間隔,先測量出時間間隔,再換算為相位差,可以把相位差轉(zhuǎn)換為電壓,先測量出電壓,再換算為相位差,還可以與標準移相器進行比較的比較法(零示法)等方法。 一 怎么用示波器來測量相位差? 應用示波器測量兩個同頻正弦電壓之間的相位差的方法很多,本節(jié)介紹具有實用意義的直接比較法。將u1、u2分別接到雙蹤示波器的Y1通道和Y2通道,適當調(diào)節(jié)掃描旋鈕和Y增益旋鈕,使熒光屏顯示出如圖
    的頭像 發(fā)表于 06-18 09:03 ?1042次閱讀
    測量相位差的方法<b class='flag-5'>主要有</b>哪些?

    運算放大器的噪聲主要有哪些

    在低噪聲前置放大器的設計領域,精準控制噪聲是保障信號質(zhì)量的核心任務。而運算放大器作為前置放大器的關鍵組件,其產(chǎn)生的噪聲直接影響系統(tǒng)性能。運算放大器的噪聲主要來源于熱噪聲、閃爍噪聲、射擊噪聲和爆玉米
    的頭像 發(fā)表于 05-05 10:11 ?622次閱讀

    如何基于Kahn處理網(wǎng)絡定義AI引擎圖形編程模型

    本白皮書探討了如何基于 Kahn 處理網(wǎng)絡( KPN )定義 AI 引擎圖形編程模型。KPN 模型有助于實現(xiàn)數(shù)據(jù)流并行化,進而提高系統(tǒng)的整體性能。
    的頭像 發(fā)表于 04-17 11:31 ?591次閱讀
    如何基于Kahn<b class='flag-5'>處理</b>網(wǎng)絡定義AI<b class='flag-5'>引擎</b>圖形編程模型

    Aigtek:功率放大器的性能指標主要有哪些

    功率放大器是一種用于放大電信號的設備,它在各種電子系統(tǒng)中廣泛應用。為了評估和比較不同功率放大器的性能,有以下幾個主要的性能指標。 功率放大器的增益是一個重要的性能指標。增益表示輸入信號經(jīng)過放大器后
    的頭像 發(fā)表于 02-19 11:01 ?610次閱讀
    Aigtek:功率放大器的性能指標<b class='flag-5'>主要有</b>哪些

    七款經(jīng)久不衰的數(shù)據(jù)可視化工具!

    的種類 數(shù)據(jù)可視化工具種類繁多,適用于不同規(guī)模和需求的用戶。主要可以分為以下幾類: 1. 商用數(shù)據(jù)可視化工具 · FineBI:Fine
    發(fā)表于 01-19 15:24

    什么是AI查詢引擎

    AI 查詢引擎可高效處理、存儲和檢索大量數(shù)據(jù),以增強生成式 AI 模型的輸入。
    的頭像 發(fā)表于 01-10 10:00 ?1979次閱讀

    緩存對大數(shù)據(jù)處理的影響分析

    緩存對大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個方面: 一、提高數(shù)據(jù)訪問速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)
    的頭像 發(fā)表于 12-18 09:45 ?1012次閱讀

    大數(shù)據(jù)的3V、4V、7V,到底是什么意思?

    大數(shù)據(jù),顧名思義,就是大量的數(shù)據(jù)。更專業(yè)來說,大數(shù)據(jù),是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)軟件工具能力范圍的
    的頭像 發(fā)表于 12-06 01:01 ?1958次閱讀
    <b class='flag-5'>大數(shù)據(jù)</b>的3V、4V、7V,到底是什么意思?

    上位機系統(tǒng)優(yōu)化技巧 上位機如何處理大數(shù)據(jù)

    1. 數(shù)據(jù)處理大數(shù)據(jù)處理過程中,數(shù)據(jù)處理是至關重要的第一步。這包括
    的頭像 發(fā)表于 12-04 10:27 ?1375次閱讀

    raid 在大數(shù)據(jù)分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數(shù)據(jù)分析中的應用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析中
    的頭像 發(fā)表于 11-12 09:44 ?955次閱讀

    智慧城市與大數(shù)據(jù)的關系

    的建設需要對海量的數(shù)據(jù)資源進行收集、整合、存儲與分析。大數(shù)據(jù)技術的應用,如智能感知、分布式存儲等,使得這些數(shù)據(jù)能夠被高效地處理和利用。 決策支持 : 在智慧城市的建設和運行過程中,
    的頭像 發(fā)表于 10-24 15:27 ?1655次閱讀

    云計算在大數(shù)據(jù)分析中的應用

    云計算在大數(shù)據(jù)分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數(shù)據(jù)分析中應用的介紹: 一、存儲和處理海量數(shù)據(jù) 云計算提供了強大的存儲和計算能力
    的頭像 發(fā)表于 10-24 09:18 ?1413次閱讀