chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hudi系列:Hudi核心概念之文件布局(Storage Layouts)

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-10-14 16:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Hudi系列:Hudi核心概念(版本1.0)

?Hudi架構(gòu)

?一. 時間軸(TimeLine)

?1.1 時間軸(TimeLine)概念

?1.2 Hudi的時間線由組成

?1.3 時間線上的Instant action操作類型

?1.4 時間線上State狀態(tài)類型

?1.5 時間線官網(wǎng)實(shí)例

?二. 文件布局

?三. 索引

?3.1 簡介

?3.2 對比Hive沒有索引的區(qū)別

?3.3 Hudi索引類型

?3.4 全局索引與非全局索引

?四. 表類型

?4.1 COW:(Copy on Write)寫時復(fù)制表

?4.1.1 概念

?4.1.2 COW工作原理

?4.1.3 COW表對表的管理方式改進(jìn)點(diǎn)

?4.2 MOR:(Merge on Read)讀時復(fù)制表

?4.2.1 概念

?4.2.2 MOR表工作原理

?4.3 總結(jié)了兩種表類型之間的權(quán)衡

?五. 查詢類型

?5.1 Snapshot Queries

?5.2 Incremental Queries

?5.3 Read Optimized Query

下面描述了 Hudi 表存儲文件的一般組織方式。

?Hudi 將數(shù)據(jù)表組織到存儲中基本路徑下的目錄結(jié)構(gòu)中。

?根據(jù)表架構(gòu)中定義的分區(qū)列,表可以選擇性地分為多個分區(qū)。

?在每個分區(qū)中,文件被組織成文件組,由文件 ID (uuid) 唯一標(biāo)識

?每個文件組包含多個文件切片。

?每個切片包含一個基本文件 (parquet/orc/hfile)(由配置 - hoodie.table.base.file.format 定義),由在特定時刻完成的提交寫入,以及一組日志文件 (.log.),由在下一個基本文件請求時刻之前完成的提交寫入。

?Hudi 采用多版本并發(fā)控制 (MVCC),其中壓縮操作合并日志和基本文件以生成新的文件切片,清理操作刪除未使用/較舊的文件切片以回收文件系統(tǒng)上的空間。

?所有元數(shù)據(jù)(包括時間線、元數(shù)據(jù)表)都存儲在基本路徑下的特殊 .hoodie 目錄中。

wKgZPGjuBHWAfLVnAAT8nIrydeA039.png

1.基礎(chǔ)文件

基礎(chǔ)文件存儲完整記錄,而更改記錄則存儲在下面的增量日志文件中。Hudi 目前支持以下基礎(chǔ)文件格式。

用于矢量化讀取、列壓縮和高效列式訪問的列式格式,適用于分析/數(shù)據(jù)科學(xué)
用于快速掃描以讀取整個記錄的行式 avro 文件
用于高效搜索索引記錄的隨機(jī)訪問優(yōu)化 HFile(基于 SSTable 格式)

wKgZO2juBHaAWNLIAAVuJTHTIG8925.png

?

2.日志文件

日志文件存儲基礎(chǔ)文件創(chuàng)建后對基礎(chǔ)文件的增量更改(部分或全部),例如更新、插入和刪除。日志文件包含不同的塊(數(shù)據(jù)、命令、刪除塊等),這些塊對基礎(chǔ)文件的特定更改進(jìn)行編碼。數(shù)據(jù)塊對基礎(chǔ)文件的更新/插入進(jìn)行編碼,并可自定義以支持不同的需求。

面向行的 avro 文件,用于快速/輕量級寫入
隨機(jī)訪問優(yōu)化的 HFile,用于高效搜索索引記錄(基于 SSTable 格式)
列式 parquet 文件,用于矢量化日志合并。

3. 存儲格式版本控制

Hudi 存儲格式的元素(如日志格式、日志塊結(jié)構(gòu)、時間線文件/數(shù)據(jù)模式)都是版本化的,并與給定的表版本相關(guān)聯(lián)。表版本是一個單調(diào)遞增的數(shù)字,每次存儲中產(chǎn)生的某些位發(fā)生變化時,該數(shù)字就會增加。

Backwards compatible reading

Hudi 版本向后兼容,以確保新軟件版本可以讀取最近的舊表版本??绮煌嫔?Hudi 的推薦方法是首先升級所有讀取器(例如使用表的交互式查詢引擎),然后升級任何/所有寫入器和表服務(wù)。
Hudi 存儲引擎還實(shí)現(xiàn)了自動升級功能,可以在后續(xù)寫入操作中優(yōu)雅地執(zhí)行表版本升級,通過自動執(zhí)行任何必要的步驟而無需停機(jī)查詢/讀取。

Backwards compatible writing

但是,這可能并非總是可行的,因?yàn)榛?Hudi 構(gòu)建的數(shù)據(jù)平臺可能具有可以同時充當(dāng)讀取器和寫入器的多階段管道。在這種情況下,Hudi 升級需要通過首先升級最下游的作業(yè)來執(zhí)行,一直跟蹤
到可能由攝取系統(tǒng)寫入的第一個 Hudi 表。為了簡化此過程,Hudi 還允許寫入最近的舊表版本,以便可以首先在同一個舊表版本之上在整個部署中推出新的 Hudi 軟件二進(jìn)制文件。一旦所有作
業(yè)和引擎都有了新的二進(jìn)制文件,那么就可以按任何順序升級到較新的表版本,并且讀者將動態(tài)適應(yīng)

4. 配置

以下寫入器配置控制寫入舊表版本和自動升級行為。

配置名稱 默認(rèn) 描述
hoodie.write.table.version latest (Optional) 此寫入器存儲表的表版本。如果表已存在,則此版本應(yīng)與當(dāng)前表版本匹配。按上述方法升級時,請將此版本設(shè)置為較低的版本。
hoodie.write.auto.upgrade true (Optional) 假如設(shè)置為enabled, 如果當(dāng)前表版本較低,則寫入器會自動將表遷移到指定的寫入表版本。

?

文獻(xiàn): https://hudi.apache.org/docs/overview

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4688

    瀏覽量

    89533
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    IBM Storage Scale System 6000煥新升級

    沒有數(shù)據(jù)的 AI 工廠就像沒有燃料的引擎,根本無法運(yùn)轉(zhuǎn)。IBM Storage Scale System 6000 的全局命名空間和 Active File Management (AFM) 功能
    的頭像 發(fā)表于 11-30 09:12 ?306次閱讀

    從設(shè)計到量產(chǎn):Gerber文件如何讓你的產(chǎn)品‘零缺陷’?

    一站式PCBA加工廠家今天為大家講講高頻Gerber文件對PCBA加工的影響有哪些?Gerber文件對PCBA加工的影響。Gerber文件作為PCBA加工的核心數(shù)據(jù)載體,對生產(chǎn)流程、產(chǎn)
    的頭像 發(fā)表于 11-24 09:47 ?212次閱讀

    RK?平臺?Vendor Storage?開發(fā)指南:基礎(chǔ)知識、流程與實(shí)用技巧

    在瑞芯微(RK)平臺的嵌入式開發(fā)中,vendor_storage?是一個核心模塊,專門用于存儲?SN(序列號)、MAC?地址、DRM?密鑰等廠商專屬數(shù)據(jù)。它不僅提供了跨環(huán)境的數(shù)據(jù)讀寫能力,還具
    的頭像 發(fā)表于 11-22 07:11 ?41次閱讀
    RK?平臺?Vendor <b class='flag-5'>Storage</b>?開發(fā)指南:基礎(chǔ)知識、流程與實(shí)用技巧

    速通音頻處理:掌握TTS播放、文件播放與錄音核心,實(shí)現(xiàn)完整功能

    播放TTS、播放音頻文件及錄音是構(gòu)建完整音頻處理功能的三大核心模塊。若想快速掌握并實(shí)現(xiàn)完整音頻處理能力,無需深挖底層細(xì)節(jié),只需聚焦“資源加載、播放控制、狀態(tài)同步與異常處理”四大關(guān)鍵環(huán)節(jié)——本文將拆解
    的頭像 發(fā)表于 11-21 19:27 ?60次閱讀
    速通音頻處理:掌握TTS播放、<b class='flag-5'>文件</b>播放與錄音<b class='flag-5'>核心</b>,實(shí)現(xiàn)完整功能

    睿擎派文件系統(tǒng)指南:從開發(fā)到發(fā)布全流程實(shí)踐 | 技術(shù)解析

    在嵌入式系統(tǒng)開發(fā)中,文件系統(tǒng)扮演著至關(guān)重要的角色,它負(fù)責(zé)數(shù)據(jù)的持久化存儲、配置文件管理和資源訪問等核心功能。睿擎平臺提供了一套完整的文件系統(tǒng)解決方案,從開發(fā)階段的API調(diào)用到調(diào)試階段的
    的頭像 發(fā)表于 11-05 18:13 ?7661次閱讀
    睿擎派<b class='flag-5'>文件</b>系統(tǒng)指南:從開發(fā)到發(fā)布全流程實(shí)踐 | 技術(shù)解析

    Hudi系列:Hudi核心概念索引(Indexs)

    Hudi系列:Hudi核心概念(版本1.0) ?Hudi架構(gòu) ?一. 時間軸(TimeLine)
    的頭像 發(fā)表于 10-21 09:47 ?178次閱讀
    <b class='flag-5'>Hudi</b><b class='flag-5'>系列</b>:<b class='flag-5'>Hudi</b><b class='flag-5'>核心</b><b class='flag-5'>概念</b><b class='flag-5'>之</b>索引(Indexs)

    一文讀懂大模型常見的10個核心概念

    這些常見的專業(yè)術(shù)語,你又了解多少?這篇文章將幫助你快速掌握AI行業(yè)常見的核心概念。1、大模型型號每個大模型都有其獨(dú)特的設(shè)計和功能,有些大模型可能在語言理解方面表現(xiàn)出
    的頭像 發(fā)表于 09-22 17:02 ?1121次閱讀
    一文讀懂大模型常見的10個<b class='flag-5'>核心</b><b class='flag-5'>概念</b>

    電機(jī)轉(zhuǎn)子永磁體布局怎么選?一文GET!

    轉(zhuǎn)子永磁體布局是永磁電機(jī)轉(zhuǎn)子設(shè)計的核心環(huán)節(jié),直接影響電機(jī)的轉(zhuǎn)矩輸出、功率密度、調(diào)速性能和運(yùn)行穩(wěn)定性。不同永磁體布局的特點(diǎn)及設(shè)計邏輯,是匹配電機(jī)應(yīng)用場景、提升電機(jī)性能的關(guān)鍵。下面從布局設(shè)
    的頭像 發(fā)表于 09-18 08:33 ?599次閱讀

    文件高效傳輸不求人!Ymodem協(xié)議實(shí)戰(zhàn)示例與核心技巧揭秘

    分享優(yōu)化傳輸效率的核心技巧! Ymodem—— 是一種基于串行通信的文件傳輸協(xié)議,由Chuck Forsberg于1980年代初期在Xmodem協(xié)議基礎(chǔ)上改進(jìn)而來。通過引入1024字節(jié)數(shù)據(jù)塊和批量文件傳輸機(jī)制,顯著提升傳輸效率與
    的頭像 發(fā)表于 07-28 17:38 ?702次閱讀
    大<b class='flag-5'>文件</b>高效傳輸不求人!Ymodem協(xié)議實(shí)戰(zhàn)示例與<b class='flag-5'>核心</b>技巧揭秘

    辰專利布局,深挖傳感技術(shù)發(fā)展護(hù)城河

    深圳市瑞辰科技有限公司成立于2007年,成立多年來在MEMS傳感器領(lǐng)域展現(xiàn)出了驚人的創(chuàng)新能力和技術(shù)實(shí)力。瑞辰深知知識產(chǎn)權(quán)的重要性,已經(jīng)申請和獲取了數(shù)十項以MEMS為核心的專利,涵蓋了傳感器芯片
    的頭像 發(fā)表于 07-04 13:57 ?1056次閱讀
    瑞<b class='flag-5'>之</b>辰專利<b class='flag-5'>布局</b>,深挖傳感技術(shù)發(fā)展護(hù)城河

    harmony-utilsFileUtil,文件相關(guān)工具類

    harmony-utilsFileUtil,文件相關(guān)工具類
    的頭像 發(fā)表于 07-03 18:23 ?376次閱讀

    harmony-utilsPreviewUtil,文件預(yù)覽工具類

    harmony-utilsPreviewUtil,文件預(yù)覽工具類 harmony-utils 簡介與說明 [harmony-utils] 一款功能豐富且極易上手的HarmonyOS工具庫,借助眾多
    的頭像 發(fā)表于 07-03 11:40 ?350次閱讀

    harmony-utilsPickerUtil,拍照、文件選擇和保存,工具類

    harmony-utilsPickerUtil,拍照、文件選擇和保存,工具類 harmony-utils 簡介與說明 harmony-utils 一款功能豐富且極易上手的HarmonyOS工具庫
    的頭像 發(fā)表于 06-27 16:03 ?346次閱讀

    Linux系統(tǒng)管理的核心概念

    在前一篇文章中,我們深入探討了Linux中的文件操作命令,如cp、mv、rm,以及文本處理命令grep、wc和管道符。本文將繼續(xù)深入Linux系統(tǒng)管理的核心概念,包括root用戶的角色、用戶和用戶組
    的頭像 發(fā)表于 05-15 17:05 ?488次閱讀

    IBM Storage -?支持AI應(yīng)用場景的數(shù)據(jù)存儲軟硬件解決方案

    為了解決數(shù)據(jù)和工作負(fù)載在各地分散的現(xiàn)狀,需要實(shí)現(xiàn)對存儲在分布式文件和對象存儲系統(tǒng)中的大量非結(jié)構(gòu)化數(shù)據(jù)的高速訪問。IBM Storage利用人工智能(AI)、機(jī)器學(xué)習(xí)(ML)和高級分析手段,對數(shù)據(jù)存儲基礎(chǔ)架構(gòu)進(jìn)行現(xiàn)代化改造。
    的頭像 發(fā)表于 12-30 15:00 ?859次閱讀
    IBM <b class='flag-5'>Storage</b> -?支持AI應(yīng)用場景的數(shù)據(jù)存儲軟硬件解決方案