chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

超實(shí)用的任務(wù)優(yōu)化與斷點(diǎn)執(zhí)行方案

Android編程精選 ? 來源:個(gè)推技術(shù)實(shí)踐 ? 作者:淵虹 ? 2021-07-05 16:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,企業(yè)每天需要存儲(chǔ)、計(jì)算、分析數(shù)以萬億的數(shù)據(jù),同時(shí)還要確保分析的數(shù)據(jù)具備及時(shí)性、準(zhǔn)確性和完整性。面對(duì)如此龐大的數(shù)據(jù)體系,ETL工程師(數(shù)據(jù)分析師)如何能高效、準(zhǔn)確地進(jìn)行計(jì)算并供業(yè)務(wù)方使用,就成了一個(gè)難題。

作為一家數(shù)據(jù)智能公司,個(gè)推在大數(shù)據(jù)計(jì)算領(lǐng)域沉淀了豐富的經(jīng)驗(yàn)。本篇文章將對(duì)大數(shù)據(jù)離線計(jì)算過程中出現(xiàn)的任務(wù)緩慢和任務(wù)中斷這兩大痛點(diǎn)問題提出解決思路,期望讀者能夠有所收獲。

一、任務(wù)緩慢

“任務(wù)執(zhí)行緩慢”通常是指任務(wù)的執(zhí)行時(shí)間超過10個(gè)小時(shí),且不能滿足數(shù)據(jù)使用方對(duì)數(shù)據(jù)及時(shí)性的要求。比如業(yè)務(wù)方需早上就能夠查看T-1的數(shù)據(jù),但是因?yàn)槿蝿?wù)延時(shí),業(yè)務(wù)方只能等到下午或者傍晚才能查詢、瀏覽T-1的數(shù)據(jù),從而無法及時(shí)發(fā)現(xiàn)經(jīng)營(yíng)問題、進(jìn)行高效決策。因此,對(duì)緩慢任務(wù)進(jìn)行優(yōu)化成了ETL工程師必不可少的一項(xiàng)工作。

在長(zhǎng)期的大數(shù)據(jù)實(shí)踐中,我們發(fā)現(xiàn),緩慢任務(wù)往往具有一定的共性。只要我們能找到問題所在,并對(duì)癥下藥,就能將任務(wù)執(zhí)行時(shí)間大大縮短。個(gè)推將任務(wù)執(zhí)行緩慢的常見問題歸納為以下四點(diǎn):邏輯冗余,數(shù)據(jù)傾斜、大表復(fù)用,慢執(zhí)行器。接下來會(huì)對(duì)每個(gè)痛點(diǎn)進(jìn)行詳細(xì)闡述。

1、邏輯冗余

“邏輯冗余”往往是因?yàn)镋TL工程師進(jìn)行數(shù)據(jù)處理和計(jì)算時(shí)更關(guān)注處理結(jié)果是否滿足預(yù)期,而未深入考慮是否存在更高效的處理方式,導(dǎo)致原本可通過簡(jiǎn)單邏輯進(jìn)行處理的任務(wù),在實(shí)際中卻使用了復(fù)雜邏輯來執(zhí)行。

減少“邏輯冗余”更多地依賴開發(fā)者經(jīng)驗(yàn)的積累和邏輯思維以及代碼能力的提升。這里分享一些高級(jí)函數(shù),希望能夠幫助開發(fā)者進(jìn)一步提升數(shù)據(jù)處理效率。

Grouping sets

分組統(tǒng)計(jì)函數(shù)。這個(gè)函數(shù)可以實(shí)現(xiàn)在一段SQL中輸出不同維度的統(tǒng)計(jì)數(shù)據(jù),避免出現(xiàn)執(zhí)行多段SQL的情況,具體寫法如下:

358e8860-d55e-11eb-9e57-12bb97331649.png

Lateral view explode()

一行轉(zhuǎn)多行函數(shù)。這個(gè)函數(shù)只能處理array格式數(shù)據(jù),需要配合split()函數(shù)使用,具體寫法如下:

3677624c-d55e-11eb-9e57-12bb97331649.png

還有其他一些函數(shù)、函數(shù)名及功能如下,具體用法需要讀者自行查詢(可登錄hive官網(wǎng)查詢函數(shù)大全):

find_in_set() :查找特定字符串在指定字符串中的位置

get_json_object():從json串中抽取指定數(shù)據(jù)

regexp_extract():抽取符合正則表達(dá)的指定字符

regexp_replace() :替換符合正則替換指定字符

reverse():字符串反轉(zhuǎn)

2、數(shù)據(jù)傾斜

“數(shù)據(jù)傾斜”是指在MR計(jì)算的過程中某些Map job需要處理的數(shù)據(jù)量太大、耗時(shí)太長(zhǎng),從而導(dǎo)致整個(gè)進(jìn)程長(zhǎng)時(shí)間無法結(jié)束,任務(wù)處理進(jìn)度長(zhǎng)時(shí)間卡在99%的現(xiàn)象。

針對(duì)數(shù)據(jù)傾斜的情況,開發(fā)者們可通過代碼層面進(jìn)行修改,具體操作如下:

使用group by方式替換count(distinct id ) 方式進(jìn)行去重統(tǒng)計(jì)

進(jìn)行大小表關(guān)聯(lián)時(shí)使用mapjoin操作或子查詢操作,來替換 join操作

group by出現(xiàn)傾斜需要將分組字段值隨機(jī)切分成隨機(jī)值+原始值

join操作避免出現(xiàn)笛卡爾積,即關(guān)聯(lián)字段不要出現(xiàn)大量重復(fù)

3、大表復(fù)用

“大表復(fù)用”,是指對(duì)上億甚至幾十億的大表數(shù)據(jù)進(jìn)行重復(fù)遍歷之后得到類似的結(jié)果。避免大表復(fù)用就要求ETL工程師進(jìn)行系統(tǒng)化的思考,能夠通過低頻的遍歷將幾十億的大表數(shù)據(jù)瘦身到可重復(fù)使用的中間小表,且同時(shí)支持后續(xù)的計(jì)算。

因此,工程師需要在工程開發(fā)之初就將整體的工程結(jié)構(gòu)考慮進(jìn)去,并且堅(jiān)持“大表僅使用一次”的原則,以提升整個(gè)工程的執(zhí)行效率。

這里介紹一個(gè)實(shí)戰(zhàn)中的例子,供讀者參考:

36838676-d55e-11eb-9e57-12bb97331649.png

geqi_win_tmp表中數(shù)據(jù):5000萬

4、慢執(zhí)行器

“慢執(zhí)行器”是指數(shù)據(jù)體量過于龐大時(shí),Hive的底層計(jì)算邏輯已經(jīng)無法快速遍歷單一分區(qū)中的所有數(shù)據(jù)。

由于在同等資源的情況下,Spark進(jìn)行數(shù)據(jù)遍歷的效率遠(yuǎn)高于MapReduce;且Spark任務(wù)對(duì)資源的搶占程度遠(yuǎn)大于MapReduce任務(wù),可在短時(shí)間內(nèi)占用大量資源高效完成任務(wù),之后快速釋放資源,以提高整個(gè)集群任務(wù)的執(zhí)行效率。

因此,針對(duì)該情況,開發(fā)者可考慮使用pyspark等更為高效的計(jì)算引擎進(jìn)行數(shù)據(jù)的快速遍歷。同時(shí),開發(fā)者也需要有意識(shí)地加強(qiáng)思維訓(xùn)練,養(yǎng)成良好的開發(fā)習(xí)慣,在面對(duì)海量數(shù)據(jù)時(shí)探索更快、更準(zhǔn)、更體系化的計(jì)算和處理方式。

二、任務(wù)中斷

因?yàn)楦鞣N各樣的原因,線上任務(wù)經(jīng)常會(huì)出現(xiàn)被kill掉然后重新執(zhí)行的情況。任務(wù)重新執(zhí)行會(huì)嚴(yán)重浪費(fèi)集群資源,同時(shí)使得數(shù)據(jù)計(jì)算結(jié)果延遲從而影響到業(yè)務(wù)方的數(shù)據(jù)應(yīng)用。如何避免這種現(xiàn)象的發(fā)生呢?個(gè)推是這樣解決該問題的。

個(gè)推的定時(shí)任務(wù)是基于Azkaban調(diào)度系統(tǒng)開發(fā)的,個(gè)推的數(shù)據(jù)分析師主要使用shell、HSQL、MySQL、Pypark四種代碼進(jìn)行數(shù)據(jù)處理,將原始日志清洗、計(jì)算,然后生成公共層、報(bào)表層數(shù)據(jù),最終供業(yè)務(wù)方使用。

因此個(gè)推需要設(shè)定四種代碼執(zhí)行器以支持腳本中對(duì)不同類型代碼的處理。這里主要對(duì)其中的三個(gè)核心內(nèi)容進(jìn)行介紹:代碼塊輸入、執(zhí)行函數(shù)以及循環(huán)器。

1、代碼塊輸入

一般情況下,腳本中的shell、HSQL、MySQL、pypark代碼會(huì)按照順序直接執(zhí)行,不能選擇性執(zhí)行。在實(shí)踐中,我們將代碼塊以字符串的方式賦值給shell中的變量,并在字符串的開頭標(biāo)記是何種類型的代碼,代碼執(zhí)行到具體步驟時(shí)只有賦值操作,不會(huì)解析執(zhí)行,具體如下:

? 執(zhí)行HSQL代碼塊

36d0d5a2-d55e-11eb-9e57-12bb97331649.png

? 執(zhí)行shell代碼塊

36dda980-d55e-11eb-9e57-12bb97331649.png

? 執(zhí)行mysql代碼塊

36eb8d48-d55e-11eb-9e57-12bb97331649.png

? 執(zhí)行pyspark代碼塊

36f7b424-d55e-11eb-9e57-12bb97331649.png

如此,就實(shí)現(xiàn)了將不同的代碼放入對(duì)應(yīng)的step_n中。在后續(xù)的執(zhí)行器中這些代碼能夠直接執(zhí)行,開發(fā)者只需要關(guān)心邏輯處理即可。

2、執(zhí)行函數(shù)

執(zhí)行函數(shù)是對(duì)shell中變量step_n當(dāng)中的字符串進(jìn)行代碼解析并執(zhí)行。不同類型的代碼塊解析方式不同,因此需要定義不同的執(zhí)行函數(shù)。函數(shù)一般單獨(dú)放在整個(gè)工程的配置文件中,通過source的方式調(diào)用,具體函數(shù)定義如下:

3703effa-d55e-11eb-9e57-12bb97331649.png

Hive、MySQL以及shell的執(zhí)行函數(shù)比較簡(jiǎn)單,通過hive-e 或者eval的方式就可以直接執(zhí)行。pyspark需要配置相應(yīng)的隊(duì)列、路徑、參數(shù)等,還需要在工程中增spark.py文件才能執(zhí)行,此處不做贅述。

3、循環(huán)器

循環(huán)器是斷點(diǎn)執(zhí)行功能的核心內(nèi)容,是步驟的控制器。循環(huán)器通過判斷shell變量名確定需要執(zhí)行哪一步,通過判斷變量中字符串內(nèi)容確定使用何種函數(shù)解析代碼并執(zhí)行。

下圖是參考案例,代碼如下:

37159a0c-d55e-11eb-9e57-12bb97331649.png

開發(fā)者需要在腳本的開始定義好整個(gè)代碼的結(jié)束步驟,以確保循環(huán)器正常運(yùn)行;同時(shí),可將開始步驟當(dāng)作腳本參數(shù)傳入,這樣就很好地實(shí)現(xiàn)了任務(wù)的斷點(diǎn)執(zhí)行功能。

總結(jié)

ETL工程中的任務(wù)緩慢和任務(wù)中斷問題是每個(gè)大數(shù)據(jù)工程師都需要面對(duì)和解決的。本文基于個(gè)推大數(shù)據(jù)實(shí)踐,針對(duì)任務(wù)緩慢和任務(wù)中斷問題提出了相應(yīng)解決思路和方案,希望能夠幫助讀者在任務(wù)優(yōu)化以及ETL工程開發(fā)方面擴(kuò)寬思路,提高任務(wù)執(zhí)行效率,同時(shí)降低任務(wù)維護(hù)的人力成本和機(jī)器成本。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4622

    瀏覽量

    88960
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    789

    瀏覽量

    45984
  • ETL
    ETL
    +關(guān)注

    關(guān)注

    0

    文章

    23

    瀏覽量

    9917
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4399

    瀏覽量

    66330
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8995

    瀏覽量

    142415

原文標(biāo)題:ETL工程師必看!超實(shí)用的任務(wù)優(yōu)化與斷點(diǎn)執(zhí)行方案

文章出處:【微信號(hào):AndroidPush,微信公眾號(hào):Android編程精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    工業(yè)網(wǎng)關(guān)的斷點(diǎn)續(xù)傳有哪些作用

    工業(yè)網(wǎng)關(guān)的斷點(diǎn)續(xù)傳功能在工業(yè)場(chǎng)景中具有重要作用,它通過在數(shù)據(jù)傳輸中斷后能夠從中斷點(diǎn)繼續(xù)傳輸,而非重新開始,顯著提升了數(shù)據(jù)傳輸?shù)目煽啃?、效率和靈活性。以下是其核心作用及具體應(yīng)用場(chǎng)景的詳細(xì)分析: 1.
    的頭像 發(fā)表于 10-10 13:58 ?140次閱讀

    UPS電源“不間斷點(diǎn)”全解析:技術(shù)原理、關(guān)鍵指標(biāo)與選購避坑指南

    的UPS解決方案。一、不間斷點(diǎn)的本質(zhì):毫秒級(jí)切換背后的技術(shù)博弈“不間斷點(diǎn)”是UPS的核心價(jià)值標(biāo)簽,指市電異常時(shí),UPS輸出電力無感知切換(零延遲)的能力。其技術(shù)目
    的頭像 發(fā)表于 09-23 08:49 ?404次閱讀
    UPS電源“不間<b class='flag-5'>斷點(diǎn)</b>”全解析:技術(shù)原理、關(guān)鍵指標(biāo)與選購避坑指南

    MES - 制造執(zhí)行系統(tǒng)

    : 制藥業(yè):遵守嚴(yán)格的法規(guī)和質(zhì)量標(biāo)準(zhǔn) 醫(yī)療技術(shù):確保最高精度和質(zhì)量 航空航天業(yè):優(yōu)化復(fù)雜的制造流程 安全行業(yè):嚴(yán)格的文檔和質(zhì)量要求 那么,在這些領(lǐng)域中,MES 又能完成哪些具體任務(wù)呢?制造執(zhí)行
    發(fā)表于 09-04 15:36

    鴻蒙5開發(fā)寶藏案例分享---Web加載時(shí)延優(yōu)化解析

    鴻蒙開發(fā)寶藏:Web加載完成時(shí)延優(yōu)化實(shí)戰(zhàn) 大家好呀!今天在翻鴻蒙開發(fā)者文檔時(shí),發(fā)現(xiàn)了一個(gè)隱藏的 性能優(yōu)化寶藏區(qū) ——官方竟然悄悄提供了多實(shí)戰(zhàn)案例!尤其是****Web加載完成時(shí)延分析這塊,簡(jiǎn)直是
    發(fā)表于 06-12 17:11

    鴻蒙5開發(fā)寶藏案例分享---性能優(yōu)化案例解析

    發(fā)現(xiàn)問題 : // 頁面初始化時(shí)同步執(zhí)行耗時(shí)操作 aboutToAppear() { initData(); // 耗時(shí)2s的同步操作 } 優(yōu)化方案 : // 拆分為異步任務(wù)
    發(fā)表于 06-12 16:36

    HarmonyOS優(yōu)化應(yīng)用文件上傳下載慢問題性能優(yōu)化

    參考該工程。 (三)文件上傳 對(duì)于大文件斷點(diǎn)續(xù)傳上傳,本文采用request(上傳下載)模塊中的request.agent任務(wù)托管接口,可以自動(dòng)實(shí)現(xiàn)暫停繼續(xù)重試等操作,無需手動(dòng)將文件分片和記錄上傳分片
    發(fā)表于 05-27 16:19

    邊緣計(jì)算網(wǎng)關(guān)支持斷點(diǎn)續(xù)傳嗎

    邊緣計(jì)算網(wǎng)關(guān)通常支持斷點(diǎn)續(xù)傳功能 。斷點(diǎn)續(xù)傳功能是邊緣計(jì)算網(wǎng)關(guān)的重要特性之一,它能夠在網(wǎng)絡(luò)中斷或設(shè)備故障時(shí),將采集到的數(shù)據(jù)暫存在本地存儲(chǔ)空間中,待網(wǎng)絡(luò)恢復(fù)后再將數(shù)據(jù)上傳至云平臺(tái),從而保證數(shù)據(jù)的完整性
    的頭像 發(fā)表于 05-27 15:25 ?389次閱讀

    HarmonyOS優(yōu)化應(yīng)用文件上傳下載慢問題性能優(yōu)化

    參考該工程。 (三)文件上傳 對(duì)于大文件斷點(diǎn)續(xù)傳上傳,本文采用request(上傳下載)模塊中的request.agent任務(wù)托管接口,可以自動(dòng)實(shí)現(xiàn)暫停繼續(xù)重試等操作,無需手動(dòng)將文件分片和記錄上傳分片
    發(fā)表于 05-22 10:54

    使用串口dma環(huán)形接收+空閑中斷,觸發(fā)空閑中斷后進(jìn)入任務(wù)中拷貝數(shù)據(jù)發(fā)現(xiàn)拷貝的數(shù)據(jù)全為0,怎么處理?

    求助,我使用串口dma環(huán)形接收+空閑中斷,默認(rèn)應(yīng)該開了緩存,在觸發(fā)空閑中斷后進(jìn)入任務(wù)中拷貝數(shù)據(jù)發(fā)現(xiàn)拷貝的數(shù)據(jù)全為0,但是我掛上調(diào)試之后在拷貝之前只要打上斷點(diǎn)斷一次執(zhí)行之后再執(zhí)行就正常了
    發(fā)表于 03-27 06:17

    【干貨】LLC設(shè)計(jì)指導(dǎo)-PI方案(經(jīng)典版)

    LLC設(shè)計(jì)指導(dǎo)-PI方案(經(jīng)典版) 部分內(nèi)容截取......(如果內(nèi)容有幫助麻煩回帖支持一下哦~) 獲取完整文檔資料可下載附件哦?。。?!
    發(fā)表于 03-13 14:17

    HarmonyOS NEXT 原生應(yīng)用/元服務(wù)-ArkTS代碼調(diào)試使用斷點(diǎn)

    DevEco Studio ArkTS支持行斷點(diǎn)和異常斷點(diǎn),這些斷點(diǎn)可以觸發(fā)不同的操作。 行斷點(diǎn)斷點(diǎn)是最常見的類型,用于在指定的代碼行暫
    發(fā)表于 03-04 17:15

    谷歌AI智能體執(zhí)行復(fù)雜任務(wù)能力大幅提升

    自然語言描述任務(wù),隨后由AI智能體代替用戶執(zhí)行并最終完成任務(wù),極大地提升工作效率和便捷性。 為了推進(jìn)這一技術(shù)的實(shí)現(xiàn),谷歌正在積極開發(fā)兩個(gè)相關(guān)項(xiàng)目。其中備受矚目的是名為“Mariner”的瀏覽器擴(kuò)展程序。通過該程序,AI智能體能夠
    的頭像 發(fā)表于 02-17 14:39 ?840次閱讀

    Linux計(jì)劃任務(wù)cron詳解

    cron是linux下用來周期性的執(zhí)行某種任務(wù)或等待處理某些事件的一個(gè)守護(hù)進(jìn)程,與windows下的計(jì)劃任務(wù)類似,當(dāng)安裝完成操作系統(tǒng)后,默認(rèn)會(huì)安裝此服務(wù) 工具,并且會(huì)自動(dòng)啟動(dòng)crond進(jìn)程,crond進(jìn)程每分鐘會(huì)定期檢查是否有要
    的頭像 發(fā)表于 02-07 15:31 ?1369次閱讀
    Linux計(jì)劃<b class='flag-5'>任務(wù)</b>cron詳解

    廣州盈致WMS系統(tǒng):優(yōu)化倉儲(chǔ)管理的智能化解決方案

    WMS系統(tǒng) 是一種基于信息技術(shù)的智能化倉儲(chǔ)管理解決方案,通過數(shù)字化、自動(dòng)化和智能化的方式,優(yōu)化企業(yè)的倉儲(chǔ)管理流程,提高效率、準(zhǔn)確性和可控性。以下是WMS系統(tǒng)優(yōu)化倉儲(chǔ)管理的智能化解決方案
    的頭像 發(fā)表于 10-21 14:53 ?623次閱讀

    網(wǎng)關(guān)斷點(diǎn)續(xù)傳可以實(shí)現(xiàn)什么功能

    在數(shù)字化時(shí)代,數(shù)據(jù)傳輸?shù)男屎头€(wěn)定性成為了衡量信息系統(tǒng)性能的重要指標(biāo)之一。隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)傳輸技術(shù)提出了更高要求。在這樣的背景下,網(wǎng)關(guān)斷點(diǎn)
    的頭像 發(fā)表于 10-16 13:53 ?1225次閱讀