chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

埋點實踐過程中遇到的一些問題

數(shù)據(jù)分析與開發(fā) ? 來源:一個數(shù)據(jù)人的自留地 ? 作者:數(shù)據(jù)人創(chuàng)作者聯(lián)盟 ? 2021-10-22 16:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案,神策、諸葛IO、GIO,但是在實踐的過程中仍然還是會碰都很多問題,這些問題都是躺過的坑。

01

梳理當前業(yè)務,未來業(yè)務發(fā)展問題,目的是給埋點預留空間

① 業(yè)務兼容的問題

前期規(guī)范執(zhí)行之后,后續(xù)隨著業(yè)務的拓展,已有數(shù)據(jù)字段滿足不了業(yè)務的分析需求;

② 產(chǎn)品兼容的問題

埋點從應用端來區(qū)分,web/ios/android,小程序,公眾號,然后還要區(qū)分一下是否是原生,還是H5,新老版本之間肯定會帶來一些模塊化的差異;

③ 前后端埋點不一致的問題

前端請求服務端的數(shù)據(jù)大多是存在binlog里面的,數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性,數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量;后端服務信息存儲的數(shù)據(jù)是存在mysql,表字段結(jié)構(gòu)化,分多表存儲,需要靠主鍵進行關(guān)聯(lián),有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因,造成數(shù)據(jù)差異化;

③ 自埋點和第三方應用統(tǒng)計口徑的問題

自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志,但是第三方是缺少用戶屬性信息的判斷,一般會以設備號uuid/imse,或者IP地址段、mac地址段作為區(qū)分標志,從而造成統(tǒng)計數(shù)據(jù)上的差異化,對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景,可兼容性不是很友好;

④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題

絕大多數(shù)情況下我們說埋點,一般都是說前端埋點,前端開發(fā)工程師在做埋點的時候又多是人為埋點,在開發(fā)過程中,會造成部分信息冗余、重復、記錄不完整的情況存在;

⑤ 多產(chǎn)品之間的模塊差異化問題

埋點不能夠只有一套標準規(guī)范,多生態(tài)應用下,業(yè)務繁瑣,在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異,不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別,這時候可能需要根據(jù)場景劃分不同的埋點標準;

⑥ 自定義埋點信息的鍵對設計問題

往往會在埋點里面增加一個json的字段(bdata),在埋點的時候?qū)懭胱远x的業(yè)務信息進行場景識別,譬如活動id、業(yè)務信息、用戶快照的基本信息等,不同開發(fā)寫入的自定義字段格式可能會有差異;

02

埋點應用場景,對應初期埋點預留

基于業(yè)務分析框架,梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集,核心指標必須要有埋點;

基于算法模型框架,梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息;

基于業(yè)務訴求,梳理非常規(guī),當前沒需求未來有應用場景的字段信息;

舉個例子,譬如供需匹配、資源調(diào)度、智能選址,所對應的幾個信息主體分別是:用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務信息;

03

標簽預留場景,反推埋點預留

基于用戶畫像的標簽建設,需要考慮畫像的多層屬性,社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等,通過畫像篩選人群的時候,可能需要通過數(shù)據(jù)模型建立用戶分層的過程,所需要用到的輔助數(shù)據(jù);

基于智能運營的標簽建設,運營策略、活動、方案的數(shù)據(jù)需求收集,哪些標簽需要用到埋點中的信息;

基于營銷系統(tǒng)的標簽建設,涉及到渠道分配、廣告投放、點擊預測等,可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設,或者基于某一個產(chǎn)品使用鏈路,埋點數(shù)據(jù)要完備;

標簽管理,沒有一套產(chǎn)品來支撐,多標簽你怎么對外提供;海量的標簽,又要怎么做標簽管理;

04

后面做推薦抓到核心指標,前期做埋點預設

推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標,其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的;

推薦算法的設計方案,基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型,不同的方案下,對數(shù)據(jù)底層的要求可能也會有一定的差異;

05

數(shù)倉庫表的開發(fā)成本

埋點數(shù)據(jù)落到數(shù)倉后,需要預先建立哪些表,如何做埋點數(shù)據(jù)的分層;

畢竟埋點的數(shù)據(jù)體量是非常大的,TB級數(shù)據(jù)的存儲本身就是一個比較大的成本,再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面,就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好,做好ods層到dw層、ads層的劃分,維度和事實之間的建設;

06

數(shù)倉性能,時間問題(hive)

因為埋點數(shù)據(jù)的體量問題,落表的時候,一定會存在大量的冗余字段,如果集群資源比較緊張,對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題;

在數(shù)據(jù)團隊的架構(gòu)中,有對外提供數(shù)據(jù)應用服務,對于數(shù)據(jù)的實時計算就有一定的要求,什么場景下應該是T+1,什么場景下應該是偽實時,避免數(shù)據(jù)調(diào)度任務影響前臺應用產(chǎn)出;

07

產(chǎn)品全埋點還是分塊埋點?分塊兒埋點的話有什么響應機制?應用措施?

全埋點和分模塊埋點,直接的影響是數(shù)據(jù)存儲成本的問題,作為一個數(shù)據(jù)分析,這也是不得不考慮的問題,如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好,每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加,成本浪費會更嚴重。

所以說,企業(yè)數(shù)據(jù)的分析,不僅局限在數(shù)據(jù)本身,而應該是全面的剖析,多場景的結(jié)合。凡事都不簡單,如果簡單為什么那么多人都沒有做成功,只不過是層次還到而已。

- EOF -

推薦閱讀 點擊標題可跳轉(zhuǎn)

1、萬字長文說透分布式鎖

2、pandas 與 GUI 界面的超強結(jié)合,爆贊!

3、面試,MySQL 搞透這 20 道就穩(wěn)了

看完本文有收獲?請轉(zhuǎn)發(fā)分享給更多人

推薦關(guān)注「數(shù)據(jù)分析與開發(fā)」,提升數(shù)據(jù)技能

點贊和在看就是最大的支持

原文標題:干貨分享:埋點實踐過程中碰到的坑點集合

文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案,神策、諸葛IO、GIO,但是在實踐的過程中仍然還是會碰都很多問題,這些問題都是躺過的坑。

01

梳理當前業(yè)務,未來業(yè)務發(fā)展問題,目的是給埋點預留空間

① 業(yè)務兼容的問題

前期規(guī)范執(zhí)行之后,后續(xù)隨著業(yè)務的拓展,已有數(shù)據(jù)字段滿足不了業(yè)務的分析需求;

② 產(chǎn)品兼容的問題

埋點從應用端來區(qū)分,web/ios/android,小程序,公眾號,然后還要區(qū)分一下是否是原生,還是H5,新老版本之間肯定會帶來一些模塊化的差異;

③ 前后端埋點不一致的問題

前端請求服務端的數(shù)據(jù)大多是存在binlog里面的,數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性,數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量;后端服務信息存儲的數(shù)據(jù)是存在mysql,表字段結(jié)構(gòu)化,分多表存儲,需要靠主鍵進行關(guān)聯(lián),有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因,造成數(shù)據(jù)差異化;

③ 自埋點和第三方應用統(tǒng)計口徑的問題

自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志,但是第三方是缺少用戶屬性信息的判斷,一般會以設備號uuid/imse,或者IP地址段、mac地址段作為區(qū)分標志,從而造成統(tǒng)計數(shù)據(jù)上的差異化,對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景,可兼容性不是很友好;

④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題

絕大多數(shù)情況下我們說埋點,一般都是說前端埋點,前端開發(fā)工程師在做埋點的時候又多是人為埋點,在開發(fā)過程中,會造成部分信息冗余、重復、記錄不完整的情況存在;

⑤ 多產(chǎn)品之間的模塊差異化問題

埋點不能夠只有一套標準規(guī)范,多生態(tài)應用下,業(yè)務繁瑣,在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異,不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別,這時候可能需要根據(jù)場景劃分不同的埋點標準;

⑥ 自定義埋點信息的鍵對設計問題

往往會在埋點里面增加一個json的字段(bdata),在埋點的時候?qū)懭胱远x的業(yè)務信息進行場景識別,譬如活動id、業(yè)務信息、用戶快照的基本信息等,不同開發(fā)寫入的自定義字段格式可能會有差異;

02

埋點應用場景,對應初期埋點預留

基于業(yè)務分析框架,梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集,核心指標必須要有埋點;

基于算法模型框架,梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息;

基于業(yè)務訴求,梳理非常規(guī),當前沒需求未來有應用場景的字段信息;

舉個例子,譬如供需匹配、資源調(diào)度、智能選址,所對應的幾個信息主體分別是:用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務信息;

03

標簽預留場景,反推埋點預留

基于用戶畫像的標簽建設,需要考慮畫像的多層屬性,社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等,通過畫像篩選人群的時候,可能需要通過數(shù)據(jù)模型建立用戶分層的過程,所需要用到的輔助數(shù)據(jù);

基于智能運營的標簽建設,運營策略、活動、方案的數(shù)據(jù)需求收集,哪些標簽需要用到埋點中的信息;

基于營銷系統(tǒng)的標簽建設,涉及到渠道分配、廣告投放、點擊預測等,可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設,或者基于某一個產(chǎn)品使用鏈路,埋點數(shù)據(jù)要完備;

標簽管理,沒有一套產(chǎn)品來支撐,多標簽你怎么對外提供;海量的標簽,又要怎么做標簽管理;

04

后面做推薦抓到核心指標,前期做埋點預設

推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標,其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的;

推薦算法的設計方案,基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型,不同的方案下,對數(shù)據(jù)底層的要求可能也會有一定的差異;

05

數(shù)倉庫表的開發(fā)成本

埋點數(shù)據(jù)落到數(shù)倉后,需要預先建立哪些表,如何做埋點數(shù)據(jù)的分層;

畢竟埋點的數(shù)據(jù)體量是非常大的,TB級數(shù)據(jù)的存儲本身就是一個比較大的成本,再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面,就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好,做好ods層到dw層、ads層的劃分,維度和事實之間的建設;

06

數(shù)倉性能,時間問題(hive)

因為埋點數(shù)據(jù)的體量問題,落表的時候,一定會存在大量的冗余字段,如果集群資源比較緊張,對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題;

在數(shù)據(jù)團隊的架構(gòu)中,有對外提供數(shù)據(jù)應用服務,對于數(shù)據(jù)的實時計算就有一定的要求,什么場景下應該是T+1,什么場景下應該是偽實時,避免數(shù)據(jù)調(diào)度任務影響前臺應用產(chǎn)出;

07

產(chǎn)品全埋點還是分塊埋點?分塊兒埋點的話有什么響應機制?應用措施?

全埋點和分模塊埋點,直接的影響是數(shù)據(jù)存儲成本的問題,作為一個數(shù)據(jù)分析,這也是不得不考慮的問題,如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好,每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加,成本浪費會更嚴重。

所以說,企業(yè)數(shù)據(jù)的分析,不僅局限在數(shù)據(jù)本身,而應該是全面的剖析,多場景的結(jié)合。凡事都不簡單,如果簡單為什么那么多人都沒有做成功,只不過是層次還到而已。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7292

    瀏覽量

    93381

原文標題:干貨分享:埋點實踐過程中碰到的坑點集合

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    極海MCU的ISP和IAP中程序跳轉(zhuǎn)運行問題分析

    最近在調(diào)試程序的程序升級方式,遇到了不少的問題,本篇筆記記錄遇到一些問題及在這個過程中一些問題
    的頭像 發(fā)表于 10-10 14:31 ?2427次閱讀
    極海MCU的ISP和IAP中程序跳轉(zhuǎn)運行問題分析

    靜力水準儀在測量過程中遇到誤差如何處理?

    靜力水準儀在測量過程中遇到誤差如何處理?靜力水準儀在工程沉降監(jiān)測中出現(xiàn)數(shù)據(jù)偏差時,需采取系統(tǒng)性處理措施。根據(jù)實際工況,誤差主要源于環(huán)境干擾、設備狀態(tài)、安裝缺陷及操作不當四類因素,需針對性解決。靜力
    的頭像 發(fā)表于 08-14 13:01 ?448次閱讀
    靜力水準儀在測量<b class='flag-5'>過程中</b><b class='flag-5'>遇到</b>誤差如何處理?

    在低功耗藍牙產(chǎn)品開發(fā)的過程中,會涉及到一些參數(shù)的選擇和設定,這些參數(shù)是什么意思,該如何設定呢?(藍牙廣播)

    在低功耗藍牙產(chǎn)品開發(fā)的過程中,會涉及到一些參數(shù)的選擇和設定,這些參數(shù)是什么意思,該如何設定呢?在此介紹一些: 藍牙的廣播類型(Advertising Type) 可連接廣播(ADV_IND):允許
    發(fā)表于 06-25 18:25

    在FX2LP USB上配置GPIF中斷時遇到一些問題,求解決

    你好,我在 FX2LP USB 上配置 GPIF 中斷時遇到一些問題。 我啟用了 INT4 中斷并從 GPIF 中選擇了源 INT4,然后啟用了 GPIF 完成中斷,但我看不到中斷 4 工作。 我該如何做呢?
    發(fā)表于 05-06 08:00

    調(diào)試ADPD188芯片的過程中用I2C調(diào)試過程出現(xiàn)一些問題,求解決

    我在調(diào)試ADPD188芯片的過程中用I2C調(diào)試過程出現(xiàn)一些問題,參考官方提供的代碼調(diào)試中發(fā)現(xiàn),初始化過不去,抓取波形發(fā)現(xiàn)芯片型號對不上了,從芯片外觀看ADPD188bi這個芯片,請問是是芯片回的問題還是軟件上需要調(diào)整還是什么原因
    發(fā)表于 04-16 06:57

    使用RTD5.0.0的s32k312,C40_Ip擦除pflash存在一些問題求解決

    我正在使用 RTD5.0.0 的 s32k312,C40_Ip擦除 pflash 存在一些問題: Erase block0(0x420000-0x500000) failed
    發(fā)表于 04-11 06:53

    量水堰計在使用過程中遇到哪些常見的故障?

    量水堰計作為種常用的水位測量儀器,在水文監(jiān)測、水資源管理等領域發(fā)揮著重要作用。然而,在實際使用過程中,由于各種因素的影響,量水堰計可能會出現(xiàn)一些故障,影響其正常運行和測量精度。南京峟思將給大家介紹
    的頭像 發(fā)表于 02-20 14:20 ?535次閱讀
    量水堰計在使用<b class='flag-5'>過程中</b>會<b class='flag-5'>遇到</b>哪些常見的故障?

    使用DAC37J84時,遇到一些問題求解答

    您好,我在使用DAC37J84時,遇到一些問題,需要您的支持;具體情況如下: 我使用1片DAC37J84與Xilinx的XC7V485T FPGA進行通信,具體設置參數(shù)如下: DAC37J84
    發(fā)表于 01-06 06:36

    調(diào)試ADS1292R時遇到一些問題,求解答

    調(diào)試ADS1292R時遇到一些問題 原理圖及元器件參數(shù)是按照TI ADS1292R 參考電路搭建,如下。 分別引出三個電極LA,RA,RLD通過導聯(lián)線、紐扣電極貼在人體做測試。 起初所有數(shù)據(jù)均
    發(fā)表于 01-01 07:55

    用TMS320C5534調(diào)試ADS131A02遇到一些問題求解

    各位大牛,我在用TMS320C5534調(diào)試ADS131A02遇到一些問題如下: 1.異步中斷模式,F(xiàn)igure 109初始化流程圖中說等待 READY WORD(0xFF02),請問是器件復位后
    發(fā)表于 12-26 06:16

    ldc1614使用過程中會有尖峰的存在,怎么解決?

    我購買了該公司的ldc1614,在使用過程中發(fā)現(xiàn)了一些問題,如果能為我解答,我將非常感謝。 問題1:為什么我的ldc1614上面LED是紅色但是顯示已連接。有正常數(shù)據(jù)讀取,這個現(xiàn)象大概發(fā)生在我取下
    發(fā)表于 12-16 06:53

    PLC數(shù)據(jù)采集在實施過程中存在的問題及解決方案

    PLC數(shù)據(jù)采集在工業(yè)自動化領域的實施過程中,遇到系列顯著的挑戰(zhàn)與痛,這些痛直接影響了數(shù)據(jù)采集的效率、準確性和成本效益。
    的頭像 發(fā)表于 11-30 14:38 ?1109次閱讀

    用ADS8698做項目時遇到一些問題求解答

    您好,最近在用ADS8698做項目時遇到一些問題,想請教下: 問題描述:我們使用該芯片的5個輸入通道采集模擬量,兩路采集0-5V電壓信號,路采集4-20mA電流信號,兩路采集溫度信號
    發(fā)表于 11-19 06:38

    電能質(zhì)量治理產(chǎn)品如何解決分布式光伏電站運行過程中一些問題

    安科瑞徐赟杰 18706165067 1. 概述 隨著全球?qū)稍偕茉葱枨蟮脑黾樱植际焦夥娬镜慕ㄔO和發(fā)展迅速。然而,分布式光伏電站的運行過程中面臨著系列問題,比如導致企業(yè)關(guān)口計量功率因數(shù)
    的頭像 發(fā)表于 11-13 10:19 ?606次閱讀
    電能質(zhì)量治理產(chǎn)品如何解決分布式光伏電站運行<b class='flag-5'>過程中</b>的<b class='flag-5'>一些問題</b>

    鎧裝光纜可以直接地嗎

    ,鎧裝光纜的直接地也需要考慮一些問題: 地下環(huán)境:鎧裝光纜敷設的地下環(huán)境需要優(yōu)良,應避免有大量雜物、根系等,以免擠壓和毀損光纜。 施工質(zhì)量和工藝:鎧裝光纜的直接地需要采用專業(yè)工具和施工工藝,確保安裝質(zhì)量,
    的頭像 發(fā)表于 11-06 10:09 ?1815次閱讀