曰本美女∴一区二区特级A级黄色大片, 国产亚洲精品美女久久久久久2025, 页岩实心砖-高密市宏伟建材有限公司, 午夜小视频在线观看欧美日韩手机在线,国产人妻奶水一区二区,国产玉足,妺妺窝人体色WWW网站孕妇,色综合天天综合网中文伊,成人在线麻豆网观看

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

什么是大數(shù)據(jù)采集和預處理

汽車電子技術 ? 來源:碼農(nóng)與軟件時代 ? 作者: 碼農(nóng)與軟件時代 ? 2023-02-15 14:22 ? 次閱讀

大數(shù)據(jù)導論

理順大數(shù)據(jù)的演進路線

數(shù)據(jù)湖是個啥?

一般情況下,大數(shù)據(jù)處理的流程為:數(shù)據(jù)采集和預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)可視化。

數(shù)據(jù)采集與預處理便是大數(shù)據(jù)流程的第一步。

首先來看, 數(shù)據(jù)是如何產(chǎn)生的 ?

(1)為滿足企業(yè)業(yè)務目標的達成,企業(yè)通常會建設IT系統(tǒng),IT系統(tǒng)承載企業(yè)業(yè)務處理的同時,必然會產(chǎn)生交易記錄、付款記錄等等,這些都會保存在數(shù)據(jù)庫中;

(2)為了更好地預測消費者的需求,購物網(wǎng)站通常也會記錄消費者的網(wǎng)頁瀏覽時長、點贊、收藏、購買喜好等,這些都會記錄在日志文件中;

(3)為了滿足消費者獲取信息的便捷性,各大門戶網(wǎng)站、短視頻網(wǎng)站等都提供了大量的Web網(wǎng)頁供用戶瀏覽,Web網(wǎng)頁中呈現(xiàn)大量的文本、音視頻等;

那么,這些數(shù)據(jù)產(chǎn)生后,都 以什么形式存在 ?

(1)以文件的形式存在,如csv文件、圖像文件、視頻文件、日志文件;

(2)以數(shù)據(jù)庫的形式存在,如關系型數(shù)據(jù)庫MySql\\oracle、非關系型數(shù)據(jù)庫MongoDB;

(3)以Web網(wǎng)頁的形式存在,如新浪、搜狐、知乎等;

(4)以實時數(shù)據(jù)的形式存在,如物聯(lián)網(wǎng)絡中各種傳感器監(jiān)測到的數(shù)據(jù);

這樣,具象化的數(shù)據(jù)采集就變成從數(shù)據(jù)庫、Web網(wǎng)頁、文件、物聯(lián)傳感器等地方獲取。因數(shù)據(jù)存在形式的差異,采用的獲取方法也不盡相同:

(1)文件、Web網(wǎng)頁的抓取,通常采用直接編程的方式獲取,如網(wǎng)頁爬蟲;

(2)實時消息的獲取,則采用相應的協(xié)議,如MQTT、Coap、HTTPS;

(3)對數(shù)據(jù)庫數(shù)據(jù)的獲取,則更多采用SQL的形式提取出來;

獲取的數(shù)據(jù),還存在什么問題 ?

獲取的原生數(shù)據(jù),可能會存在數(shù)據(jù)缺失、數(shù)據(jù)重復、數(shù)據(jù)類型和值都不對等問題,需要對數(shù)據(jù)進行加工處理,這一過程被稱為“數(shù)據(jù)清洗”;

如果數(shù)據(jù)源是多個,并且要裝入到同一數(shù)據(jù)倉庫時,則需要進行“數(shù)據(jù)集成”;

數(shù)據(jù)集成后,往往需要更高粒度的抽象,擦除一些細節(jié)數(shù)據(jù),如原有按交易時間記錄的數(shù)據(jù),現(xiàn)在需要按天進行統(tǒng)計,此時需要進行聚類處理,稱之為“數(shù)據(jù)轉(zhuǎn)換”;

同時,注意到大數(shù)據(jù)可能涉及到隱私問題,也需要去除隱私數(shù)據(jù),這一過程稱為“數(shù)據(jù)脫敏”;

而數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)脫敏這一系列的過程,稱為 數(shù)據(jù)預處理 。

經(jīng)過預處理后的數(shù)據(jù)放在哪?

可以將其放入數(shù)據(jù)倉庫中,如Hive\\HDFS;

也可以將其放入數(shù)據(jù)湖中,不但可以存儲原始數(shù)據(jù),也可以存儲結構化、半結構化、非結構 化的數(shù)據(jù),并且還能支撐數(shù)據(jù)的分析。具體可參考《數(shù)據(jù)湖是個啥?》

數(shù)據(jù)的采集與處理是繁瑣的,也是有跡可循的,聰明的研究人員實現(xiàn)了一系列 工具或框架

(1)網(wǎng)頁爬蟲系統(tǒng):Apache Nutch、Crawler4j、Scrapy;

(2)日志收集工具:Flume、Logstash、Filebeat、Fluentd;

(3)多源異構數(shù)據(jù)采集工具:Sqoop、Datax。

同時,也形成大數(shù)據(jù)采集的方法論,如ETL。

ETL也就是Extract-Transform-Load,對應為提取-轉(zhuǎn)換-加載,充當了數(shù)據(jù)源與數(shù)據(jù)倉庫之間的數(shù)據(jù)流轉(zhuǎn)管道。其基本思想是:從日志、數(shù)據(jù)庫、Web頁面中提取數(shù)據(jù),并數(shù)據(jù)進行轉(zhuǎn)換,按照預先規(guī)劃的Schema,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。

Kettle(水壺)、Sqoop(SQL-to-Hadoop)、DataX是ETL工具的代表。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    一文匯總大數(shù)據(jù)四大方面十五大關鍵技術

    本文針對大數(shù)據(jù)的關鍵技術:大數(shù)據(jù)采集、大數(shù)據(jù)預處理大數(shù)據(jù)存儲、大數(shù)據(jù)分析挖掘四大方面的15大關
    發(fā)表于 11-11 15:46 ?1.1w次閱讀

    如何使實時數(shù)據(jù)采集處理系統(tǒng)保持數(shù)據(jù)的高速傳輸

    當前,越來越多的設計應用領域要求具有高精度的A/D轉(zhuǎn)換和實時處理功能。在實時數(shù)據(jù)采集處理系統(tǒng)設計中,一般需要考慮數(shù)據(jù)采集以及對采集數(shù)據(jù)
    的頭像 發(fā)表于 12-17 09:10 ?6937次閱讀
    如何使實時<b class='flag-5'>數(shù)據(jù)采集</b><b class='flag-5'>處理</b>系統(tǒng)保持<b class='flag-5'>數(shù)據(jù)</b>的高速傳輸

    基于串行通信的虛擬儀器數(shù)據(jù)采集

    A/D轉(zhuǎn)換和預處理,通過RS-232串行口與主機進行信息傳送,插拔方便。主機通過數(shù)據(jù)處理軟件對數(shù)據(jù)進行處理和分析。用戶可以通過主機的軟件界面對單片機(從機)進行控制,使之能按照不同的要
    發(fā)表于 03-09 15:52

    高速數(shù)據(jù)觸發(fā)采集預處理

    各位大俠,本人在做數(shù)據(jù)采集處理時碰到了如下問題:使用NI的采集卡,每次觸發(fā)采集500個數(shù)據(jù)點,外觸發(fā)信號頻率為200KHz,并對100次觸
    發(fā)表于 08-11 23:42

    一種基于FPGA和DSP的高速數(shù)據(jù)采集設計方案介紹

    的信號處理任務越來越繁重,對數(shù)據(jù)采集處理系統(tǒng)的要求也越來越高。特別是在移動通信領域,基站和手機的物理信道處理都是實時信號處理。實時信號
    發(fā)表于 07-05 06:41

    基于SOPC的數(shù)據(jù)采集處理系統(tǒng)設計

    基于礦井地震勘探中對數(shù)據(jù)采集處理的高性能要求,本文采用SOPC (可編程片上系統(tǒng))技術設計了多通道數(shù)據(jù)采集處理系統(tǒng)。系統(tǒng)采用24位模數(shù)轉(zhuǎn)換芯片實現(xiàn)高精度
    發(fā)表于 05-23 10:50 ?1552次閱讀
    基于SOPC的<b class='flag-5'>數(shù)據(jù)采集</b>與<b class='flag-5'>處理</b>系統(tǒng)設計

    大數(shù)據(jù)的核心有哪些?

    大數(shù)據(jù)技術的體系龐大且復雜,基礎的技術包含數(shù)據(jù)采集數(shù)據(jù)預處理、分布式存儲、NoSQL數(shù)據(jù)庫、
    發(fā)表于 05-22 14:22 ?7985次閱讀

    交通軌跡大數(shù)據(jù)預處理方法及其實驗分析

    交通軌跡大數(shù)據(jù)預處理方法及其實驗分析
    發(fā)表于 06-27 15:00 ?6次下載

    大數(shù)據(jù)技術及應用介紹1

    大數(shù)據(jù)技術體系發(fā)展至今,不斷充實完善,與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等其他信息通信技術融合交匯,現(xiàn)已較為成熟。圍繞數(shù)據(jù)資源的全生命周期過程** ,大數(shù)據(jù)基礎技術包含大數(shù)據(jù)采集技術、
    的頭像 發(fā)表于 03-29 14:14 ?1881次閱讀

    大數(shù)據(jù)技術有哪些 大數(shù)據(jù)前景

    大數(shù)據(jù)從字面意思來理解,就是海量數(shù)據(jù)的結合,從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術主要包括數(shù)據(jù)采集預處理
    的頭像 發(fā)表于 04-14 17:45 ?4444次閱讀

    每日一課 | 智慧燈桿之大數(shù)據(jù)預處理技術介紹

    2.大數(shù)據(jù)預處理技術大數(shù)據(jù)預處理技術主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。(1)抽取:因獲取的數(shù)
    的頭像 發(fā)表于 04-07 14:38 ?839次閱讀
    每日一課 | 智慧燈桿之<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>預處理</b>技術介紹

    每日一課 | 智慧燈桿之大數(shù)據(jù)采集技術簡介

    大數(shù)據(jù)是一種從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術。大數(shù)據(jù)領域已經(jīng)涌現(xiàn)出了大量新的技術,它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。
    的頭像 發(fā)表于 03-14 14:52 ?992次閱讀
    每日一課 | 智慧燈桿之<b class='flag-5'>大數(shù)據(jù)采集</b>技術簡介

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    和應用場景. 1. 概述 大數(shù)據(jù)采集系統(tǒng)是實現(xiàn)數(shù)據(jù)收集、處理和存儲的關鍵環(huán)節(jié)。隨著大數(shù)據(jù)技術的快速發(fā)展,大數(shù)據(jù)采集系統(tǒng)也在不斷演進和創(chuàng)新。本
    的頭像 發(fā)表于 07-01 15:44 ?2096次閱讀

    數(shù)控機床數(shù)據(jù)采集如何實現(xiàn)?

    數(shù)控機床數(shù)據(jù)采集過程是一個從物理連接到數(shù)據(jù)處理的完整鏈條,涉及設備連接、數(shù)據(jù)采集預處理和傳輸?shù)膹碗s過程,包含通信協(xié)議匹配、設備配置、數(shù)據(jù)采集
    的頭像 發(fā)表于 11-18 17:52 ?849次閱讀
    數(shù)控機床<b class='flag-5'>數(shù)據(jù)采集</b>如何實現(xiàn)?

    CNC數(shù)據(jù)采集網(wǎng)關具備哪些功能特點

    支持:支持MTConnect、OPCUA、Modbus等多種數(shù)據(jù)格式和通信協(xié)議,能與西門子、三菱、發(fā)那科等不同品牌及型號的CNC系統(tǒng)兼容,實現(xiàn)數(shù)據(jù)的統(tǒng)一采集。 ? 數(shù)據(jù)處理方面
    的頭像 發(fā)表于 03-06 10:12 ?246次閱讀
    CNC<b class='flag-5'>數(shù)據(jù)采集</b>網(wǎng)關具備哪些功能特點