chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

25個大數據術語概念解析

電子工程師 ? 來源:網絡整理 ? 2018-01-25 18:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果你初來乍到,大數據看起來很嚇人!根據你掌握的基本理論,讓我們專注于一些關鍵術語以此給你的約會對象、老板、家人或者任何一個人帶來深刻的印象。

讓我們開始吧:

1.算法?!八惴ā比绾闻c大數據相關?即使算法是一個通用術語,但大數據分析使其在當代更受青睞和流行。

2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始數據中來吸取經驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實質是利用大量數據來進行推斷和講故事。大數據分析有3種不同到的類型,接下來便繼續(xù)本話題進行依次討論。

3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節(jié)。

4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析,并且劃分具有一定的連續(xù)性,則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節(jié)是,這并不是“預測未來”,而是未來可能會發(fā)生的“概率”。在大數據預測分析中,數據科學家可能會使用類似機器學習、高級的統(tǒng)計過程(后文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

5.規(guī)范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規(guī)范分析建立在預測分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂支出),并分析所得結果來“規(guī)定”最佳類別以減少總體支出。你可以嘗試將其發(fā)散到大數據,并設想高管們如何通過查看各種行動的影響來做出數據驅動的決策。

6.批處理。雖然批量數據處理在大型機時代就早已出現,但大數據交給它更多大數據集處理,因此賦予了批處理更多的意義。對于一段時間內收集到的一組事務,批量數據處理為處理大量數據提供了一種有效的方法。后文將介紹的Hadoop便是專注于批量數據處理。超越批處理的世界:流計算 使用Spark SQL構建批處理程序。

7. Cassandra是由Apache Software Foundation管理的一款流行的開源數據庫管理系統(tǒng)。很多大數據技術都歸功于Apache,其中Cassandra的設計初衷便是處理跨分布式服務器的大量數據。

8. 云計算。顯而易見云計算已經變得無所不在,所以本文可能無須贅述,但為了文章的完整性還是佐以介紹。云計算的本質是在遠程服務器上運行的軟件和(/或)數據托管,并允許從互聯(lián)網上的任何地方進行訪問。

9. 集群計算。它是一種利用多臺服務器的匯集資源的“集群”來進行計算的奇特方式。在了解了更多技術之后,我們可能還會討論節(jié)點、集群管理層、負載平衡和并行處理等。

10. 黑暗數據。依我看來,這個詞適用于那些嚇得六神無主的高級管理層們。從根本上來說,黑暗數據是指那些被企業(yè)收集和處理但又不用于任何有意義用途的數據,因此描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網絡信息流、呼叫中心日志、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業(yè)數據都可能是“黑暗數據”,但無人真正知曉。

11. 數據湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節(jié)的玩笑。但它真的是個術語!數據湖是一個原始格式的企業(yè)級數據的大型存儲庫。雖然此處討論的是數據湖,但有必要再一起討論下數據倉庫,因為數據湖和數據倉庫在概念上是極其相似的,都是企業(yè)級數據的存儲庫,但在清理和與其他數據源集成之后的結構化格式上有所區(qū)別。數據倉庫常用于常規(guī)數據(但不完全)。據說數據湖能夠讓用戶輕松訪問企業(yè)級數據,用戶真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。擁抱開源技術的前提——認識數據湖 你知道數據湖泊(DATA LAKE)嗎?

12. 數據挖掘。數據挖掘是指利用復雜的模式識別技術從大量數據中找到有意義的模式、提取見解。這與我們前文討論的使用個人數據做分析的術語“分析”密切相關。為了提取出有意義的模式,數據挖掘者使用統(tǒng)計學(是呀,好老的數學)、機器學習算法和人工智能。

13.數據科學家。我們談論的是一個如此熱門的職業(yè)!數據科學家們可以通過提取原始數據(難道是從前文所說的數據湖中提取的?),處理數據,然后提出新見解。數據科學家所需具備的一些技能與超人無異:分析、統(tǒng)計、計算機科學、創(chuàng)造力、故事講述和理解業(yè)務環(huán)境。難怪他們能獲得如此高的薪水報酬。

14.分布式文件系統(tǒng)。由于大數據太大而無法在單個系統(tǒng)上進行存儲,分布式文件系統(tǒng)提供一種數據存儲系統(tǒng),方便跨多個存儲設備進行大量數據的存放,并有助于降低大量數據存儲的成本和復雜度。

15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和加載的過程。 它具體是指“提取”原始數據,通過數據清洗/修飾的方式進行“轉化”以獲得 “適合使用”的數據,進而“加載”到合適的存儲庫中供系統(tǒng)使用的整個過程。盡管ETL這一概念源于數據倉庫,但現在也適用于其它情景下的過程,例如在大數據系統(tǒng)中從外部數據源獲取/吸收數據。我們需要什么樣的ETL?

工程師要不要寫ETL?——教你構建高效的算法/數據科學部門 ETL的經驗總結

16. Hadoop。人們一想起大數據就能立即想到Hadoop。 Hadoop(擁有可愛的大象LOGO)是一個開源軟件框架,主要組成部分是Hadoop分布式文件系統(tǒng)(HDFS),Hadoop部署了分布式硬件以支持大型數據集的存儲、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談談YARN(Yet Another Resource Schedule,另一個資源調度器),正如其名,它也是一個資源調度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會還想出了Pig,Hive和Spark(沒錯,它們都是各種軟件的名稱)。這些名字難道不讓你感到印象深刻嗎?

17. 內存計算。一般來說,任何可以在不訪問I / O的情況下進行的計算預計會比需要訪問I/O的速度更快。內存內計算是一種能夠將工作數據集完全轉移到集群的集體內存中、并避免了將中間計算寫入磁盤的技術。Apache Spark便是一種內存內計算系統(tǒng),它與I / O相比,在像Hadoop MapReduce這樣的系統(tǒng)上綁定具有巨大的優(yōu)勢。

18. IOT。最新的流行語是物聯(lián)網(Internet of things,簡稱IOT)。IOT是通過互聯(lián)網將嵌入式對象(傳感器、可穿戴設備、汽車、冰箱等)中的計算設備互連在一起,并且能夠發(fā)送/接收數據。IOT產生了大量的數據,這為呈現大數據分析提供了更多的機會。

19.機器學習。機器學習是為了設計一種基于提供的數據能夠進行不斷學習、調整、改進的系統(tǒng)的設計方法。機器使用預測和統(tǒng)計的算法進行學習并專注于實現“正確的”行為模式和簡見解,隨著越來越多的數據注入系統(tǒng)它還在不斷進行優(yōu)化改進。典型的應用有欺詐檢測、在線個性化推薦等。

20.MapReduce。MapReduce的概念可能會有點混亂,但讓我試一試。MapReduce是一個編程模型,最好的理解方法是將Map和Reduce是看作兩個獨立的單元。在這種情況下,編程模型首先將大數據的數據集分成幾個部分(技術術語上是稱作“元組”,但本文并不想太過技術性),因此可以部署到不同位置的不同計算機上(即前文所述的集群計算),這些本質上是Map的組成部分。接下來該模型收集到所有結果并將“減少”到同一份報告中。 MapReduce的數據處理模型與hadoop的分布式文件系統(tǒng)相輔相成。

21.NoSQL。乍一聽這像是針對傳統(tǒng)關系型數據庫管理系統(tǒng)(RDBMS)的面向對象的SQL(Structured Query Language, 結構化查詢語言)的抗議,其實NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作“圖表”(例如關系型數據庫的表)等數據的數據庫管理系統(tǒng)。NoSQL數據庫一般非常適用于大型數據系統(tǒng),這得益于它們的靈活性以及大型非結構化數據庫所必備的分布式結構。

22.R語言。有人能想到比這個編程語言更糟糕的名字嗎?是的,’R’是一門在統(tǒng)計計算中表現非常優(yōu)異的編程語言。如果你連’R’都不知道,那你就不是數據科學家。(如果你不知道’R’,就請不要把那些糟糕的代碼發(fā)給我了)。這就是在數據科學中最受歡迎的語言之一的R語言。

23. Spark(Apache Spark)。Apache Spark是一種快速的內存內數據處理引擎,它可以高效執(zhí)行需要快速迭代訪問數據集的流、機器學習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

24.流處理。流處理旨在通過“連續(xù)”查詢對實時和流數據進行操作。結合流分析(即在流內同時進行連續(xù)計算數學或統(tǒng)計分析的能力),流處理解決方案可以被用來實時處理非常大的數據。

25. 結構化和非結構化數據。這是大數據5V中的“Variety”多樣性。結構化數據是能夠放入關系型數據庫的最基本的數據類型,通過表的組織方式可以聯(lián)系到任何其他數據。非結構化數據則是所有不能直接存入關系數據庫中的數據,例如電子郵件、社交媒體上的帖子、人類錄音等。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    9077

    瀏覽量

    143891
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    ST25R95近場通信收發(fā)器:特性、操作與應用全解析

    ST25R95近場通信收發(fā)器:特性、操作與應用全解析 在近場通信(NFC)技術飛速發(fā)展的今天,一款高性能的NFC收發(fā)器對于實現設備間高效、穩(wěn)定的通信至關重要。ST25R95作為意法半導體
    的頭像 發(fā)表于 02-28 14:10 ?137次閱讀

    深入解析Microchip 25AA128/25LC128 128K SPI總線串行EEPROM

    深入解析Microchip 25AA128/25LC128 128K SPI總線串行EEPROM 一、引言 在電子設計領域,串行EEPROM是一種常用的非易失性存儲器,廣泛應用于各種需要數據
    的頭像 發(fā)表于 02-09 16:50 ?438次閱讀

    深入解析AT25SF2561C/AT25QF2561C:高性能SPI串行閃存的技術探秘

    深入解析AT25SF2561C/AT25QF2561C:高性能SPI串行閃存的技術探秘 在電子設備的世界里,閃存作為數據存儲的關鍵組件,其性能和功能直接影響著設備的運行效率和穩(wěn)定性。今
    的頭像 發(fā)表于 12-26 17:45 ?774次閱讀

    高速信號路由利器:DS25CP104A/DS25CP114深度解析

    高速信號路由利器:DS25CP104A/DS25CP114深度解析 在高速信號處理的領域中,如何實現高效、穩(wěn)定的信號路由和切換是工程師們面臨的重要挑戰(zhàn)。今天,我們就來深入探討德州儀器(TI)推出
    的頭像 發(fā)表于 12-26 15:55 ?1037次閱讀

    大數據平臺運營的基礎是什么

    在數聚股份看來,越來越多的企業(yè)開始搭建自己的大數據平臺體系,并傾注大量資源用于平臺的迭代和運營。那么大數據平臺作為越來越被關注的企業(yè)新興價值點,它應該以何種方式看待,并且以什么樣的方式去建設和運營
    的頭像 發(fā)表于 12-23 16:07 ?280次閱讀

    25A高溫雙向晶閘管:應用與設計全解析

    25A高溫雙向晶閘管:應用與設計全解析 在電子工程師的日常設計工作中,晶閘管作為重要的功率半導體器件,在交流開關和相位控制等領域發(fā)揮著關鍵作用。今天,我們就來詳細探討一款25A高溫雙向晶閘管
    的頭像 發(fā)表于 12-16 14:25 ?490次閱讀

    電子工程師必看:QVxx25xHx系列25A高溫雙向晶閘管TRIAC深度解析

    電子工程師必看:QVxx25xHx系列25A高溫雙向晶閘管TRIAC深度解析 在電子工程師的日常工作中,選擇合適的半導體器件至關重要,它直接關系到產品的性能、穩(wěn)定性和壽命。今天,我們就來深入探討一下
    的頭像 發(fā)表于 12-16 10:00 ?474次閱讀

    組態(tài)大數據平臺是什么?有什么功能?

    組態(tài)大數據平臺是融合 組態(tài)技術 與 大數據處理能力 的綜合性平臺,通過圖形化、可配置的方式實現數據采集、存儲、分析、可視化及遠程控制,適用于工業(yè)自動化、能源管理、樓宇監(jiān)控等領域。其核心價值在于降低
    的頭像 發(fā)表于 10-30 11:29 ?264次閱讀
    組態(tài)<b class='flag-5'>大數據</b>平臺是什么?有什么功能?

    一文讀懂大模型常見的10核心概念

    這些常見的專業(yè)術語,你又了解多少?這篇文章將幫助你快速掌握AI行業(yè)常見的核心概念。1、大模型型號每個大模型都有其獨特的設計和功能,有些大模型可能在語言理解方面表現出
    的頭像 發(fā)表于 09-22 17:02 ?1308次閱讀
    一文讀懂大模型常見的10<b class='flag-5'>個</b>核心<b class='flag-5'>概念</b>

    通俗易懂的晶振專業(yè)術語

    想要了解一行業(yè),就要對其產品的術語要有所了解,各行各業(yè)都要自己專業(yè)術語,石英晶振也不例外;了解晶振術語對晶振采購和選型有很大幫助;下面小揚給大家簡單的解釋晶振
    的頭像 發(fā)表于 09-18 11:31 ?2015次閱讀
    通俗易懂的晶振專業(yè)<b class='flag-5'>術語</b>

    電磁兼容與電磁干擾在電磁兼容性大數據分析中的智能管理系統(tǒng)

    北京華盛恒輝電磁兼容 (EMC) 大數據智能管理系統(tǒng)精簡解析 在 EMC 大數據分析中,電磁兼容與電磁干擾(EMI)智能管理系統(tǒng)是保障設備穩(wěn)定、提升系統(tǒng)可靠性的核心工具。系統(tǒng)整合 EMC/EMI
    的頭像 發(fā)表于 09-17 14:58 ?666次閱讀

    解析基帶和射頻的工作原理

    在現代通信技術中,基帶和射頻是兩核心概念,它們共同構成了無線通信的基礎。盡管這兩術語頻繁出現在技術文檔和行業(yè)討論中,但其具體功能和技術細節(jié)卻常常被誤解。本文將以移動通信為例,深入
    的頭像 發(fā)表于 08-06 09:28 ?2762次閱讀
    <b class='flag-5'>解析</b>基帶和射頻的工作原理

    W25X16W25X32\W25X64 數據手冊

    電子發(fā)燒友網站提供《W25X16W25X32\W25X64 數據手冊.pdf》資料免費下載
    發(fā)表于 07-10 16:10 ?4次下載

    技術干貨 | 從偏移誤差到電源抑制比,DAC核心術語解析

    偏移誤差、增益誤差、INL/DNL、轉換時間……這些關鍵指標如何定義?如何影響DAC性能?本文DAC核心術語解析帶您一文掌握關鍵參數!
    的頭像 發(fā)表于 06-19 10:38 ?672次閱讀
    技術干貨 | 從偏移誤差到電源抑制比,DAC核心<b class='flag-5'>術語</b>全<b class='flag-5'>解析</b>

    技術干貨 | 功能安全術語的暗黑森林

    在汽車產業(yè)高度發(fā)展的當下,功能安全已從抽象概念轉化為系統(tǒng)性防控要求。ISO26262定義的核心術語正是突破概念模糊性的首道門檻——既是工程師協(xié)同的技術語言,也是實現安全出行的底層方法論
    的頭像 發(fā)表于 06-10 16:38 ?2142次閱讀
    技術干貨 | 功能安全<b class='flag-5'>術語</b>的暗黑森林