chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)分析師應當了解的五個統(tǒng)計基本概念

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-02 15:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文講述了數(shù)據(jù)分析師應當了解的五個統(tǒng)計基本概念:統(tǒng)計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計方法。 從高的角度來看,統(tǒng)計學是一種利用數(shù)學理論來進行數(shù)據(jù)分析的技術(shù)。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統(tǒng)計學我們可以以更富有信息驅(qū)動力和針對性的方式對數(shù)據(jù)進行操作。所涉及的數(shù)學理論幫助我們形成數(shù)據(jù)的具體結(jié)論,而不僅僅是猜測。 利用統(tǒng)計學,我們可以更深入、更細致地觀察數(shù)據(jù)是如何進行精確組織的,并且基于這種組織結(jié)構(gòu),如何能夠以最佳的形式來應用其它相關(guān)的技術(shù)以獲取更多的信息。今天,我們來看看數(shù)據(jù)分析師需要掌握的5個基本的統(tǒng)計學概念,以及如何有效地進行應用。 01特征統(tǒng)計 特征統(tǒng)計可能是數(shù)據(jù)科學中最常用的統(tǒng)計學概念。它是你在研究數(shù)據(jù)集時經(jīng)常使用的統(tǒng)計技術(shù),包括偏差、方差、平均值、中位數(shù)、百分數(shù)等等。理解特征統(tǒng)計并且在代碼中實現(xiàn)都是非常容易的。請看下圖:

上圖中,中間的直線表示數(shù)據(jù)的中位數(shù)。中位數(shù)用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數(shù)本質(zhì)上是第二十五百分位數(shù),即數(shù)據(jù)中的25%要低于該值。第三個四分位數(shù)是第七十五百分位數(shù),即數(shù)據(jù)中的75%要低于該值。而最大值和最小值表示該數(shù)據(jù)范圍的上下兩端。 箱形圖很好地說明了基本統(tǒng)計特征的作用:

當箱形圖很短時,就意味著很多數(shù)據(jù)點是相似的,因為很多值是在一個很小的范圍內(nèi)分布;

當箱形圖較高時,就意味著大部分的數(shù)據(jù)點之間的差異很大,因為這些值分布的很廣;

如果中位數(shù)接近了底部,那么大部分的數(shù)據(jù)具有較低的值。如果中位數(shù)比較接近頂部,那么大多數(shù)的數(shù)據(jù)具有更高的值。基本上,如果中位線不在框的中間,那么就表明了是偏斜數(shù)據(jù);

如果框上下兩邊的線很長表示數(shù)據(jù)具有很高的標準偏差和方差,意味著這些值被分散了,并且變化非常大。如果在框的一邊有長線,另一邊的不長,那么數(shù)據(jù)可能只在一個方向上變化很大

02概率分布 我們可以將概率定義為一些事件將要發(fā)生的可能性大小,以百分數(shù)來表示。在數(shù)據(jù)科學領域中,這通常被量化到0到1的區(qū)間范圍內(nèi),其中0表示事件確定不會發(fā)生,而1表示事件確定會發(fā)生。那么,概率分布就是表示所有可能值出現(xiàn)的幾率的函數(shù)。請看下圖:

常見的概率分布,均勻分布(上)、正態(tài)分布(中間)、泊松分布(下):

均勻分布是其中最基本的概率分布方式。它有一個只出現(xiàn)在一定范圍內(nèi)的值,而在該范圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變量:0或另一個值。分類變量可能具有除0之外的多個值,但我們?nèi)匀豢梢詫⑵淇梢暬癁槎鄠€均勻分布的分段函數(shù)。

正態(tài)分布,通常也稱為高斯分布,具體是由它的平均值和標準偏差來定義的。平均值是在空間上來回變化位置進行分布的,而標準偏差控制著它的分布擴散范圍。與其它的分布方式的主要區(qū)別在于,在所有方向上標準偏差是相同的。因此,通過高斯分布,我們知道數(shù)據(jù)集的平均值以及數(shù)據(jù)的擴散分布,即它在比較廣的范圍上擴展,還是主要圍繞在少數(shù)幾個值附近集中分布。

泊松分布與正態(tài)分布相似,但存在偏斜率。象正態(tài)分布一樣,在偏斜度值較低的情況下,泊松分布在各個方向上具有相對均勻的擴散。但是,當偏斜度值非常大的時候,我們的數(shù)據(jù)在不同方向上的擴散將會是不同的。在一個方向上,數(shù)據(jù)的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分布,那么我們知道有很多算法,在默認情況下高思分布將會被執(zhí)行地很好,因此首先應該找到那些算法。如果是泊松分布,我們必須要特別謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。 03降維 降維這個術(shù)語可以很直觀的理解,意思是降低一個數(shù)據(jù)集的維數(shù)。在數(shù)據(jù)科學中,這是特征變量的數(shù)量。請看下圖:

上圖中的立方體表示我們的數(shù)據(jù)集,它有3個維度,總共1000個點。以現(xiàn)在的計算能力,計算1000個點很容易,但如果更大的規(guī)模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數(shù)據(jù),比如從立方體一側(cè)的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3D數(shù)據(jù)展現(xiàn)到2D平面上,這有效地把我們需要計算的點的數(shù)量減少到100個,大大節(jié)省了計算量。 另一種方式是我們可以通過特征剪枝來減少維數(shù)。利用這種方法,我們刪除任何所看到的特征對分析都不重要。例如,在研究數(shù)據(jù)集之后,我們可能會發(fā)現(xiàn),在10個特征中,有7個特征與輸出具有很高的相關(guān)性,而其它3個則具有非常低的相關(guān)性。那么,這3個低相關(guān)性的特征可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。 用于降維的最常見的統(tǒng)計技術(shù)是PCA,它本質(zhì)上創(chuàng)建了特征的向量表示,表明了它們對輸出的重要性,即相關(guān)性。PCA可以用來進行上述兩種降維方式的操作。 04過采樣和欠采樣 過采樣和欠采樣是用于分類問題的技術(shù)。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術(shù)來給數(shù)據(jù)建模并進行預測。那么,過采樣和欠采樣可以應對這種情況。請看下圖:

在上面圖中的左右兩側(cè),藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。 欠采樣意味著我們將只從樣本多的分類中選擇一些數(shù)據(jù),而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓數(shù)據(jù)集更均衡。 過采樣意味著我們將要創(chuàng)建少數(shù)分類的副本,以便具有與多數(shù)分類相同的樣本數(shù)量。副本將被制作成保持少數(shù)分類的分布。我們只是在沒有獲得更多數(shù)據(jù)的情況下讓數(shù)據(jù)集更加均衡。 05貝葉斯統(tǒng)計 完全理解為什么在我們使用貝葉斯統(tǒng)計的時候,要求首先理解頻率統(tǒng)計失敗的地方。大多數(shù)人在聽到“概率”這個詞的時候,頻率統(tǒng)計是首先想到的統(tǒng)計類型。它涉及應用一些數(shù)學理論來分析事件發(fā)生的概率,明確地說,我們唯一計算的數(shù)據(jù)是先驗數(shù)據(jù)(prior data)。

假設我給了你一個骰子,問你擲出6點的幾率是多少,大多數(shù)人都會說是六分之一。 但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數(shù)據(jù),而給你作弊的骰子的因素并沒有被考慮進去。 貝葉斯統(tǒng)計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關(guān)于事件發(fā)生概率的數(shù)據(jù)。方程中的P(E|H)稱為可能性,根據(jù)頻率分析得到的信息,實質(zhì)上是現(xiàn)象正確的概率。例如,如果你要擲骰子10000次,并且前1000次全部擲出了6個點,那么你會非常自信地認為是骰子作弊了。 如果頻率分析做的非常好的話,那么我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基于其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統(tǒng)計把一切因素都考慮在內(nèi)了。當你覺得之前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果的時候,就應該使用貝葉斯統(tǒng)計方法。

責任編輯:xj

原文標題:5個基本概念,從統(tǒng)計學到機器學習

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 統(tǒng)計
    +關(guān)注

    關(guān)注

    1

    文章

    20

    瀏覽量

    13646
  • 貝葉斯
    +關(guān)注

    關(guān)注

    0

    文章

    77

    瀏覽量

    12766
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1473

    瀏覽量

    35043

原文標題:5個基本概念,從統(tǒng)計學到機器學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI數(shù)據(jù)分析儀設計原理圖:RapidIO信號接入 平板AI數(shù)據(jù)分析

    AI數(shù)據(jù)分析儀, 平板數(shù)據(jù)分析儀, 數(shù)據(jù)分析儀, AI邊緣計算, 高帶寬數(shù)據(jù)輸入
    的頭像 發(fā)表于 07-17 09:20 ?92次閱讀
    AI<b class='flag-5'>數(shù)據(jù)分析</b>儀設計原理圖:RapidIO信號接入 平板AI<b class='flag-5'>數(shù)據(jù)分析</b>儀

    如何使用協(xié)議分析儀進行數(shù)據(jù)分析與可視化

    使用協(xié)議分析儀進行數(shù)據(jù)分析與可視化,需結(jié)合數(shù)據(jù)捕獲、協(xié)議解碼、統(tǒng)計分析及可視化工具,將原始數(shù)據(jù)轉(zhuǎn)化為可解讀的圖表和報告。以下是詳細步驟及關(guān)鍵
    發(fā)表于 07-16 14:16

    Mathematica 在數(shù)據(jù)分析中的應用

    數(shù)據(jù)分析是現(xiàn)代科學研究和商業(yè)決策中不可或缺的一部分。隨著數(shù)據(jù)量的爆炸性增長,對數(shù)據(jù)分析工具的需求也在不斷增加。Mathematica,作為一種強大的計算軟件,以其獨特的符號計算能力和廣泛的內(nèi)置函數(shù)庫
    的頭像 發(fā)表于 12-26 15:41 ?712次閱讀

    了解虛擬電廠的基本概念

    虛擬電廠的基本概念: 虛擬電廠是一種基于現(xiàn)代信息技術(shù)和能源互聯(lián)網(wǎng)的能源管理模式,它將分散的、可再生能源和儲能設備通過虛擬化技術(shù)進行集成和管理,形成一具有集中調(diào)度、統(tǒng)一運營和優(yōu)化控制的虛擬化電力系統(tǒng)
    的頭像 發(fā)表于 12-24 17:12 ?958次閱讀
    <b class='flag-5'>了解</b>虛擬電廠的<b class='flag-5'>基本概念</b>

    數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系

    在當今這個信息爆炸的時代,數(shù)據(jù)無處不在。無論是企業(yè)運營、科學研究還是個人決策,我們都需要從海量的數(shù)據(jù)中提取有價值的信息。數(shù)據(jù)分析數(shù)據(jù)可視化作為兩
    的頭像 發(fā)表于 12-06 17:09 ?969次閱讀

    NVIDIA助力百度提升數(shù)據(jù)分析效能

    、數(shù)據(jù)分析師、運營團隊以及銷售人員等。過去他們不得不編寫繁雜的查詢語句,由此耗費掉大量的時間與精力。百度廣告業(yè)務的重要性和復雜性,致使相關(guān)的業(yè)務數(shù)據(jù)每月會有超過 200 迭代更新,用戶唯有掌握豐富的業(yè)務領域知識方可成功實施
    的頭像 發(fā)表于 11-20 10:06 ?714次閱讀

    LLM在數(shù)據(jù)分析中的作用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析已經(jīng)成為企業(yè)和組織決策的關(guān)鍵工具。數(shù)據(jù)科學家和分析師需要從海量數(shù)據(jù)中提取有價值的信息,以支持業(yè)務決策。在這個過
    的頭像 發(fā)表于 11-19 15:35 ?1137次閱讀

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)與傳統(tǒng)數(shù)據(jù)分析之間存在顯著的差異。以下是兩者的主要區(qū)別: 一、分析目的和方法論 EDA 目的 :EDA的主要目的是對
    的頭像 發(fā)表于 11-13 10:52 ?886次閱讀

    為什么選擇eda進行數(shù)據(jù)分析

    數(shù)據(jù)科學領域,數(shù)據(jù)分析是一復雜且多步驟的過程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟中,探索性數(shù)據(jù)分析(EDA)扮演著至
    的頭像 發(fā)表于 11-13 10:41 ?759次閱讀

    raid 在大數(shù)據(jù)分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數(shù)據(jù)分析中的應用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析
    的頭像 發(fā)表于 11-12 09:44 ?729次閱讀

    數(shù)據(jù)分析在數(shù)字化中的作用

    與重要性 數(shù)據(jù)分析是指使用統(tǒng)計和邏輯方法對數(shù)據(jù)進行處理和解釋的過程。它涉及到數(shù)據(jù)的收集、清洗、轉(zhuǎn)換、建模和解釋,目的是發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢
    的頭像 發(fā)表于 10-27 17:35 ?1148次閱讀

    Linux應用編程的基本概念

    Linux應用編程涉及到在Linux環(huán)境下開發(fā)和運行應用程序的一系列概念。以下是一些涵蓋Linux應用編程的基本概念
    的頭像 發(fā)表于 10-24 17:19 ?660次閱讀

    云計算在大數(shù)據(jù)分析中的應用

    云計算在大數(shù)據(jù)分析中的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數(shù)據(jù)分析中應用的介紹: 一、存儲和處理海量數(shù)據(jù) 云計算提供了強大的存儲和計算能力
    的頭像 發(fā)表于 10-24 09:18 ?1132次閱讀

    IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡優(yōu)化中的作用 1.流量分析數(shù)據(jù)分析可以對網(wǎng)絡中的流量進行實時監(jiān)測和分析,了解網(wǎng)絡的使用情況和流量趨勢。通過對流量
    的頭像 發(fā)表于 10-09 15:32 ?574次閱讀
    IP 地址大<b class='flag-5'>數(shù)據(jù)分析</b>如何進行網(wǎng)絡優(yōu)化?

    加法運放電路實驗報告數(shù)據(jù)分析

    加法運放電路實驗報告的數(shù)據(jù)分析主要包括對實驗結(jié)果的觀察、與理論值的對比以及誤差原因的分析。以下是一基于常見加法運放電路實驗的數(shù)據(jù)分析示例: 一、實驗目的與原理 實驗目的 :
    的頭像 發(fā)表于 09-03 10:03 ?1840次閱讀