chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)分析師應(yīng)當(dāng)了解的五個(gè)統(tǒng)計(jì)基本概念

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-11-02 15:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文講述了數(shù)據(jù)分析師應(yīng)當(dāng)了解的五個(gè)統(tǒng)計(jì)基本概念:統(tǒng)計(jì)特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計(jì)方法。 從高的角度來看,統(tǒng)計(jì)學(xué)是一種利用數(shù)學(xué)理論來進(jìn)行數(shù)據(jù)分析的技術(shù)。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統(tǒng)計(jì)學(xué)我們可以以更富有信息驅(qū)動力和針對性的方式對數(shù)據(jù)進(jìn)行操作。所涉及的數(shù)學(xué)理論幫助我們形成數(shù)據(jù)的具體結(jié)論,而不僅僅是猜測。 利用統(tǒng)計(jì)學(xué),我們可以更深入、更細(xì)致地觀察數(shù)據(jù)是如何進(jìn)行精確組織的,并且基于這種組織結(jié)構(gòu),如何能夠以最佳的形式來應(yīng)用其它相關(guān)的技術(shù)以獲取更多的信息。今天,我們來看看數(shù)據(jù)分析師需要掌握的5個(gè)基本的統(tǒng)計(jì)學(xué)概念,以及如何有效地進(jìn)行應(yīng)用。 01特征統(tǒng)計(jì) 特征統(tǒng)計(jì)可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計(jì)學(xué)概念。它是你在研究數(shù)據(jù)集時(shí)經(jīng)常使用的統(tǒng)計(jì)技術(shù),包括偏差、方差、平均值、中位數(shù)、百分?jǐn)?shù)等等。理解特征統(tǒng)計(jì)并且在代碼中實(shí)現(xiàn)都是非常容易的。請看下圖:

上圖中,中間的直線表示數(shù)據(jù)的中位數(shù)。中位數(shù)用在平均值上,因?yàn)樗鼘Ξ惓V蹈哂恤敯粜浴5谝粋€(gè)四分位數(shù)本質(zhì)上是第二十五百分位數(shù),即數(shù)據(jù)中的25%要低于該值。第三個(gè)四分位數(shù)是第七十五百分位數(shù),即數(shù)據(jù)中的75%要低于該值。而最大值和最小值表示該數(shù)據(jù)范圍的上下兩端。 箱形圖很好地說明了基本統(tǒng)計(jì)特征的作用:

當(dāng)箱形圖很短時(shí),就意味著很多數(shù)據(jù)點(diǎn)是相似的,因?yàn)楹芏嘀凳窃谝粋€(gè)很小的范圍內(nèi)分布;

當(dāng)箱形圖較高時(shí),就意味著大部分的數(shù)據(jù)點(diǎn)之間的差異很大,因?yàn)檫@些值分布的很廣;

如果中位數(shù)接近了底部,那么大部分的數(shù)據(jù)具有較低的值。如果中位數(shù)比較接近頂部,那么大多數(shù)的數(shù)據(jù)具有更高的值。基本上,如果中位線不在框的中間,那么就表明了是偏斜數(shù)據(jù);

如果框上下兩邊的線很長表示數(shù)據(jù)具有很高的標(biāo)準(zhǔn)偏差和方差,意味著這些值被分散了,并且變化非常大。如果在框的一邊有長線,另一邊的不長,那么數(shù)據(jù)可能只在一個(gè)方向上變化很大

02概率分布 我們可以將概率定義為一些事件將要發(fā)生的可能性大小,以百分?jǐn)?shù)來表示。在數(shù)據(jù)科學(xué)領(lǐng)域中,這通常被量化到0到1的區(qū)間范圍內(nèi),其中0表示事件確定不會發(fā)生,而1表示事件確定會發(fā)生。那么,概率分布就是表示所有可能值出現(xiàn)的幾率的函數(shù)。請看下圖:

常見的概率分布,均勻分布(上)、正態(tài)分布(中間)、泊松分布(下):

均勻分布是其中最基本的概率分布方式。它有一個(gè)只出現(xiàn)在一定范圍內(nèi)的值,而在該范圍之外的都是0。我們也可以把它考慮為是一個(gè)具有兩個(gè)分類的變量:0或另一個(gè)值。分類變量可能具有除0之外的多個(gè)值,但我們?nèi)匀豢梢詫⑵淇梢暬癁槎鄠€(gè)均勻分布的分段函數(shù)。

正態(tài)分布,通常也稱為高斯分布,具體是由它的平均值和標(biāo)準(zhǔn)偏差來定義的。平均值是在空間上來回變化位置進(jìn)行分布的,而標(biāo)準(zhǔn)偏差控制著它的分布擴(kuò)散范圍。與其它的分布方式的主要區(qū)別在于,在所有方向上標(biāo)準(zhǔn)偏差是相同的。因此,通過高斯分布,我們知道數(shù)據(jù)集的平均值以及數(shù)據(jù)的擴(kuò)散分布,即它在比較廣的范圍上擴(kuò)展,還是主要圍繞在少數(shù)幾個(gè)值附近集中分布。

泊松分布與正態(tài)分布相似,但存在偏斜率。象正態(tài)分布一樣,在偏斜度值較低的情況下,泊松分布在各個(gè)方向上具有相對均勻的擴(kuò)散。但是,當(dāng)偏斜度值非常大的時(shí)候,我們的數(shù)據(jù)在不同方向上的擴(kuò)散將會是不同的。在一個(gè)方向上,數(shù)據(jù)的擴(kuò)散程度非常高,而在另一個(gè)方向上,擴(kuò)散的程度則非常低。

如果遇到一個(gè)高斯分布,那么我們知道有很多算法,在默認(rèn)情況下高思分布將會被執(zhí)行地很好,因此首先應(yīng)該找到那些算法。如果是泊松分布,我們必須要特別謹(jǐn)慎,選擇一個(gè)在空間擴(kuò)展上對變化要有很好魯棒性的算法。 03降維 降維這個(gè)術(shù)語可以很直觀的理解,意思是降低一個(gè)數(shù)據(jù)集的維數(shù)。在數(shù)據(jù)科學(xué)中,這是特征變量的數(shù)量。請看下圖:

上圖中的立方體表示我們的數(shù)據(jù)集,它有3個(gè)維度,總共1000個(gè)點(diǎn)。以現(xiàn)在的計(jì)算能力,計(jì)算1000個(gè)點(diǎn)很容易,但如果更大的規(guī)模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數(shù)據(jù),比如從立方體一側(cè)的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3D數(shù)據(jù)展現(xiàn)到2D平面上,這有效地把我們需要計(jì)算的點(diǎn)的數(shù)量減少到100個(gè),大大節(jié)省了計(jì)算量。 另一種方式是我們可以通過特征剪枝來減少維數(shù)。利用這種方法,我們刪除任何所看到的特征對分析都不重要。例如,在研究數(shù)據(jù)集之后,我們可能會發(fā)現(xiàn),在10個(gè)特征中,有7個(gè)特征與輸出具有很高的相關(guān)性,而其它3個(gè)則具有非常低的相關(guān)性。那么,這3個(gè)低相關(guān)性的特征可能不值得計(jì)算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。 用于降維的最常見的統(tǒng)計(jì)技術(shù)是PCA,它本質(zhì)上創(chuàng)建了特征的向量表示,表明了它們對輸出的重要性,即相關(guān)性。PCA可以用來進(jìn)行上述兩種降維方式的操作。 04過采樣和欠采樣 過采樣和欠采樣是用于分類問題的技術(shù)。例如,我們有1種分類的2000個(gè)樣本,但第2種分類只有200個(gè)樣本。這將拋開我們嘗試和使用的許多機(jī)器學(xué)習(xí)技術(shù)來給數(shù)據(jù)建模并進(jìn)行預(yù)測。那么,過采樣和欠采樣可以應(yīng)對這種情況。請看下圖:

在上面圖中的左右兩側(cè),藍(lán)色分類比橙色分類有更多的樣本。在這種情況下,我們有2個(gè)預(yù)處理選擇,可以幫助機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練。 欠采樣意味著我們將只從樣本多的分類中選擇一些數(shù)據(jù),而盡量多的使用樣本少的分類樣本。這種選擇應(yīng)該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓數(shù)據(jù)集更均衡。 過采樣意味著我們將要創(chuàng)建少數(shù)分類的副本,以便具有與多數(shù)分類相同的樣本數(shù)量。副本將被制作成保持少數(shù)分類的分布。我們只是在沒有獲得更多數(shù)據(jù)的情況下讓數(shù)據(jù)集更加均衡。 05貝葉斯統(tǒng)計(jì) 完全理解為什么在我們使用貝葉斯統(tǒng)計(jì)的時(shí)候,要求首先理解頻率統(tǒng)計(jì)失敗的地方。大多數(shù)人在聽到“概率”這個(gè)詞的時(shí)候,頻率統(tǒng)計(jì)是首先想到的統(tǒng)計(jì)類型。它涉及應(yīng)用一些數(shù)學(xué)理論來分析事件發(fā)生的概率,明確地說,我們唯一計(jì)算的數(shù)據(jù)是先驗(yàn)數(shù)據(jù)(prior data)。

假設(shè)我給了你一個(gè)骰子,問你擲出6點(diǎn)的幾率是多少,大多數(shù)人都會說是六分之一。 但是,如果有人給你個(gè)特定的骰子總能擲出6個(gè)點(diǎn)呢?因?yàn)轭l率分析僅僅考慮之前的數(shù)據(jù),而給你作弊的骰子的因素并沒有被考慮進(jìn)去。 貝葉斯統(tǒng)計(jì)確實(shí)考慮了這一點(diǎn),我們可以通過貝葉斯法則來進(jìn)行說明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關(guān)于事件發(fā)生概率的數(shù)據(jù)。方程中的P(E|H)稱為可能性,根據(jù)頻率分析得到的信息,實(shí)質(zhì)上是現(xiàn)象正確的概率。例如,如果你要擲骰子10000次,并且前1000次全部擲出了6個(gè)點(diǎn),那么你會非常自信地認(rèn)為是骰子作弊了。 如果頻率分析做的非常好的話,那么我們會非常自信地確定,猜測6個(gè)點(diǎn)是正確的。同時(shí),如果骰子作弊是真的,或者不是基于其自身的先驗(yàn)概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統(tǒng)計(jì)把一切因素都考慮在內(nèi)了。當(dāng)你覺得之前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果的時(shí)候,就應(yīng)該使用貝葉斯統(tǒng)計(jì)方法。

責(zé)任編輯:xj

原文標(biāo)題:5個(gè)基本概念,從統(tǒng)計(jì)學(xué)到機(jī)器學(xué)習(xí)

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 統(tǒng)計(jì)
    +關(guān)注

    關(guān)注

    1

    文章

    21

    瀏覽量

    13714
  • 貝葉斯
    +關(guān)注

    關(guān)注

    0

    文章

    77

    瀏覽量

    12880
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1512

    瀏覽量

    36062

原文標(biāo)題:5個(gè)基本概念,從統(tǒng)計(jì)學(xué)到機(jī)器學(xué)習(xí)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    經(jīng)營數(shù)據(jù)分析可以通過哪些方式

    在數(shù)聚股份看來,提起經(jīng)營數(shù)據(jù)分析,大家往往會聯(lián)想到一些密密麻麻的數(shù)字表格,或是高級的數(shù)據(jù)建模手法,再或是華麗的數(shù)據(jù)報(bào)表。其實(shí),“ 分析 ”本身是每個(gè)人都具備的能力,對于業(yè)務(wù)決策者而言,
    的頭像 發(fā)表于 12-05 16:31 ?580次閱讀

    廣立微DE-G零斷檔重構(gòu)智能數(shù)據(jù)分析

    近日,數(shù)據(jù)分析領(lǐng)域被一則消息推上風(fēng)口浪尖:一家老牌軟件巨頭將撤出中國。在此背景下,其旗下以靈活著稱的數(shù)據(jù)分析軟件,在中國市場的未來將面臨極大的不確定性。
    的頭像 發(fā)表于 11-07 10:39 ?587次閱讀

    Forrester首席分析師談Net5.5G數(shù)據(jù)中心網(wǎng)絡(luò)

    Forrester Research首席分析師Andre Kindness談及AI對數(shù)據(jù)中心網(wǎng)絡(luò)的影響,指出面臨性能、擴(kuò)展性與編排管理三大挑戰(zhàn)。關(guān)于數(shù)據(jù)中心功能協(xié)同,傳統(tǒng)通用架構(gòu)已分化為通用
    的頭像 發(fā)表于 10-14 14:29 ?603次閱讀

    學(xué)習(xí)物聯(lián)網(wǎng)可以做什么工作?

    嵌入式軟件和硬件,支持物聯(lián)網(wǎng)設(shè)備的功能實(shí)現(xiàn)。   數(shù)據(jù)分析師:負(fù)責(zé)從物聯(lián)網(wǎng)設(shè)備和傳感器中獲取和分析數(shù)據(jù),并提供數(shù)據(jù)支持和決策。   物聯(lián)網(wǎng)產(chǎn)品經(jīng)理:負(fù)責(zé)物聯(lián)網(wǎng)產(chǎn)品的策劃、設(shè)計(jì)、實(shí)施、推
    發(fā)表于 10-11 16:40

    【產(chǎn)品介紹】Altair RapidMiner數(shù)據(jù)分析與人工智能平臺

    AltairRapidMiner賦能組織解鎖數(shù)據(jù)洞察,運(yùn)用數(shù)據(jù)分析和先進(jìn)的人工智能自動化,提供可擴(kuò)展的面向未來的解決方案。Altair數(shù)據(jù)分析和人工智能平臺包括數(shù)據(jù)準(zhǔn)備、
    的頭像 發(fā)表于 09-18 17:56 ?752次閱讀
    【產(chǎn)品介紹】Altair RapidMiner<b class='flag-5'>數(shù)據(jù)分析</b>與人工智能平臺

    電磁兼容與電磁干擾在電磁兼容性大數(shù)據(jù)分析中的智能管理系統(tǒng)

    數(shù)據(jù),結(jié)合大數(shù)據(jù)分析、流程自動化及云邊協(xié)同技術(shù),實(shí)現(xiàn)電磁環(huán)境全生命周期管理。以下從大維度精簡解析: 應(yīng)用案例 北京華盛恒輝、北京木恒潤研發(fā)的 EMC/EMI 智能管理系統(tǒng)已落地應(yīng)
    的頭像 發(fā)表于 09-17 14:58 ?533次閱讀

    普迪飛 Exensio?數(shù)據(jù)分析平臺 | Test Operations解鎖半導(dǎo)體測試新紀(jì)元

    TestOperations是Exensio數(shù)據(jù)分析平臺的四個(gè)主要模塊之一。T-Ops模塊旨在幫助集成器件制造商(IDM)、無晶圓廠半導(dǎo)體公司(Fabless)和外包半導(dǎo)體(產(chǎn)品)封測廠(OSAT
    的頭像 發(fā)表于 08-19 13:53 ?1012次閱讀
    普迪飛 Exensio?<b class='flag-5'>數(shù)據(jù)分析</b>平臺 | Test Operations解鎖半導(dǎo)體測試新紀(jì)元

    如何通過數(shù)據(jù)分析識別設(shè)備故障模式?

    通過數(shù)據(jù)分析識別設(shè)備故障模式,本質(zhì)是從聲振溫等多維數(shù)據(jù)中提取故障特征,建立 “數(shù)據(jù)特征 - 故障類型” 的映射關(guān)系,核心可通過特征提取、模式匹配、趨勢分析三步實(shí)現(xiàn),精準(zhǔn)定位故障根源與發(fā)
    的頭像 發(fā)表于 08-19 11:14 ?705次閱讀
    如何通過<b class='flag-5'>數(shù)據(jù)分析</b>識別設(shè)備故障模式?

    電壓波動與閃變的基本概念

    如果您是電力系統(tǒng)工程、電氣設(shè)備維護(hù)人員或者相關(guān)專業(yè)的學(xué)生,應(yīng)該注意到了有關(guān)電能質(zhì)量的國家標(biāo)準(zhǔn)GB/T 12326-2008是有關(guān)電壓波動和閃變的,那這兩個(gè)參數(shù)的考核意義是什么?國家標(biāo)準(zhǔn)規(guī)定這兩個(gè)參數(shù)如何計(jì)算、測量和考核?這篇文
    的頭像 發(fā)表于 07-22 14:10 ?2713次閱讀
    電壓波動與閃變的<b class='flag-5'>基本概念</b>

    構(gòu)建自定義電商數(shù)據(jù)分析API

    ? 在電商業(yè)務(wù)中,數(shù)據(jù)是驅(qū)動決策的核心。隨著數(shù)據(jù)量的增長,企業(yè)需要實(shí)時(shí)、靈活的分析工具來監(jiān)控銷售、用戶行為和庫存等指標(biāo)。一個(gè)自定義電商數(shù)據(jù)分析
    的頭像 發(fā)表于 07-17 14:44 ?495次閱讀
    構(gòu)建自定義電商<b class='flag-5'>數(shù)據(jù)分析</b>API

    AI數(shù)據(jù)分析儀設(shè)計(jì)原理圖:RapidIO信號接入 平板AI數(shù)據(jù)分析

    AI數(shù)據(jù)分析儀, 平板數(shù)據(jù)分析儀, 數(shù)據(jù)分析儀, AI邊緣計(jì)算, 高帶寬數(shù)據(jù)輸入
    的頭像 發(fā)表于 07-17 09:20 ?644次閱讀
    AI<b class='flag-5'>數(shù)據(jù)分析</b>儀設(shè)計(jì)原理圖:RapidIO信號接入 平板AI<b class='flag-5'>數(shù)據(jù)分析</b>儀

    如何使用協(xié)議分析儀進(jìn)行數(shù)據(jù)分析與可視化

    使用協(xié)議分析儀進(jìn)行數(shù)據(jù)分析與可視化,需結(jié)合數(shù)據(jù)捕獲、協(xié)議解碼、統(tǒng)計(jì)分析及可視化工具,將原始數(shù)據(jù)轉(zhuǎn)化為可解讀的圖表和報(bào)告。以下是詳細(xì)步驟及關(guān)鍵
    發(fā)表于 07-16 14:16

    群延遲的基本概念和仿真實(shí)例分析

    在高速數(shù)字通信和射頻系統(tǒng)中,信號從發(fā)送端到接收端的傳輸過程中會遇到各種失真和畸變。群延遲(Group Delay)作為描述系統(tǒng)相位線性度的重要參數(shù),直接影響著信號保真度和系統(tǒng)性能。本文將深入淺出地介紹群延遲的基本概念、應(yīng)用場景,并通過仿真示例展示其在實(shí)際工程中的重要性。
    的頭像 發(fā)表于 07-08 15:14 ?1944次閱讀
    群延遲的<b class='flag-5'>基本概念</b>和仿真實(shí)例<b class='flag-5'>分析</b>

    第十三章 通訊的基本概念

    本章介紹通訊基本概念,包括串行/并行、全雙工/半雙工/單工、同步/異步通訊,還提及通訊速率中比特率與波特率的概念。
    的頭像 發(fā)表于 05-22 17:29 ?1894次閱讀
    第十三章 通訊的<b class='flag-5'>基本概念</b>

    TDengine 發(fā)布時(shí)序數(shù)據(jù)分析 AI 智能體 TDgpt,核心代碼開源

    組成部分,標(biāo)志著時(shí)序數(shù)據(jù)庫在原生集成 AI 能力方面邁出了關(guān)鍵一步。 TDgpt 是內(nèi)嵌于 TDengine 中的時(shí)序數(shù)據(jù)分析 AI 智能體,具備時(shí)序數(shù)據(jù)預(yù)測、異常檢測、數(shù)據(jù)補(bǔ)全、分類
    的頭像 發(fā)表于 03-27 10:30 ?634次閱讀
    TDengine 發(fā)布時(shí)序<b class='flag-5'>數(shù)據(jù)分析</b> AI 智能體 TDgpt,核心代碼開源