chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

K-means聚類算法指南

新機(jī)器視覺 ? 來(lái)源:海豚數(shù)據(jù)科學(xué)實(shí)驗(yàn)室 ? 作者:海豚數(shù)據(jù)科學(xué)實(shí)驗(yàn) ? 2022-10-28 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

假設(shè)您想根據(jù)內(nèi)容和主題對(duì)數(shù)百(或數(shù)千)個(gè)文檔進(jìn)行分類,或者您希望出于某種原因?qū)⒉煌膱D像組合在一起。或者更重要的是,假設(shè)你有相同的數(shù)據(jù)已經(jīng)被分類但是你想要挑戰(zhàn)這個(gè)標(biāo)簽,您想知道數(shù)據(jù)分類是否有意義,或者是否可以改進(jìn)。

好吧,我的建議是你對(duì)數(shù)據(jù)進(jìn)行聚類。信息經(jīng)常會(huì)因?yàn)槿哂嗟雀鞣N原因變得模糊不清,而將數(shù)據(jù)分組到具有相似特征的群集(群集)中是一種有效的方式。

聚類是一種廣泛用于查找具有相似特征的觀察組(稱為聚類)的技術(shù)。此過程不是由特定目的驅(qū)動(dòng)的,這意味著您不必專門告訴您的算法如何對(duì)這些觀察進(jìn)行分組,因?yàn)樗仟?dú)立進(jìn)行(組有機(jī)地形成)分組的。結(jié)果是,同一組中的觀察(或數(shù)據(jù)點(diǎn))在它們之間比另一組中的其他觀察更相似。目標(biāo)是獲得盡可能相似的同一組中的數(shù)據(jù)點(diǎn),并使不同組中的數(shù)據(jù)點(diǎn)盡可能不相似。

K-means非常適合探索性分析,非常適合了解您的數(shù)據(jù)并提供幾乎所有數(shù)據(jù)類型的見解。無(wú)論是圖像、圖形還是文本,K-means都非常靈活,幾乎可以滿足所有需求。

無(wú)監(jiān)督學(xué)習(xí)中的搖滾明星之一

聚類(包括K均值聚類)是一種用于數(shù)據(jù)分類的無(wú)監(jiān)督學(xué)習(xí)技術(shù)。

無(wú)監(jiān)督學(xué)習(xí)意味著沒有輸出變量來(lái)指導(dǎo)學(xué)習(xí)過程(沒有這個(gè)或那個(gè),沒有對(duì)錯(cuò)),數(shù)據(jù)由算法來(lái)探索以發(fā)現(xiàn)模式。我們只觀察這些特征,但沒有對(duì)結(jié)果進(jìn)行確定的測(cè)量值,因?yàn)槲覀兿胍页鏊鼈儭?/p>

與監(jiān)督學(xué)習(xí)不同的是,非監(jiān)督學(xué)習(xí)技術(shù)不使用帶標(biāo)簽的數(shù)據(jù),算法需要自己去發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。

在聚類技術(shù)領(lǐng)域中,K-means可能是最常見和經(jīng)常使用的技術(shù)之一。K-means使用迭代細(xì)化方法,基于用戶定義的集群數(shù)量(由變量K表示)和數(shù)據(jù)集來(lái)產(chǎn)生其最終聚類。例如,如果將K設(shè)置為3,則數(shù)據(jù)集將分組為3個(gè)群集,如果將K設(shè)置為4,則將數(shù)據(jù)分組為4個(gè)群集,依此類推。

K-means從任意選擇的數(shù)據(jù)點(diǎn)開始,作為數(shù)據(jù)組的提議方法,并迭代地重新計(jì)算新的均值,以便收斂到數(shù)據(jù)點(diǎn)的最終聚類。

但是,如果您只提供一個(gè)值(K),算法如何決定如何對(duì)數(shù)據(jù)進(jìn)行分組?當(dāng)您定義K的值時(shí),您實(shí)際上是在告訴算法您需要多少均值或質(zhì)心(如果設(shè)置K = 3,則創(chuàng)建了3個(gè)均值或質(zhì)心,其中包含3個(gè)聚類)。質(zhì)心是表示聚類中心的數(shù)據(jù)點(diǎn)(均值),它可能不一定是數(shù)據(jù)集的成員。

這就是算法的工作原理

K個(gè)質(zhì)心是隨機(jī)創(chuàng)建的(基于預(yù)定義的K值)

K-means將數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)分配到最近的質(zhì)心(最小化它們之間的歐幾里德距離),這意味著如果數(shù)據(jù)點(diǎn)比任何其他質(zhì)心更接近該群集的質(zhì)心,則認(rèn)為該數(shù)據(jù)點(diǎn)位于特定集群中。

然后K-means通過獲取分配給該質(zhì)心集群的所有數(shù)據(jù)點(diǎn)的平均值來(lái)重新計(jì)算質(zhì)心,從而減少與前一步驟相關(guān)的集群內(nèi)總方差。K均值中的“均值”是指對(duì)數(shù)據(jù)求均值并找到新的質(zhì)心。

該算法在步驟2和3之間迭代,直到滿足一些標(biāo)準(zhǔn)(例如最小化數(shù)據(jù)點(diǎn)與其對(duì)應(yīng)質(zhì)心的距離之和,達(dá)到最大迭代次數(shù),質(zhì)心值不變或數(shù)據(jù)點(diǎn)沒有變化集群)

3c2d2b64-5680-11ed-a3b6-dac502259ad0.gif

在該示例中,經(jīng)過5次迭代之后,計(jì)算的質(zhì)心保持相同,并且數(shù)據(jù)點(diǎn)不再交換集群(算法收斂)。這里,每個(gè)質(zhì)心都顯示為一個(gè)深色的數(shù)據(jù)點(diǎn)。

運(yùn)行此算法的初始結(jié)果可能不是最佳結(jié)果,并且使用不同的隨機(jī)起始質(zhì)心重新運(yùn)行它可能提供更好的性能(不同的初始對(duì)象可能產(chǎn)生不同的聚類結(jié)果)。出于這個(gè)原因,通常的做法是使用不同的起點(diǎn)多次運(yùn)行算法,并評(píng)估不同的初始化方法(例如Forgy或Kaufman方法)。

但另一個(gè)問題出現(xiàn)了:你如何知道K的正確值,或者要?jiǎng)?chuàng)建多少個(gè)質(zhì)心?對(duì)此這個(gè)問題沒有普遍的答案,雖然質(zhì)心或集群的最佳數(shù)量還不是先驗(yàn)的,但是存在不同的方法來(lái)估計(jì)它。一種常用的方法是測(cè)試不同數(shù)量的集群并測(cè)量得到的誤差平方之和,選擇K值,在該值處增加將導(dǎo)致誤差和減小的非常小,而減小時(shí)將急劇增加誤差和。定義最佳集群數(shù)的這一點(diǎn)被稱為“肘點(diǎn)”,可以用作一個(gè)視覺度量來(lái)找到K值的最佳選擇。

3c7ba960-5680-11ed-a3b6-dac502259ad0.png

在此示例中,肘點(diǎn)位于3個(gè)集群中

K-means是您的數(shù)據(jù)科學(xué)工具包中必不可少的,有幾個(gè)原因。首先,它易于實(shí)現(xiàn)并帶來(lái)高效的性能。畢竟,您只需要定義一個(gè)參數(shù)(K的值)來(lái)查看結(jié)果。它的速度很快并且可以很好地處理大型數(shù)據(jù)集,使其能夠處理當(dāng)前的海量數(shù)據(jù)。它非常靈活,可以與幾乎任何數(shù)據(jù)類型一起使用,其結(jié)果易于解釋,并且比其他算法更易于解釋。此外,該算法非常受歡迎,您幾乎可以在任何學(xué)科中找到用例和實(shí)現(xiàn)。

但凡事都有不利的一面

K-means也存在一些缺點(diǎn)。第一個(gè)是你需要定義集群的數(shù)量,這個(gè)決定會(huì)嚴(yán)重影響結(jié)果。此外,由于初始質(zhì)心的位置是隨機(jī)的,因此結(jié)果可能不具有可比性并且顯示缺乏一致性。K-means生成具有統(tǒng)一大小的聚類(每個(gè)聚類具有大致相同的觀察量),即使數(shù)據(jù)可能以不同的方式運(yùn)行,并且它對(duì)異常值和噪聲數(shù)據(jù)非常敏感。此外,它假設(shè)每個(gè)聚類中的數(shù)據(jù)點(diǎn)被建模為位于該聚類質(zhì)心周圍的球體內(nèi)(球形限制),但是當(dāng)違反此條件(或任何先前的條件)時(shí),算法可以以非直觀的方式運(yùn)行。

3c987982-5680-11ed-a3b6-dac502259ad0.png

例1

示例1:在左側(cè),數(shù)據(jù)的直觀聚類,兩組數(shù)據(jù)點(diǎn)之間有明顯分離(由一個(gè)較大的數(shù)據(jù)點(diǎn)包圍的一個(gè)小環(huán)的形狀)。在右側(cè),通過K均值算法(K值為2)聚類的相同數(shù)據(jù)點(diǎn),其中每個(gè)質(zhì)心用菱形表示。如您所見,該算法無(wú)法識(shí)別直觀的聚類。

3cc35922-5680-11ed-a3b6-dac502259ad0.png

例2

示例2:左側(cè)是兩個(gè)可識(shí)別數(shù)據(jù)組的聚類。在右側(cè),K-means聚類在相同數(shù)據(jù)點(diǎn)上的結(jié)果不適合直觀的聚類。與示例1的情況一樣,由于算法的球形限制,K-means創(chuàng)建的分區(qū)不能反映我們?cè)谝曈X上識(shí)別的內(nèi)容。它試圖找到圍繞它們的整個(gè)數(shù)據(jù)球體的質(zhì)心,并且當(dāng)聚類的幾何形狀偏離球體時(shí)表現(xiàn)很差。

3d07a064-5680-11ed-a3b6-dac502259ad0.png

例3

示例3:再次,在左側(cè)有兩個(gè)清晰的集群(一個(gè)小而緊密的數(shù)據(jù)組和另一個(gè)較大且分散的集群),K-means無(wú)法識(shí)別(右側(cè))。這里,為了平衡兩個(gè)數(shù)據(jù)組之間的集群內(nèi)距離并生成具有統(tǒng)一大小的集群,該算法混合兩個(gè)數(shù)據(jù)組并創(chuàng)建2個(gè)不代表數(shù)據(jù)集的人工集群。

有趣的是,無(wú)論這些數(shù)據(jù)點(diǎn)之間的關(guān)系多么明顯,K-means都不允許彼此遠(yuǎn)離的數(shù)據(jù)點(diǎn)共享同一個(gè)集群。

現(xiàn)在做什么?

事情是現(xiàn)實(shí)生活中的數(shù)據(jù)幾乎總是復(fù)雜、雜亂無(wú)章和嘈雜的?,F(xiàn)實(shí)世界中的情況很少能反映出明確的條件,即可立即應(yīng)用這些類型的算法。在K-means算法的情況下,預(yù)計(jì)至少有一個(gè)假設(shè)會(huì)被違反,因此我們不僅要識(shí)別它,還需要知道在這種情況下該做什么。

好消息是還有其他選擇,可以糾正缺陷。例如,將數(shù)據(jù)轉(zhuǎn)換為極坐標(biāo)可以解決我們?cè)谑纠?中描述的球形限制。如果發(fā)現(xiàn)嚴(yán)重的限制,還可以考慮使用其他類型的聚類算法??赡艿姆椒ㄊ鞘褂没诿芏然蚧趯哟蔚乃惴?,這些算法修復(fù)了一些K均值限制(但也有其自身的局限性)。

總之,K-means是一種具有大量潛在用途的精彩算法,因此它具有多種功能,幾乎可用于任何類型的數(shù)據(jù)分組。但是從來(lái)沒有免費(fèi)的午餐:如果你不想被引導(dǎo)到錯(cuò)誤的結(jié)果,你需要了解它的假設(shè)和它的運(yùn)作方式。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 聚類算法
    +關(guān)注

    關(guān)注

    2

    文章

    118

    瀏覽量

    12579
  • K-means
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    11796

原文標(biāo)題:一個(gè)完整的K-means聚類算法指南!

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Freescale K60 系列芯片:技術(shù)剖析與應(yīng)用指南

    Freescale K60 系列芯片:技術(shù)剖析與應(yīng)用指南 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,微控制器扮演著至關(guān)重要的角色。Freescale 的 K60 系列芯片以其卓越的性能和豐富的功能,成為眾多工程師的首選
    的頭像 發(fā)表于 04-13 18:20 ?1087次閱讀

    Freescale K60 系列微控制器:技術(shù)剖析與設(shè)計(jì)指南

    Freescale K60 系列微控制器:技術(shù)剖析與設(shè)計(jì)指南 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,微控制器的性能和功能對(duì)于各類應(yīng)用的成功至關(guān)重要。Freescale 的 K60 系列微控制器以其卓越的性能和豐
    的頭像 發(fā)表于 04-13 18:20 ?1104次閱讀

    Freescale K40 系列芯片:技術(shù)剖析與設(shè)計(jì)指南

    Freescale K40 系列芯片:技術(shù)剖析與設(shè)計(jì)指南 在電子設(shè)計(jì)領(lǐng)域,一款性能卓越、功能豐富的芯片往往能為工程師們帶來(lái)更多的設(shè)計(jì)靈感和實(shí)現(xiàn)可能。Freescale 的 K40 系列芯片便是這樣
    的頭像 發(fā)表于 04-10 14:55 ?91次閱讀

    Freescale K60 系列芯片:技術(shù)剖析與設(shè)計(jì)指南

    Freescale K60 系列芯片:技術(shù)剖析與設(shè)計(jì)指南 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,高性能、低功耗的微控制器是眾多項(xiàng)目的核心選擇。Freescale 的 K60 系列芯片憑借其豐富的功能和出色的性能,在
    的頭像 發(fā)表于 04-10 10:35 ?172次閱讀

    NXP K20 系列芯片:技術(shù)剖析與應(yīng)用指南

    NXP K20 系列芯片:技術(shù)剖析與應(yīng)用指南 在電子設(shè)計(jì)領(lǐng)域,NXP 的 K20 系列芯片憑借其卓越的性能和豐富的功能,成為了眾多工程師的首選。本文將深入剖析 K20 系列芯片的數(shù)據(jù)手
    的頭像 發(fā)表于 04-10 09:40 ?108次閱讀

    算法工程師需要具備哪些技能?

    :自動(dòng)化任務(wù)(如數(shù)據(jù)預(yù)處理、模型訓(xùn)練調(diào)度)。Git版本控制:團(tuán)隊(duì)協(xié)作開發(fā)(如分支管理、代碼合并)。 機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):線性回歸、邏輯回歸、決策樹、SVM等。無(wú)監(jiān)督學(xué)習(xí):K-Means)、降維
    發(fā)表于 02-27 10:53

    使用K-means算法進(jìn)行異常偵測(cè)

    本帖最后由 jf_77210199 于 2026-1-19 09:48 編輯 使用K-means算法進(jìn)行異常偵測(cè) 本案例運(yùn)行于 AT32F403A MCU 平臺(tái),利用 LSM6DS3TR-C
    發(fā)表于 01-16 14:09

    1688品API:熱門行業(yè)榜單,選品指南!

    行業(yè)榜單,并結(jié)合選品指南,提升您的業(yè)務(wù)效率。文章結(jié)構(gòu)清晰,從API基礎(chǔ)到實(shí)際應(yīng)用,逐步解析。 1. 1688品API簡(jiǎn)介 1688品API是一組RESTful接口,允許開發(fā)者通過HTTP請(qǐng)求獲取平臺(tái)上的品類數(shù)據(jù)。這些數(shù)據(jù)包括
    的頭像 發(fā)表于 01-15 17:15 ?940次閱讀
    1688品<b class='flag-5'>類</b>API:熱門行業(yè)榜單,選品<b class='flag-5'>指南</b>!

    看懂C語(yǔ)言程序中的內(nèi)和耦合

    一、原理篇 在軟件工程中,模塊的內(nèi)和耦合是度量模塊化質(zhì)量的標(biāo)準(zhǔn)之一。內(nèi)是指模塊的功能強(qiáng)度的度量,即一個(gè)模塊內(nèi)部各個(gè)元素彼此結(jié)合的緊密程度的度量。若一個(gè)模塊內(nèi)各元素(語(yǔ)名之間、程序段之間)聯(lián)系
    發(fā)表于 12-08 06:37

    國(guó)密系列算法簡(jiǎn)介及SM4算法原理介紹

    算法可用于無(wú)線局域網(wǎng)產(chǎn)品;SM7算法可用于身份識(shí)別、票務(wù)、支付與通卡業(yè)務(wù)。ZUC算法可用于移動(dòng)通信網(wǎng)絡(luò)。 密碼雜湊算法:SM3
    發(fā)表于 10-24 08:25

    K8s存儲(chǔ)設(shè)計(jì)與Ceph集成實(shí)戰(zhàn)

    在云原生時(shí)代,存儲(chǔ)是制約應(yīng)用性能的關(guān)鍵瓶頸。本文將帶你深入理解K8s存儲(chǔ)的設(shè)計(jì)原理,并手把手實(shí)現(xiàn)與Ceph的完美集成,讓你的集群存儲(chǔ)性能提升300%!
    的頭像 發(fā)表于 08-22 11:50 ?1085次閱讀

    辰EEPROM定義座艙存儲(chǔ)新標(biāo)桿?

    辰Giantec推出車規(guī)級(jí)4K EEPROM GT24C04A-2GLI-TR,1.7 V低電壓、125 ℃寬溫和3 ms頁(yè)寫速度適配NXP等主流SoC,ECC與抗EMI設(shè)計(jì)保障方向盤、氛圍燈等子模塊零故障運(yùn)行,并以國(guó)產(chǎn)替代成本優(yōu)勢(shì)加速座艙個(gè)性化落地。
    的頭像 發(fā)表于 07-23 10:28 ?1155次閱讀
    <b class='flag-5'>聚</b>辰EEPROM定義座艙存儲(chǔ)新標(biāo)桿?

    光伏建筑一體化BIPV:透射率與光伏發(fā)電效率的應(yīng)用研究

    關(guān)鍵變量,通過仿真評(píng)估采光充足度(sDA)、眩光空間自主率(sGA)和光伏發(fā)電效率(EP_e)并尋找帕累托最優(yōu)解。最后采用K-means算法對(duì)結(jié)果進(jìn)行分析。Fl
    的頭像 發(fā)表于 07-22 09:52 ?2490次閱讀
    光伏建筑一體化BIPV:透射率與光伏發(fā)電效率的應(yīng)用研究

    k210在線訓(xùn)練的算法是yolo5嗎?

    k210在線訓(xùn)練的算法是yolo5嗎
    發(fā)表于 06-16 08:25

    從入門到精通:工業(yè)平板電腦排行榜前十名徽選購(gòu)指南

    與森克廠家,從多維度提供選購(gòu)指南,助力您精準(zhǔn)匹配需求,做出明智決策。 一、徽:定制化與技術(shù)實(shí)力的代表 (一)產(chǎn)品矩陣豐富多元 徽構(gòu)建了龐大且豐富的產(chǎn)品矩陣,涵蓋工控一體機(jī)、三防平板電腦以及智慧工廠 MES&ESOP 配套
    的頭像 發(fā)表于 05-15 13:32 ?1528次閱讀