chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

K-means的優(yōu)缺點(diǎn)及改進(jìn)

倩倩 ? 來源:網(wǎng)絡(luò)整理 ? 2018-02-12 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價(jià)指標(biāo),即認(rèn)為兩個(gè)對象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。

k個(gè)初始類聚類中心點(diǎn)的選取對聚類結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意k個(gè)對象作為初始聚類的中心,初始地代表一個(gè)簇。該算法在每次迭代中對數(shù)據(jù)集中剩余的每個(gè)對象,根據(jù)其與各個(gè)簇中心的距離將每個(gè)對象重新賦給最近的簇。當(dāng)考察完所有數(shù)據(jù)對象后,一次迭代運(yùn)算完成,新的聚類中心被計(jì)算出來。如果在一次迭代前后,J的值沒有發(fā)生變化,說明算法已經(jīng)收斂。

K-means的優(yōu)缺點(diǎn)及改進(jìn)

算法過程如下:

1)從N個(gè)文檔隨機(jī)選取K個(gè)文檔作為質(zhì)心

2)對剩余的每個(gè)文檔測量其到每個(gè)質(zhì)心的距離,并把它歸到最近的質(zhì)心的類

3)重新計(jì)算已經(jīng)得到的各個(gè)類的質(zhì)心

4)迭代2~3步直至新的質(zhì)心與原質(zhì)心相等或小于指定閾值,算法結(jié)束

具體如下:

輸入:k, data[n];

(1) 選擇k個(gè)初始中心點(diǎn),例如c[0]=data[0],…c[k-1]=data[k-1];

(2) 對于data[0]….data[n],分別與c[0]…c[k-1]比較,假定與c[i]差值最少,就標(biāo)記為i;

(3) 對于所有標(biāo)記為i點(diǎn),重新計(jì)算c[i]={ 所有標(biāo)記為i的data[j]之和}/標(biāo)記為i的個(gè)數(shù);

(4) 重復(fù)(2)(3),直到所有c[i]值的變化小于給定閾值。

K-means的優(yōu)缺點(diǎn)及改進(jìn)

Kmeans算法的優(yōu)缺點(diǎn)

K-means算法的優(yōu)點(diǎn)是:首先,算法能根據(jù)較少的已知聚類樣本的類別對樹進(jìn)行剪枝確定部分樣本的分類;其次,為克服少量樣本聚類的不準(zhǔn)確性,該算法本身具有優(yōu)化迭代功能,在已經(jīng)求得的聚類上再次進(jìn)行迭代修正剪枝確定部分樣本的聚類,優(yōu)化了初始監(jiān)督學(xué)習(xí)樣本分類不合理的地方;第三,由于只是針對部分小樣本可以降低總的聚類時(shí)間復(fù)雜度。

K-means算法的缺點(diǎn)是:首先,在 K-means 算法中 K 是事先給定的,這個(gè) K 值的選定是非常難以估計(jì)的。很多時(shí)候,事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)類別才最合適;其次,在 K-means 算法中,首先需要根據(jù)初始聚類中心來確定一個(gè)初始劃分,然后對初始劃分進(jìn)行優(yōu)化。這個(gè)初始聚類中心的選擇對聚類結(jié)果有較大的影響,一旦初始值選擇的不好,可能無法得到有效的聚類結(jié)果;最后,該算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計(jì)算調(diào)整后的新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開銷是非常大的。

K-means算法對于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。解決方法:

1.多設(shè)置一些不同的初值,對比最后的運(yùn)算結(jié)果,一直到結(jié)果趨于穩(wěn)定結(jié)束

2.很多時(shí)候,事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個(gè)類別才最合適。通過類的自動(dòng)合并和分裂,得到較為合理的類型數(shù)目 K,例如 ISODATA 算法。

K-means算法的其他改進(jìn)算法如下:

1. k-modes 算法:實(shí)現(xiàn)對離散數(shù)據(jù)的快速聚類,保留了k-means算法的效率同時(shí)將k-means的應(yīng)用范圍擴(kuò)大到離散數(shù)據(jù)。

2. k-Prototype算法:可以對離散與數(shù)值屬性兩種混合的數(shù)據(jù)進(jìn)行聚類,在k-prototype中定義了一個(gè)對數(shù)值與離散屬性都計(jì)算的相異性度量標(biāo)準(zhǔn)。

K-means的優(yōu)缺點(diǎn)及改進(jìn)

大家接觸的第一個(gè)聚類方法,十有八九都是K-means聚類啦。該算法十分容易理解,也很容易實(shí)現(xiàn)。其實(shí)幾乎所有的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法都有其優(yōu)點(diǎn)和缺點(diǎn)。

(1)對于離群點(diǎn)和孤立點(diǎn)敏感;

(2)k值選擇;

(3)初始聚類中心的選擇;

(4)只能發(fā)現(xiàn)球狀簇。

對于這4點(diǎn)呢的原因,讀者可以自行思考下,不難理解。針對上述四個(gè)缺點(diǎn),依次介紹改進(jìn)措施。

改進(jìn)1

首先針對(1),對于離群點(diǎn)和孤立點(diǎn)敏感,如何解決?提到過離群點(diǎn)檢測的LOF算法,通過去除離群點(diǎn)后再聚類,可以減少離群點(diǎn)和孤立點(diǎn)對于聚類效果的影響。

改進(jìn)2

k值的選擇問題,在安徽大學(xué)李芳的碩士論文中提到了k-Means算法的k值自適應(yīng)優(yōu)化方法。下面將針對該方法進(jìn)行總結(jié)。

首先該算法針對K-means算法的以下主要缺點(diǎn)進(jìn)行了改進(jìn):

1)必須首先給出k(要生成的簇的數(shù)目),k值很難選擇。事先并不知道給定的數(shù)據(jù)應(yīng)該被分成什么類別才是最優(yōu)的。

2)初始聚類中心的選擇是K-means的一個(gè)問題。

李芳設(shè)計(jì)的算法思路是這樣的:可以通過在一開始給定一個(gè)適合的數(shù)值給k,通過一次K-means算法得到一次聚類中心。對于得到的聚類中心,根據(jù)得到的k個(gè)聚類的距離情況,合并距離最近的類,因此聚類中心數(shù)減小,當(dāng)將其用于下次聚類時(shí),相應(yīng)的聚類數(shù)目也減小了,最終得到合適數(shù)目的聚類數(shù)??梢酝ㄟ^一個(gè)評判值E來確定聚類數(shù)得到一個(gè)合適的位置停下來,而不繼續(xù)合并聚類中心。重復(fù)上述循環(huán),直至評判函數(shù)收斂為止,最終得到較優(yōu)聚類數(shù)的聚類結(jié)果。

改進(jìn)3

對初始聚類中心的選擇的優(yōu)化。一句話概括為:選擇批次距離盡可能遠(yuǎn)的K個(gè)點(diǎn)。具體選擇步驟如下。

首先隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始類簇中心點(diǎn),然后選擇距離該點(diǎn)最遠(yuǎn)的那個(gè)點(diǎn)作為第二個(gè)初始類簇中心點(diǎn),然后再選擇距離前兩個(gè)點(diǎn)的最近距離最大的點(diǎn)作為第三個(gè)初始類簇的中心點(diǎn),以此類推,直至選出K個(gè)初始類簇中心點(diǎn)。

對于該問題還有個(gè)解決方案。之前我也使用過。熟悉weka的同學(xué)應(yīng)該知道weka中的聚類有一個(gè)算法叫Canopy算法。

選用層次聚類或者Canopy算法進(jìn)行初始聚類,然后利用這些類簇的中心點(diǎn)作為KMeans算法初始類簇中心點(diǎn)。該方法對于k值的選擇也是十分有效的。

改進(jìn)4

只能獲取球狀簇的根本原因在于,距離度量的方式。在李薈嬈的碩士論文K_means聚類方法的改進(jìn)及其應(yīng)用中提到了基于2種測度的改進(jìn),改進(jìn)后,可以去發(fā)現(xiàn)非負(fù)、類橢圓形的數(shù)據(jù)。但是對于這一改進(jìn),個(gè)人認(rèn)為,并沒有很好的解決K-means在這一缺點(diǎn)的問題,如果數(shù)據(jù)集中有不規(guī)則的數(shù)據(jù),往往通過基于密度的聚類算法更加適合,比如DESCAN算法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 聚類算法
    +關(guān)注

    關(guān)注

    2

    文章

    118

    瀏覽量

    12448
  • K-means
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    11649
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用K-means壓縮圖像

    山東大學(xué)機(jī)器學(xué)習(xí)(實(shí)驗(yàn)六內(nèi)容)—— K-Means
    發(fā)表于 08-28 09:25

    調(diào)用sklearn使用的k-means模型

    【python】調(diào)用sklearn使用k-means模型
    發(fā)表于 06-12 13:33

    K-Means有什么優(yōu)缺點(diǎn)?

    K-Means的主要優(yōu)點(diǎn)是什么?K-Means的主要缺點(diǎn)是什么?
    發(fā)表于 06-10 06:14

    改進(jìn)k-means聚類算法在供電企業(yè)CRM中的應(yīng)用

    針對k-means算法存在的不足,提出了一種改進(jìn)算法。 針對目前供電企業(yè)CRM系統(tǒng)的特點(diǎn)提出了用聚類分析方法進(jìn)行客戶群細(xì)分模型設(shè)計(jì),通過實(shí)驗(yàn)驗(yàn)證了本文提出的k-means改進(jìn)算法的高效
    發(fā)表于 03-01 15:28 ?15次下載

    Web文檔聚類中k-means算法的改進(jìn)

    Web文檔聚類中k-means算法的改進(jìn) 介紹了Web文檔聚類中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空間模型和基于距離的相似性度量的局限性,
    發(fā)表于 09-19 09:17 ?1196次閱讀
    Web文檔聚類中<b class='flag-5'>k-means</b>算法的<b class='flag-5'>改進(jìn)</b>

    基于Hash改進(jìn)k-means算法并行化設(shè)計(jì)

    挖掘其聚類關(guān)系,選取初始聚類中心,避免了傳統(tǒng)k-means算法對隨機(jī)選取初始聚類中心的敏感性,減少了k-means算法的迭代次數(shù)。又結(jié)合MapReduce框架將算法整體并行化,并通過Partition、Combine等機(jī)制加強(qiáng)了并行化程度和執(zhí)行效率。實(shí)驗(yàn)表明,該算法不僅提
    發(fā)表于 11-24 14:24 ?2次下載
    基于Hash<b class='flag-5'>改進(jìn)</b>的<b class='flag-5'>k-means</b>算法并行化設(shè)計(jì)

    基于密度的K-means算法在聚類數(shù)目中應(yīng)用

    針對傳統(tǒng)的K-means算法無法預(yù)先明確聚類數(shù)目,對初始聚類中心選取敏感且易受離群孤點(diǎn)影響導(dǎo)致聚類結(jié)果穩(wěn)定性和準(zhǔn)確性欠佳的問題,提出一種改進(jìn)的基于密度的K-means算法。該算法首先基于軌跡數(shù)據(jù)分布
    發(fā)表于 11-25 11:35 ?0次下載

    K-Means算法改進(jìn)及優(yōu)化

    局部最優(yōu)出現(xiàn)錯(cuò)誤的聚類結(jié)果。針對傳統(tǒng)的k-means算法初始聚類中心的缺點(diǎn),本文提出了p-K-means算法,該算法采用了數(shù)學(xué)幾何距離的方法改進(jìn)k-
    發(fā)表于 12-05 18:32 ?0次下載
    <b class='flag-5'>K-Means</b>算法<b class='flag-5'>改進(jìn)</b>及優(yōu)化

    基于布谷鳥搜索的K-means聚類算法

    針對原始K-means聚類算法受初始聚類中心影響過大以及容易陷入局部最優(yōu)的不足,提出一種基于改進(jìn)布谷鳥搜索(cs)的K-means聚類算法(ACS-K-means)。其中,自適應(yīng)CS(
    發(fā)表于 12-13 17:24 ?3次下載

    k-means算法原理解析

    對于K-Means算法,首先要注意的是k值的選擇,一般來說,我們會(huì)根據(jù)對數(shù)據(jù)的先驗(yàn)經(jīng)驗(yàn)選擇一個(gè)合適的k值,如果沒有什么先驗(yàn)知識(shí),則可以通過交叉驗(yàn)證選擇一個(gè)合適的k值。
    的頭像 發(fā)表于 02-12 16:06 ?8759次閱讀
    <b class='flag-5'>k-means</b>算法原理解析

    基于改進(jìn)k-means算法的MANET異常檢測方法

    針對移動(dòng)自組網(wǎng)( MANET,mobile ad hoc networks)入侵檢測過程中的攻擊類型多樣性和監(jiān)測數(shù)據(jù)海量性問題,提出了一種基于改進(jìn)k-means算法的MANET異常檢測方法。通過引入
    發(fā)表于 03-06 15:18 ?0次下載

    K-Means算法的簡單介紹

    K-Means是十大經(jīng)典數(shù)據(jù)挖掘算法之一。K-Means和KNN(K鄰近)看上去都是K打頭,但卻是不同種類的算法。kNN是監(jiān)督學(xué)習(xí)中的分類算法,而K
    發(fā)表于 07-05 14:18 ?5324次閱讀

    如何使用K-Means聚類算法改進(jìn)的特征加權(quán)算法詳細(xì)資料概述

    聚類分析是將研究對象分為相對同質(zhì)的群組的統(tǒng)計(jì)分析技術(shù),聚類分析的核心就是發(fā)現(xiàn)有用的對象簇。K-means聚類算法由于具有出色的速度和良好的可擴(kuò)展性,一直備受廣大學(xué)者的關(guān)注。然而,傳統(tǒng)的K-means
    發(fā)表于 12-20 10:28 ?10次下載

    K-MEANS聚類算法概述及工作原理

    K-means 是一種聚類算法,且對于數(shù)據(jù)科學(xué)家而言,是簡單且熱門的無監(jiān)督式機(jī)器學(xué)習(xí)(ML)算法之一。
    的頭像 發(fā)表于 06-06 11:53 ?4896次閱讀

    K-means聚類算法指南

    在聚類技術(shù)領(lǐng)域中,K-means可能是最常見和經(jīng)常使用的技術(shù)之一。K-means使用迭代細(xì)化方法,基于用戶定義的集群數(shù)量(由變量K表示)和數(shù)據(jù)集來產(chǎn)生其最終聚類。例如,如果將K設(shè)置為3
    的頭像 發(fā)表于 10-28 14:25 ?2069次閱讀