chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

lviY_AI_shequ ? 來(lái)源:未知 ? 作者:易水寒 ? 2018-05-01 17:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

????Content:

9.1 Supervised Learning and Unsupervised Learning

9.2 K-means algorithm

9.3 Optimization objective

9.4 Random Initialization

9.5 Choosing the Number of Clusters

9.1 Supervised Learning and Unsupervised Learning

我們已經(jīng)學(xué)習(xí)了許多機(jī)器學(xué)習(xí)算法,包括線性回歸,Logistic回歸,神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)。這些算法都有一個(gè)共同點(diǎn),即給出的訓(xùn)練樣本自身帶有標(biāo)記。比如,使用線性回歸預(yù)測(cè)房?jī)r(jià)時(shí),我們所使用的每一個(gè)訓(xùn)練樣本是一個(gè)或多個(gè)變量(如面積,樓層等)以及自身帶有的標(biāo)記即房?jī)r(jià)。而使用Logistic回歸,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)處理分類(lèi)問(wèn)題時(shí),也是利用訓(xùn)練樣本自身帶有標(biāo)記即種類(lèi),例如進(jìn)行垃圾郵件分類(lèi)時(shí)是利用已有的垃圾郵件(標(biāo)記為1)和非垃圾郵件(標(biāo)記為0),進(jìn)行數(shù)字識(shí)別時(shí),變量是每個(gè)像素點(diǎn)的值,而標(biāo)記是數(shù)字本身的值。我們把使用帶有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)的算法稱(chēng)為監(jiān)督學(xué)習(xí)(Supervised Learning)。監(jiān)督學(xué)習(xí)的訓(xùn)練樣本可以統(tǒng)一成如下形式,其中x為變量,y為標(biāo)記。

顯然,現(xiàn)實(shí)生活中不是所有數(shù)據(jù)都帶有標(biāo)記(或者說(shuō)標(biāo)記是未知的)。所以我們需要對(duì)無(wú)標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí),來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律。我們把這種學(xué)習(xí)稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)。所以,無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練樣本如下形式,它僅包含特征量。

圖9-1形象的表示了監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的區(qū)別。圖(1)表示給帶標(biāo)記的樣本進(jìn)行分類(lèi),分界線兩邊為不同的類(lèi)(一類(lèi)為圈,另一類(lèi)為叉);圖(2)是基于變量x1和x2對(duì)無(wú)標(biāo)記的樣本(表面上看起來(lái)都是圈)進(jìn)行聚類(lèi)(Clustering)。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-1 一個(gè)監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的區(qū)別實(shí)例

無(wú)監(jiān)督學(xué)習(xí)也有很多應(yīng)用,一個(gè)聚類(lèi)的例子是:對(duì)于收集到的論文,根據(jù)每個(gè)論文的特征量如詞頻,句子長(zhǎng),頁(yè)數(shù)等進(jìn)行分組。聚類(lèi)還有許多其它應(yīng)用,如圖9-2所示。一個(gè)非聚類(lèi)的例子是雞尾酒會(huì)算法,即從帶有噪音的數(shù)據(jù)中找到有效數(shù)據(jù)(信息),例如在嘈雜的雞尾酒會(huì)你仍然可以注意到有人叫你。所以雞尾酒會(huì)算法可以用于語(yǔ)音識(shí)別(詳見(jiàn)wikipedia)。

quora上有更多關(guān)于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的區(qū)別的討論。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-2 一些聚類(lèi)的應(yīng)用

9.2 K-means algorithm

聚類(lèi)的基本思想是將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱(chēng)為一個(gè)"簇"(cluster)。劃分后,每個(gè)簇可能有對(duì)應(yīng)的概念(性質(zhì)),比如根據(jù)頁(yè)數(shù),句長(zhǎng)等特征量給論文做簇?cái)?shù)為2的聚類(lèi),可能得到一個(gè)大部分是包含碩士畢業(yè)論文的簇,另一個(gè)大部分是包含學(xué)士畢業(yè)論文的簇。

K均值(K-means)算法是一個(gè)廣泛使用的用于簇劃分的算法。下面說(shuō)明K均值算法的步驟:

隨機(jī)初始化K個(gè)樣本(點(diǎn)),稱(chēng)之為簇中心(cluster centroids);

簇分配: 對(duì)于所有的樣本,將其分配給離它最近的簇中心;

移動(dòng)簇中心:對(duì)于每一個(gè)簇,計(jì)算屬于該簇的所有樣本的平均值,移動(dòng)簇中心到平均值處;

重復(fù)步驟2和3,直到找到我們想要的簇(即優(yōu)化目標(biāo),詳解下節(jié)9.3)

圖9-3演示了以特征量個(gè)數(shù)和簇?cái)?shù)K均為2的情況。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-3 K均值算法的演示

通過(guò)上述描述,下面我們形式化K均值算法。

輸入:

K (number of clusters)

Training set

算法:

Randomly initialize K cluster centroids

Repeat {

for i = 1 to m

for k = 1 to K

}

上述算法中,第一個(gè)循環(huán)對(duì)應(yīng)了簇分配的步驟:我們構(gòu)造向量c,使得c(i)的值等于x(i)所屬簇的索引,即離x(i)最近簇中心的索引。用數(shù)學(xué)的方式表示如下:

第二個(gè)循環(huán)對(duì)應(yīng)移動(dòng)簇中心的步驟,即移動(dòng)簇中心到該簇的平均值處。更數(shù)學(xué)的方式表示如下:

其中

如果有一個(gè)簇中心沒(méi)有分配到一個(gè)樣本,我們既可以重新初始化這個(gè)簇中心,也可以直接將其去除。

經(jīng)過(guò)若干次迭代后,該算法將會(huì)收斂,也就是繼續(xù)迭代不會(huì)再影響簇的情況。

在某些應(yīng)用中,樣本可能比較連續(xù),看起來(lái)沒(méi)有明顯的簇劃分,但是我們還是可以用K均值算法將樣本分為K個(gè)子集供參考。例如根據(jù)人的身高和體重劃分T恤的大小碼,如圖9-4所示。

圖9-4K-means for non-separated clusters

9.3 Optimization objective

重新描述在K均值算法中使用的變量:

使用這些變量,定義我們的cost function如下:

所以我們的優(yōu)化目標(biāo)就是

結(jié)合9.2節(jié)所描述的算法,可以發(fā)現(xiàn):

在簇分配步驟中,我們的目標(biāo)是通過(guò)改變

在移動(dòng)簇中心步驟中,我們的目標(biāo)通過(guò)改變

注意,在K均值算法中,cost function不可能能增加,它應(yīng)該總是下降的(區(qū)別于梯度下降法)。

9.4 Random Initialization

下面介紹一種值得推薦的初始化簇中心的方法。

確保K < m,也就是確保簇的數(shù)量應(yīng)該小于樣本數(shù);

隨機(jī)選擇K個(gè)訓(xùn)練樣本;

令K個(gè)簇中心

K均值算法可能陷入局部最優(yōu)。為了減少這種情況的發(fā)生,我們可以基于隨機(jī)初始化,多次運(yùn)行K均值算法。所以,算法變成如下形式(以運(yùn)行100次為例:效率與準(zhǔn)確性的tradeoff)

For i = 1 to 100 {

Randomly initialize K-means.

Run K-means. Get

Compute cost function (distortion)

}

Pick clustering that gave lowest cost

9.5 Choosing the Number of Clusters

選擇K的取值通常是主觀的,不明確的。也就是沒(méi)有一種方式確保K的某個(gè)取值一定優(yōu)于其他取值。但是,有一些方法可供參考。

The elbow method: 畫(huà)出代價(jià)J關(guān)于簇?cái)?shù)K的函數(shù)圖,J值應(yīng)該隨著K的增加而減小,然后趨于平緩,選擇當(dāng)J開(kāi)始趨于平衡時(shí)的K的取值。如圖9-5的(1)所示。

但是,通常這條曲線是漸變的,沒(méi)有很顯然的"肘部"。如圖9-5的(2)所示。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-5 代價(jià)J關(guān)于簇?cái)?shù)K的曲線圖

注意:隨著K的增加J應(yīng)該總是減少的,否則,一種出錯(cuò)情況可能是K均值陷入了一個(gè)糟糕的局部最優(yōu)。

一些其他的方法參見(jiàn)wikipedia。

當(dāng)然,我們有時(shí)應(yīng)該根據(jù)后續(xù)目的( later/downstream purpose )來(lái)確定K的取值。還是以根據(jù)人的身高和體重劃分T恤的大小碼為例,若我們想將T恤大小劃分為S/M/L這3種類(lèi)型,那么K的取值應(yīng)為3;若想要?jiǎng)澐譃閄S/S/M/L/XL這5種類(lèi)型,那么K的取值應(yīng)為5。如圖9-6所示。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-6 劃分T恤size的兩種不同情況

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Stanford機(jī)器學(xué)習(xí)筆記-9. 聚類(lèi)(Clustering)

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    下,就是一個(gè)智能體在環(huán)境里行動(dòng),它能觀察到環(huán)境的一些信息,并做出一個(gè)動(dòng)作,然后環(huán)境會(huì)給出一個(gè)反饋(獎(jiǎng)勵(lì)或懲罰),智能體的目標(biāo)是把長(zhǎng)期得到的獎(jiǎng)勵(lì)累積到最大。和監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)沒(méi)有一一對(duì)應(yīng)的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來(lái)發(fā)現(xiàn)
    的頭像 發(fā)表于 10-23 09:00 ?305次閱讀
    自動(dòng)駕駛中常提的“強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>”是個(gè)啥?

    PID控制算法學(xué)習(xí)筆記資料

    用于新手學(xué)習(xí)PID控制算法。
    發(fā)表于 08-12 16:22 ?7次下載

    FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用

    ,越來(lái)越多地被應(yīng)用于機(jī)器學(xué)習(xí)任務(wù)中。本文將探討 FPGA 在機(jī)器學(xué)習(xí)中的應(yīng)用,特別是在加速神經(jīng)網(wǎng)絡(luò)推理、優(yōu)化算法和提升處理效率方面的優(yōu)勢(shì)。
    的頭像 發(fā)表于 07-16 15:34 ?2603次閱讀

    任正非說(shuō) AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進(jìn)來(lái)呢?

    的基本理論。了解監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的基本原理。例如,在監(jiān)督學(xué)習(xí)中,理解如何通過(guò)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型進(jìn)行分類(lèi)或回歸任務(wù),像通過(guò)大量的
    發(fā)表于 07-08 17:44

    機(jī)器學(xué)習(xí)異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無(wú)標(biāo)簽異常檢測(cè)系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA無(wú)監(jiān)督異常檢測(cè)作為機(jī)器學(xué)習(xí)領(lǐng)域的重要分支,專(zhuān)門(mén)用于在缺乏標(biāo)記數(shù)據(jù)的環(huán)境中識(shí)別異常事件。本文深入探討異常檢測(cè)技術(shù)的理論基礎(chǔ)與實(shí)踐應(yīng)用,通過(guò)Isolatio
    的頭像 發(fā)表于 06-24 11:40 ?1185次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建<b class='flag-5'>無(wú)</b>標(biāo)簽異常檢測(cè)系統(tǒng)

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,
    的頭像 發(fā)表于 05-16 14:48 ?1155次閱讀
    使用MATLAB進(jìn)行<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    : 一、機(jī)器人視覺(jué):從理論到實(shí)踐 第7章詳細(xì)介紹了ROS2在機(jī)器視覺(jué)領(lǐng)域的應(yīng)用,涵蓋了相機(jī)標(biāo)定、OpenCV集成、視覺(jué)巡線、二維碼識(shí)別以及深度學(xué)習(xí)
    發(fā)表于 05-03 19:41

    請(qǐng)問(wèn)STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?

    STM32部署機(jī)器學(xué)習(xí)算法硬件至少要使用哪個(gè)系列的芯片?
    發(fā)表于 03-13 07:34

    機(jī)器學(xué)習(xí)模型市場(chǎng)前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長(zhǎng)以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場(chǎng)前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)模型市場(chǎng)
    的頭像 發(fā)表于 02-13 09:39 ?607次閱讀

    嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性與軟件開(kāi)發(fā)環(huán)境

    設(shè)備和智能傳感器)上,這些設(shè)備通常具有有限的計(jì)算能力、存儲(chǔ)空間和功耗。本文將您介紹嵌入式機(jī)器學(xué)習(xí)的應(yīng)用特性,以及常見(jiàn)的機(jī)器學(xué)習(xí)開(kāi)發(fā)軟件與開(kāi)發(fā)
    的頭像 發(fā)表于 01-25 17:05 ?1187次閱讀
    嵌入式<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的應(yīng)用特性與軟件開(kāi)發(fā)環(huán)境

    華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook,學(xué)習(xí) AI,機(jī)器學(xué)習(xí)算法

    前言 由于本人最近在學(xué)習(xí)一些機(jī)器算法,AI 算法的知識(shí),需要搭建一個(gè)學(xué)習(xí)環(huán)境,所以就在最近購(gòu)買(mǎi)的華為云 Flexus X 實(shí)例上安裝了
    的頭像 發(fā)表于 01-02 13:43 ?852次閱讀
    華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook,<b class='flag-5'>學(xué)習(xí)</b> AI,<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>算法</b>

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語(yǔ)。在本文中,我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多
    的頭像 發(fā)表于 12-30 09:16 ?1955次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書(shū)概覽與第一章學(xué)習(xí)

    了解具身智能機(jī)器人相關(guān)的知識(shí),我感到十分榮幸和幸運(yùn)。 全書(shū)簡(jiǎn)介 本書(shū)以循序漸進(jìn)的方式展開(kāi),通過(guò)對(duì)具身智能機(jī)器人技術(shù)的全方位解析,幫助讀者系統(tǒng)化地學(xué)習(xí)這一領(lǐng)域的核心知識(shí)。 首先在第一部分,介紹
    發(fā)表于 12-27 14:50

    如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)

    當(dāng)今,云原生機(jī)器學(xué)習(xí)平臺(tái)因其彈性擴(kuò)展、高效部署、低成本運(yùn)營(yíng)等優(yōu)勢(shì),逐漸成為企業(yè)構(gòu)建和部署機(jī)器學(xué)習(xí)應(yīng)用的首選。然而,市場(chǎng)上的云原生機(jī)器
    的頭像 發(fā)表于 12-25 11:54 ?682次閱讀

    zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    在探討ZETA在機(jī)器學(xué)習(xí)中的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時(shí),需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析: 一、ZETA在機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 12-20 09:11 ?1598次閱讀