chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習算法的無監(jiān)督學習的詳細介紹

lviY_AI_shequ ? 來源:未知 ? 作者:易水寒 ? 2018-05-01 17:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

????Content:

9.1 Supervised Learning and Unsupervised Learning

9.2 K-means algorithm

9.3 Optimization objective

9.4 Random Initialization

9.5 Choosing the Number of Clusters

9.1 Supervised Learning and Unsupervised Learning

我們已經學習了許多機器學習算法,包括線性回歸,Logistic回歸,神經網絡以及支持向量機。這些算法都有一個共同點,即給出的訓練樣本自身帶有標記。比如,使用線性回歸預測房價時,我們所使用的每一個訓練樣本是一個或多個變量(如面積,樓層等)以及自身帶有的標記即房價。而使用Logistic回歸,神經網絡和支持向量機處理分類問題時,也是利用訓練樣本自身帶有標記即種類,例如進行垃圾郵件分類時是利用已有的垃圾郵件(標記為1)和非垃圾郵件(標記為0),進行數(shù)字識別時,變量是每個像素點的值,而標記是數(shù)字本身的值。我們把使用帶有標記的訓練樣本進行學習的算法稱為監(jiān)督學習(Supervised Learning)。監(jiān)督學習的訓練樣本可以統(tǒng)一成如下形式,其中x為變量,y為標記。

顯然,現(xiàn)實生活中不是所有數(shù)據(jù)都帶有標記(或者說標記是未知的)。所以我們需要對無標記的訓練樣本進行學習,來揭示數(shù)據(jù)的內在性質及規(guī)律。我們把這種學習稱為無監(jiān)督學習(Unsupervised Learning)。所以,無監(jiān)督學習的訓練樣本如下形式,它僅包含特征量。

圖9-1形象的表示了監(jiān)督學習與無監(jiān)督學習的區(qū)別。圖(1)表示給帶標記的樣本進行分類,分界線兩邊為不同的類(一類為圈,另一類為叉);圖(2)是基于變量x1和x2對無標記的樣本(表面上看起來都是圈)進行聚類(Clustering)。

機器學習算法的無監(jiān)督學習的詳細介紹

圖9-1 一個監(jiān)督學習與無監(jiān)督學習的區(qū)別實例

無監(jiān)督學習也有很多應用,一個聚類的例子是:對于收集到的論文,根據(jù)每個論文的特征量如詞頻,句子長,頁數(shù)等進行分組。聚類還有許多其它應用,如圖9-2所示。一個非聚類的例子是雞尾酒會算法,即從帶有噪音的數(shù)據(jù)中找到有效數(shù)據(jù)(信息),例如在嘈雜的雞尾酒會你仍然可以注意到有人叫你。所以雞尾酒會算法可以用于語音識別(詳見wikipedia)。

quora上有更多關于監(jiān)督學習與無監(jiān)督學習之間的區(qū)別的討論。

機器學習算法的無監(jiān)督學習的詳細介紹

圖9-2 一些聚類的應用

9.2 K-means algorithm

聚類的基本思想是將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為一個"簇"(cluster)。劃分后,每個簇可能有對應的概念(性質),比如根據(jù)頁數(shù),句長等特征量給論文做簇數(shù)為2的聚類,可能得到一個大部分是包含碩士畢業(yè)論文的簇,另一個大部分是包含學士畢業(yè)論文的簇。

K均值(K-means)算法是一個廣泛使用的用于簇劃分的算法。下面說明K均值算法的步驟:

隨機初始化K個樣本(點),稱之為簇中心(cluster centroids);

簇分配: 對于所有的樣本,將其分配給離它最近的簇中心;

移動簇中心:對于每一個簇,計算屬于該簇的所有樣本的平均值,移動簇中心到平均值處;

重復步驟2和3,直到找到我們想要的簇(即優(yōu)化目標,詳解下節(jié)9.3)

圖9-3演示了以特征量個數(shù)和簇數(shù)K均為2的情況。

機器學習算法的無監(jiān)督學習的詳細介紹

圖9-3 K均值算法的演示

通過上述描述,下面我們形式化K均值算法。

輸入:

K (number of clusters)

Training set

算法:

Randomly initialize K cluster centroids

Repeat {

for i = 1 to m

for k = 1 to K

}

上述算法中,第一個循環(huán)對應了簇分配的步驟:我們構造向量c,使得c(i)的值等于x(i)所屬簇的索引,即離x(i)最近簇中心的索引。用數(shù)學的方式表示如下:

第二個循環(huán)對應移動簇中心的步驟,即移動簇中心到該簇的平均值處。更數(shù)學的方式表示如下:

其中

如果有一個簇中心沒有分配到一個樣本,我們既可以重新初始化這個簇中心,也可以直接將其去除。

經過若干次迭代后,該算法將會收斂,也就是繼續(xù)迭代不會再影響簇的情況。

在某些應用中,樣本可能比較連續(xù),看起來沒有明顯的簇劃分,但是我們還是可以用K均值算法將樣本分為K個子集供參考。例如根據(jù)人的身高和體重劃分T恤的大小碼,如圖9-4所示。

圖9-4K-means for non-separated clusters

9.3 Optimization objective

重新描述在K均值算法中使用的變量:

使用這些變量,定義我們的cost function如下:

所以我們的優(yōu)化目標就是

結合9.2節(jié)所描述的算法,可以發(fā)現(xiàn):

在簇分配步驟中,我們的目標是通過改變

在移動簇中心步驟中,我們的目標通過改變

注意,在K均值算法中,cost function不可能能增加,它應該總是下降的(區(qū)別于梯度下降法)。

9.4 Random Initialization

下面介紹一種值得推薦的初始化簇中心的方法。

確保K < m,也就是確保簇的數(shù)量應該小于樣本數(shù);

隨機選擇K個訓練樣本;

令K個簇中心

K均值算法可能陷入局部最優(yōu)。為了減少這種情況的發(fā)生,我們可以基于隨機初始化,多次運行K均值算法。所以,算法變成如下形式(以運行100次為例:效率與準確性的tradeoff)

For i = 1 to 100 {

Randomly initialize K-means.

Run K-means. Get

Compute cost function (distortion)

}

Pick clustering that gave lowest cost

9.5 Choosing the Number of Clusters

選擇K的取值通常是主觀的,不明確的。也就是沒有一種方式確保K的某個取值一定優(yōu)于其他取值。但是,有一些方法可供參考。

The elbow method: 畫出代價J關于簇數(shù)K的函數(shù)圖,J值應該隨著K的增加而減小,然后趨于平緩,選擇當J開始趨于平衡時的K的取值。如圖9-5的(1)所示。

但是,通常這條曲線是漸變的,沒有很顯然的"肘部"。如圖9-5的(2)所示。

機器學習算法的無監(jiān)督學習的詳細介紹

圖9-5 代價J關于簇數(shù)K的曲線圖

注意:隨著K的增加J應該總是減少的,否則,一種出錯情況可能是K均值陷入了一個糟糕的局部最優(yōu)。

一些其他的方法參見wikipedia。

當然,我們有時應該根據(jù)后續(xù)目的( later/downstream purpose )來確定K的取值。還是以根據(jù)人的身高和體重劃分T恤的大小碼為例,若我們想將T恤大小劃分為S/M/L這3種類型,那么K的取值應為3;若想要劃分為XS/S/M/L/XL這5種類型,那么K的取值應為5。如圖9-6所示。

機器學習算法的無監(jiān)督學習的詳細介紹

圖9-6 劃分T恤size的兩種不同情況

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:Stanford機器學習筆記-9. 聚類(Clustering)

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關注數(shù)據(jù)、模型架構
    的頭像 發(fā)表于 01-07 15:37 ?107次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統(tǒng)視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 監(jiān)督學習:無需缺陷樣本即可訓練高精度檢測模型 持續(xù)更新:
    發(fā)表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課程(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統(tǒng)視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 監(jiān)督學習:無需缺陷樣本即可訓練高精度檢測模型 持續(xù)更新:
    發(fā)表于 12-03 13:50

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一個動作,然后環(huán)境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督學習不同,強化學習沒有一一對應的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來發(fā)現(xiàn)
    的頭像 發(fā)表于 10-23 09:00 ?525次閱讀
    自動駕駛中常提的“強化<b class='flag-5'>學習</b>”是個啥?

    PID控制算法學習筆記資料

    用于新手學習PID控制算法。
    發(fā)表于 08-12 16:22 ?7次下載

    FPGA在機器學習中的具體應用

    ,越來越多地被應用于機器學習任務中。本文將探討 FPGA 在機器學習中的應用,特別是在加速神經網絡推理、優(yōu)化算法和提升處理效率方面的優(yōu)勢。
    的頭像 發(fā)表于 07-16 15:34 ?2766次閱讀

    任正非說 AI已經確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    的基本理論。了解監(jiān)督學習、監(jiān)督學習和強化學習的基本原理。例如,在監(jiān)督學習中,理解如何通過標注數(shù)據(jù)來訓練模型進行分類或回歸任務,像通過大量的
    發(fā)表于 07-08 17:44

    機器學習異常檢測實戰(zhàn):用Isolation Forest快速構建標簽異常檢測系統(tǒng)

    本文轉自:DeepHubIMBA監(jiān)督異常檢測作為機器學習領域的重要分支,專門用于在缺乏標記數(shù)據(jù)的環(huán)境中識別異常事件。本文深入探討異常檢測技術的理論基礎與實踐應用,通過Isolatio
    的頭像 發(fā)表于 06-24 11:40 ?1296次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>異常檢測實戰(zhàn):用Isolation Forest快速構建<b class='flag-5'>無</b>標簽異常檢測系統(tǒng)

    使用MATLAB進行監(jiān)督學習

    監(jiān)督學習是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學習方法。監(jiān)督學習旨在識別數(shù)據(jù)中隱藏的模式和關系,
    的頭像 發(fā)表于 05-16 14:48 ?1320次閱讀
    使用MATLAB進行<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督學習</b>

    【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎算法的應用

    : 一、機器人視覺:從理論到實踐 第7章詳細介紹了ROS2在機器視覺領域的應用,涵蓋了相機標定、OpenCV集成、視覺巡線、二維碼識別以及深度學習
    發(fā)表于 05-03 19:41

    十大鮮為人知卻功能強大的機器學習模型

    本文轉自:QuantML當我們談論機器學習時,線性回歸、決策樹和神經網絡這些常見的算法往往占據(jù)了主導地位。然而,除了這些眾所周知的模型之外,還存在一些鮮為人知但功能強大的算法,它們能夠
    的頭像 發(fā)表于 04-02 14:10 ?1009次閱讀
    十大鮮為人知卻功能強大的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>模型

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場
    的頭像 發(fā)表于 02-13 09:39 ?688次閱讀

    BP神經網絡與深度學習的關系

    ),是一種多層前饋神經網絡,它通過反向傳播算法進行訓練。BP神經網絡由輸入層、一個或多個隱藏層和輸出層組成,通過逐層遞減的方式調整網絡權重,目的是最小化網絡的輸出誤差。 二、深度學習的定義與發(fā)展 深度學習
    的頭像 發(fā)表于 02-12 15:15 ?1605次閱讀

    嵌入式機器學習的應用特性與軟件開發(fā)環(huán)境

    設備和智能傳感器)上,這些設備通常具有有限的計算能力、存儲空間和功耗。本文將您介紹嵌入式機器學習的應用特性,以及常見的機器學習開發(fā)軟件與開發(fā)
    的頭像 發(fā)表于 01-25 17:05 ?1400次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的應用特性與軟件開發(fā)環(huán)境