非监督学习,Stanford机器学习笔记

聚类(Clustering)

在非监督学习中,训练样本的符号音讯是大惑不解的,指标通过对无标记练习样本的就学来公布数据的内在性质及规律,为更加的的多寡解析提供基础。此类学习职分中探讨最多、应用最广的是聚类(Clustering)。

聚类试图将数据汇总的范本划分为多少个平凡是不相交的子集,每一个子集称为一个簇。通过那样的划分,每一个簇恐怕对应部分隐衷的定义。需表明的是,那些概念对聚类算法来说事先是大惑不解的,聚类进度仅能自行变成簇结构,簇所对应的定义语义需由使用者来把握命名。

鉴于在学科中,吴恩达助教对这一个概念未有显明概念。故从周志华教师的《机器学习》一书中精选相关部分。

9. Clustering 

Content

  9. Clustering

    9.1 Supervised Learning and
Unsupervised Learning

    9.2 K-means algorithm

    9.3 Optimization
objective

    9.4 Random
Initialization

style=”font-size: 14px;”>    9.5 Choosing the Number of
Clusters  

K均值算法(K-means algorithm)

K均值算法是聚类算法中最常用的算法,该算法能将贰个无标识的多寡汇聚类成分歧的簇。

K均值算法是一个迭代算法,现如果锻练集为{x, … , x ∈
翼虎n;K表示簇的个数,则K均值算法的周转步骤如下:

  1. 专断行选购取K个点作为聚类大旨,记为μ1, μ2, … , μk,在那之中μi ∈Enclaven;
  2. 对于操练集中的每叁个数目,依据其至聚类中央的离开的深浅划分,将离某一个聚类中央距离最小的一密密麻麻数据归为一类;
  3. 测算每一个簇的平均值并将聚类核心移至平分值处;
  4. 重复步骤2~4直至聚类宗旨不再运动。

图片 1

9.1 Supervised Learning and Unsupervised Learning

咱俩早已学习了众多机器学习算法,包罗线性回归,Logistic回归,神经互联网以及援助向量机。那么些算法都有一个共同点,即给出的陶冶样本本身带有标记。譬喻,使用线性回归预测房价时,大家所选用的每八个演练样本是二个或多个变量(如面积,楼层等)以及自身带有的暗记即房价。而利用Logistic回归,神经互连网和支撑向量机管理分类难点时,也是运用训练样本本人带有标识即体系,比如实行垃圾邮件分类时是行使已某个垃圾邮件(标识为1)和非垃圾邮件(标志为0),实行数字识别时,变量是各类像素点的值,而标识是数字自个儿的值。大家把施用带有标识的磨练样本实行学习的算法称为监察学习(Supervised
Learning)
。监督学习的陶冶样本能够统十分之一如下情势,个中x为变量,y为标识。

图片 2

光天化日,现实生活中不是有所数据都包括标志(或然说标志是雾里看花的)。所以大家必要对无标记的锻练样本实行学习,来发表数据的内在性质及规律。大家把这种学习称为无监察和控制学习(Unsupervised
Learning)
。所以,无监控学习的磨炼样本如下形式,它仅满含特征量。

图片 3

图9-1印象的代表了监督学习与无监督学习的区分。图(1)表示给带标识的样本实行分类,分割线两侧为不一样的类(一类为圈,另一类为叉);图(2)是依据变量x1和x2对无标记的范本(表面上看起来都以圈)实行聚类(Clustering)

图片 4

图9-1 多个监督学习与无监察和控制学习的分别实例

无监察和控制学习也可能有不少施用,二个聚类的例证是:对于搜罗到的舆论,依据每种诗歌的特征量如词频,句子长,页数等展开分组。聚类还应该有为数不少别样应用,如图9-2所示。贰个非聚类的例子是果酒会算法,即从带有噪音的多少中找到有效数据(消息),举例在嘈杂的红酒会你还能小心到有人叫你。所以洋酒会算法能够用来语音识别(详见wikipedia)。

quora上有越来越多关于监督学习与无监督学习时期的界别的讨论。

图片 5

图9-2 一些聚类的应用

优化指标(Optimization Objective)

K均值算法最小化难点是将数总部与其所属的聚类核心之间的距离最小化,由此其代价函数J为:

图片 6

中间μc^表示与数根据地x距离最小的聚类宗旨。该代价函数也叫做Distortion
Function。

最小化代价函数的表明式为:

图片 7

在最小化代价函数的历程中,每三次迭代都在驱动代价函数值减小,不然其正是出新了不当。

9.2 K-means algorithm

聚类的主干考虑是将数据聚集的样本划分为多少个平常是不相交的子集,各样子集称为二个”“(cluster)。划分后,每一个簇可能有对应的概念(性质),比如依据页数,句长等特征量给故事集做簇数为2的聚类,大概获得贰个多数是含有博士结束学业故事集的簇,另贰个大多数是包含硕士毕业散文的簇。

K均值(K-means)算法是贰个广阔采纳的用来簇划分的算法。上边表达K均值算法的步调:

  1. 自由开头化K个样本(点),称之为簇中心(cluster
    centroids)

  2. 簇分配:
    对于有所的范本,将其分配给离它近些日子的簇大旨;

  3. 移动簇中央:对于每多个簇,总括属于该簇的富有样本的平均值,移动簇宗旨到平均值处;

  1. 再也步骤2和3,直到找到我们想要的簇(即优化指标,详解下节9.3)

图9-3示范了以特征量个数和簇数K均为2的处境。

图片 8

图9-3 K均值算法的演示

透过上述描述,上面我们方式化K均值算法。

输入:

  • K (number of clusters)

  • Training set
    图片 9, where
    图片 10 (drop
    图片 11 convention)

算法:

Randomly initialize K cluster centroids
图片 12

Repeat {

    for i = 1 to m

style=”font-size: 16px;”>        图片 13
:= index (from 1 to K ) of cluster centroid closest to
图片 14

    for k = 1 to K

style=”font-size: 16px;”>        图片 15
:= average (mean) of points assigned to cluster

    }

上述算法中,第二个循环对应了簇分配的手续:大家协会向量c,使得c(i)的值等于x(i)所属簇的目录,即离x(i)近来簇中央的目录。用数学的点子意味着如下:

图片 16

其次个巡回对应移动簇中央的步子,即移动簇中央到该簇的平均值处。更数学的法子表示如下:

图片 17

其中图片 18都以被分配给簇图片 19的样本。

假使有二个簇宗旨未有分配到贰个样本,大家不仅能够另行开头化那么些簇宗旨,也足以直接将其删除。

经过若干次迭代后,该算法将会收敛,也正是三回九转迭代不会再影响簇的情景。

在有个别应用中,样本可能相比一连,看起来未有明了的簇划分,不过大家仍是能够用K均值算法将样本分为K个子集供参考。比方依据人的身体高度和体重划分羽绒服的大小码,如图9-4所示。

图片 20

图9-4 K-means for non-separated
clusters

发表评论

电子邮件地址不会被公开。 必填项已用*标注