Ch.10
K均值聚类:无标签分组
在没有任何标签的情况下,仅根据数据将相似样本聚成K类的无监督学习代表算法。通过K均值,从概念→直观→公式→应用,理解Ch01中“无监督”如何落地,以及如何用距离构造K个簇。结合Ch02的KNN距离公式,通过可视化理解“按类聚集”的迭代过程。
按章节的机器学习图示
选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。
将各点分配到最近的中心,再将中心更新为所属点的均值,反复进行。
① 数据 — 无标签的点分布在特征空间中
点: 数据
K均值聚类:无标签分组
K均值是什么? — 当没有标签、只有数据时,按最近中心将点划分成K个簇。距离采用Ch02中的欧氏距离。每个簇由一个中心(质心)表示,反复执行“各点归入最近中心”和“各簇点坐标求平均作为新中心”,直到收敛。
K表示“分成几类” — K均值中簇数K由用户事先给定。K=2即两类,K=3即三类。因无真实标签,“哪一类是正确答案”不可知,只能得到“相似样本聚在一起”的结果。实践中常结合领域知识、肘部法或轮廓系数等选择K。
目标:最小化簇内距离和(SSE) — 算法最小化畸变(SSE)。中心更新式表示“该簇内点的坐标平均”,这样更新会使该簇的SSE下降。
若觉得公式难懂 — 距离公式就是在量“一个点和一个中心之间的长度”;SSE 是把“簇有多紧”用一个数表示;中心更新式就是“该簇内点坐标的平均”。下面公式说明中会按符号逐一解释。
为何重要
Ch01无监督学习的具体实现 — K均值是“无标签、找结构/聚类”的典型算法,常用于客户分群、文档/图像聚类、异常检测预处理等。
客户细分 — 仅有购买记录、无客户类型标签时,用K均值将相似客户聚成若干群,再由人为各群赋予含义(如VIP、流失风险),用于后续Ch09、Ch12等任务。
直观且实现简单 — 仅需“分配”和“求平均”两步迭代,便于实现,且在二维上可直观看到“聚成几团”的过程。
如何被使用
聚类 — 客户细分、主题/文档聚合、图像颜色或区域压缩、基因表达分组等。
预处理与特征摘要 — 将簇编号作为新特征输入监督模型,或仅保留簇中心以压缩数据。
K的选择 — K由用户指定;可对多个K比较SSE或轮廓等指标(如肘部法)再选定。