Ch.08

K均值聚类：无标签分组

在没有任何标签的情况下，仅根据数据将相似样本聚成K类的 无监督学习 代表算法。通过K均值，从概念\to直观\to公式\to应用，理解Ch01中“无监督”如何落地，以及如何用 距离 构造K个簇。结合Ch02的KNN距离公式，通过可视化理解“按类聚集”的迭代过程。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

将各点分配到最近的中心，再将中心更新为所属点的均值，反复进行。

① 数据 — 无标签的点分布在特征空间中

点: 数据

y

K表示“分成几类” — K均值中 簇数K 由用户事先给定。K=2即两类，K=3即三类。因无真实标签，“哪一类是正确答案”不可知，只能得到“相似样本聚在一起”的结果。实践中常结合领域知识、肘部法或轮廓系数等选择K。

J = \sum_{k=1}^K \sum_{i \in C_k} \|\mathbf{x}_i - \boldsymbol{\mu}_k\|^2

J

Ch01无监督学习的具体实现 — K均值是“无标签、找结构/聚类”的典型算法，常用于客户分群、文档/图像聚类、异常检测预处理等。

客户细分 — 仅有购买记录、无客户类型标签时，用K均值将相似客户聚成若干群，再由人为各群赋予含义（如VIP、流失风险），用于后续Ch09、Ch12等任务。

直观且实现简单 — 仅需“分配”和“求平均”两步迭代，便于实现，且在二维上可直观看到“聚成几团”的过程。

聚类 — 客户细分、主题/文档聚合、图像颜色或区域压缩、基因表达分组等。

预处理与特征摘要 — 将簇编号作为新特征输入监督模型，或仅保留簇中心以压缩数据。

K的选择 — K由用户指定；可对多个K比较SSE或轮廓等指标（如肘部法）再选定。

K

(x_1,y_1)

d(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{\sum_j (x_j - \mu_j)^2}

项目	说明
距离平方	两点 $(x_1,y_1)$ 、 $(x_2,y_2)$ 的欧氏距离平方： $(x_2-x_1)^2+(y_2-y_1)^2$ 。仅比较时可不必开方。
分配	给定点和 $K$ 个中心时，计算到各中心的距离（或距离平方），最小者对应的中心编号（从1开始）即为该点所属簇。
中心更新	簇 $k$ 内点的 $x$ 、 $y$ 坐标分别求平均得新中心 $(\bar{x}_k, \bar{y}_k)$ ；需取整时再四舍五入。
SSE	簇内 $J = \sum_{i \in C_k} \lVert\mathbf{x}_i - \boldsymbol{\mu}_k\rVert^2$ ，即各点到中心的距离平方和。