What is machine learning?

Machine learning learns patterns from data to make predictions. Start with https://mdooai.com/zh/learn/ml/mlSupervisedUnsupervisedSelf.

What is the difference between ML and DL?

Deep learning is a subset of machine learning focused on neural networks. Build foundations at https://mdooai.com/zh/learn/ml/mlDataFeature first.

Use cross-validation while narrowing search ranges. Start at https://mdooai.com/zh/learn/ml/mlCrossValidation.

Ch.10

在没有任何标签的情况下，仅根据数据将相似样本聚成K类的 无监督学习 代表算法。通过K均值，从概念\to直观\to公式\to应用，理解Ch01中“无监督”如何落地，以及如何用 距离 构造K个簇。结合Ch02的KNN距离公式，通过可视化理解“按类聚集”的迭代过程。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

将各点分配到最近的中心，再将中心更新为所属点的均值，反复进行。

① 数据 — 无标签的点分布在特征空间中

点: 数据

y

Ch01无监督学习的具体实现 — K均值是“无标签、找结构/聚类”的典型算法，常用于客户分群、文档/图像聚类、异常检测预处理等。 客户细分 — 仅有购买记录、无客户类型标签时，用K均值将相似客户聚成若干群，再由人为各群赋予含义（如VIP、流失风险），用于后续Ch09、Ch12等任务。 直观且实现简单 — 仅需“分配”和“求平均”两步迭代，便于实现，且在二维上可直观看到“聚成几团”的过程。

聚类 — 客户细分、主题/文档聚合、图像颜色或区域压缩、基因表达分组等。 预处理与特征摘要 — 将簇编号作为新特征输入监督模型，或仅保留簇中心以压缩数据。 K的选择 — K由用户指定；可对多个K比较SSE或轮廓等指标（如肘部法）再选定。

K均值聚类：无标签分组

K均值是什么？ — 当没有标签

y

、只有数据

\mathbf{x}_1, \mathbf{x}_2, \ldots

时，按最近中心将点划分成K个簇。距离采用Ch02中的欧氏距离

d(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{\sum_j (x_j - \mu_j)^2}

。每个簇由一个中心（质心）

\boldsymbol{\mu}_k

表示，反复执行“各点归入最近中心”和“各簇点坐标求平均作为新中心”，直到收敛。

K表示“分成几类” — K均值中簇数K由用户事先给定。K=2即两类，K=3即三类。因无真实标签，“哪一类是正确答案”不可知，只能得到“相似样本聚在一起”的结果。实践中常结合领域知识、肘部法或轮廓系数等选择K。

目标：最小化簇内距离和（SSE） — 算法最小化畸变（SSE）

J = \sum_{k=1}^K \sum_{i \in C_k} \|\mathbf{x}_i - \boldsymbol{\mu}_k\|^2

。中心更新式

\boldsymbol{\mu}_k = \frac{1}{|C_k|}\sum_{i \in C_k} \mathbf{x}_i

表示“该簇内点的坐标平均”，这样更新会使该簇的SSE下降。

若觉得公式难懂 — 距离公式就是在量“一个点和一个中心之间的长度”；SSE

J

是把“簇有多紧”用一个数表示；中心更新式就是“该簇内点坐标的平均”。下面公式说明中会按符号逐一解释。