What is machine learning?

Machine learning learns patterns from data to make predictions. Start with https://mdooai.com/zh/learn/ml/mlSupervisedUnsupervisedSelf.

What is the difference between ML and DL?

Deep learning is a subset of machine learning focused on neural networks. Build foundations at https://mdooai.com/zh/learn/ml/mlDataFeature first.

Use cross-validation while narrowing search ranges. Start at https://mdooai.com/zh/learn/ml/mlCrossValidation.

Ch.03

物以类聚 — KNN 找出「最近的 K 个邻居」，用他们的标签（多数表决）来预测新数据。没有复杂的学习公式，只要算 距离 即可，是直观的第一个分类算法。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

1/5

① 训练数据 — 特征空间中的点（标签 1 或 2）

虚线圆：按距离。K=3 邻居(紫)标签: 1, 2, 2 → 多数表决为 2

d(\mathbf{x}, \mathbf y) = \sqrt{\sum_{i}(x_i - y_i)^2}

没有显式训练（惰性学习） — KNN 不学一个紧凑模型，预测时再算到所有已存点的距离。训练成本低，预测成本可能较高。 可解释 — 可以用「因为 5 个相似邮件里 4 个是垃圾邮件」这样的近邻来说明预测，便于可解释 AI。 常作基线 — 在试复杂模型前，先用 KNN 看数据能被分得多好。

分类 — 用 K 个近邻的 类别（标签） 多数表决。用于图像分类、垃圾邮件检测、风险分层等。 回归 — 预测 K 个近邻目标值的 平均 （如用周边 5 套房价格平均估计自家房价）。 距离与尺度 — 特征尺度不同时，距离会被某一维主导。建议先 归一化 或 标准化 再算距离。

K近邻 (KNN)：物以类聚

KNN 是什么 — 对于新来的数据点，在已有标签的数据中选出距离最近的 K 个，用这 K 个的多数表决决定新数据的标签。例：若 5 个最近邮件中有 4 个是「垃圾邮件」，则新邮件也判为垃圾邮件。

用距离定义「近」 — 「近」是指在特征空间里两点间的距离小。最常用的是欧氏距离：

d(\mathbf{x}, \mathbf y) = \sqrt{\sum_{i}(x_i - y_i)^2}

。若只有两个特征，就是平面上的直线距离。

K 是超参数 — K=1 时只看最近 1 个；K 越大越平滑，但边界可能变钝。常用奇数避免平票。