中级机器学习：现实数据的局限与模型优化

在基础机器学习所学的数据、特征、训练与评估之上，介绍如何面对现实中不整洁的表格，以及如何打磨模型。

选择章节后，下方图示会切换为该章节内容。可一览中级机器学习脉络。

Ch01～Ch20 所学内容

中级机器学习将 现实数据预处理 与 模型及超参数调优 连成一体：缩放、编码、缺失、不平衡，再到 SVM、PCA、提升与聚类，最后用 流水线 与网格、随机、贝叶斯(Optuna) 搜索稳定提升性能。

现实数据与预处理·调优：中级机器学习学什么

\mathbf{X}

y \approx f(\mathbf{x})

实务里顺序就是可信度 — 先观察数据，再划分训练、验证、测试；预处理只在训练集上拟合，再应用到其余数据；然后训练模型，根据验证调超参数，最后用留出的测试集报告。守住这个顺序，评估才更接近真实泛化。 本课程的安排 — 前半讲缩放、编码、缺失，以及不平衡、交叉验证、多分类指标；中段拓展 SVM、PCA、集成、聚类与异常检测；后段讲流水线与网格、随机、贝叶斯搜索。可在下方路线图先浏览各章标题。 与基础 ML 衔接 — 若已学过数据与特征、缺失与交叉验证，中级课会把同一套想法用到一张现实表上。目标不是堆公式，而是弄清为何要清洗、指标在何处误导、实验该怎样进行。

现实数据与预处理·调优：中级机器学习学什么

现实数据不是练习用的表 — 基础课里的表往往很干净。实务中会有缺失，混有地区、性别等文字类别，收入和年龄等数值尺度也不同。欺诈检测这类正例极少的情况也很常见。模型最终只接收

\mathbf{X}

与

\mathbf{y}

，因此先要整理成 特征向量。

预处理是让模型读得懂的整理 — 用缩放统一量纲，用编码把文字变成数字，用填补处理空缺；类别极不均衡时还会重采样。基础 Ch.00 说的“选好特征”，在实务里就变成一套可重复执行的步骤。

调优与流水线让实验更稳 — 训练中变化的量（权重、树的分裂）与事先设定的量（树深度、SVM 的

C

等）不是同一类。后者叫 超参数。流水线 把预处理和学习串成同一流程，新数据也按相同顺序处理。