大家的AI
机器学习Playground 试玩
加载中…

学习

中级机器学习:现实数据的局限与模型优化

在基础机器学习所学的数据、特征、训练与评估之上,介绍如何面对现实中不整洁的表格,以及如何打磨模型。

按章节的中级机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览中级机器学习脉络。

Ch01~Ch20 所学内容

中级机器学习将 现实数据预处理 与 模型及超参数调优 连成一体:缩放、编码、缺失、不平衡,再到 SVM、PCA、提升与聚类,最后用 流水线 与网格、随机、贝叶斯(Optuna) 搜索稳定提升性能。

  • Ch.01
    数据缩放与分布变换
  • Ch.02
    类别变量编码
  • Ch.03
    缺失值处理与插补
  • Ch.04
    不平衡数据处理基础
  • Ch.05
    高级交叉验证
  • Ch.06
    多分类评估与ROC-AUC
  • Ch.07
    SVM基础:决策边界与间隔
  • Ch.08
    核技巧:非线性SVM
  • Ch.09
    降维1(PCA)
  • Ch.10
    集成学习:Bagging与Pasting
  • Ch.11
    提升基础:AdaBoost
  • Ch.12
    梯度提升机(GBM)
  • Ch.13
    密度聚类(DBSCAN)
  • Ch.14
    层次聚类与树状图
  • Ch.15
    高斯混合模型(GMM)
  • Ch.16
    异常检测基础
  • Ch.17
    管道构建
  • Ch.18
    超参数调优1:网格与随机搜索
  • Ch.19
    超参数调优2:贝叶斯优化(Optuna)
  • Ch.20
    中级机器学习总整理

现实数据与预处理·调优:中级机器学习学什么

现实数据不是练习用的表 — 基础课里的表往往很干净。实务中会有缺失,混有地区、性别等文字类别,收入和年龄等数值尺度也不同。欺诈检测这类正例极少的情况也很常见。模型最终只接收 X\mathbf{X}X 与 y\mathbf{y}y,因此先要整理成 特征向量。
预处理是让模型读得懂的整理 — 用缩放统一量纲,用编码把文字变成数字,用填补处理空缺;类别极不均衡时还会重采样。基础 Ch.00 说的“选好特征”,在实务里就变成一套可重复执行的步骤。
调优与流水线让实验更稳 — 训练中变化的量(权重、树的分裂)与事先设定的量(树深度、SVM 的 CCC 等)不是同一类。后者叫 超参数。流水线 把预处理和学习串成同一流程,新数据也按相同顺序处理。

为什么重要

数据与尺度决定表现 — 数据偏倚或某一特征数值过大时,验证上 y≈f(x)y \approx f(\mathbf{x})y≈f(x) 可能很好看,上线却不行。KNN、SVM 等依赖距离或间隔的模型,尺度稍变就会改变“远近”的含义。基础 KNN 里提过的归一化,在中级会成为日常习惯。
数据泄露会抬高分数 — 测试信息若混入训练或预处理,验证好看、上线变差。在全量数据上拟合缩放器再做交叉验证,也是同一种陷阱。应先划分,只在训练集上拟合统计量,再对验证、测试做变换。
不平衡要与指标一起看 — 只看准确率时,模型若总预测多数类,分数仍可能很高。要关注少数类,需连同精确率、召回率、ROC-AUC。超参数调优也是在过拟合与欠拟合之间寻找更好的泛化。

如何应用

实务里顺序就是可信度 — 先观察数据,再划分训练、验证、测试;预处理只在训练集上拟合,再应用到其余数据;然后训练模型,根据验证调超参数,最后用留出的测试集报告。守住这个顺序,评估才更接近真实泛化。
本课程的安排 — 前半讲缩放、编码、缺失,以及不平衡、交叉验证、多分类指标;中段拓展 SVM、PCA、集成、聚类与异常检测;后段讲流水线与网格、随机、贝叶斯搜索。可在下方路线图先浏览各章标题。
与基础 ML 衔接 — 若已学过数据与特征、缺失与交叉验证,中级课会把同一套想法用到一张现实表上。目标不是堆公式,而是弄清为何要清洗、指标在何处误导、实验该怎样进行。