Ch.01

监督学习、无监督学习与自监督学习

根据数据的使用方式,机器学习常分为监督学习无监督学习自监督学习监督学习像对照答案学习;无监督学习像在没有标签的情况下发现模式、将相似项分组;自监督学习像遮住数据的一部分,通过预测缺失部分来学习。本章概括这三种范式的核心思想、数学与实战用法,为后续算法打好基础。

按章节的机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。

三种学习范式:监督(输入–标签对)、无监督(无标签)、自监督(自建目标)。

监督学习:输入 x 与标签 y 成对出现

(x₁,y₁)
(x₂,y₂)
(x₃,y₃)

当按顺序给出 (x, y) 对时,模型学习规则

无监督学习:只有输入 x(无标签 y)

x1x2x3x4x5x6

没有 y(标签),只有 x。部分 x 闪烁 → 模型仍发现结构与聚类

自监督学习:遮住部分数据并预测空缺

1
2
4
遮住预测填满

例:填空 → 表示学习(如 BERT)

三种学习方式:监督、无监督、自监督

监督学习:从输入–标签对学习 — 模型被给予输入 x\mathbf{x} 与对应的标签(目标) yy 成对出现。目标是近似函数 y=f(x)y = f(\mathbf{x}),训练后可为新输入预测 yy。形式上将训练集记为 D={(x1,y1),(x2,y2),}\mathcal{D} = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \ldots\},通过最小化损失(如 MSE、交叉熵)得到 ff。Ch02 KNN、Ch03 线性回归、Ch04 逻辑回归均为监督学习。
* 例1(分类):垃圾邮件过滤——邮件内容(x\mathbf{x}) → 是否垃圾(yy)。
* 例2(回归):房价预测——面积、位置(x\mathbf{x}) → 价格(yy)。
* 例3(医疗):患者检查指标(x\mathbf{x})与诊断结果(yy)用于辅助诊断。
无监督学习:发现隐藏结构 — 只提供输入 x\mathbf{x}没有标签 yy。可理解为「只有题目、没有答案」。目标是利用 x\mathbf{x} 之间的距离与相似度发现结构、模式或聚类:把相似点归为一类(聚类)、压缩到更少维度(降维)、或标记偏离正常模式的异常
* 例1(聚类):用顾客年龄与购买历史(x\mathbf{x})做客户分群。
* 例2(异常检测):学习正常交易模式(x\mathbf{x}),标记异常交易。
* 例3(降维):将很多特征压成 2~3 个数,便于可视化或去噪。(具体方法会在后面学到。)
自监督学习:从数据构造目标 — 不依赖人工标签,模型从数据本身构造伪标签。典型流程:
(1) 遮住输入的一部分(如词、图像块);
(2) 预测被遮部分;
(3) 利用学到的表示,用少量监督数据做下游任务。BERT、GPT 及很多视觉模型都是在大规模无标注数据上这样预训练的。
* 例1(语言):「我吃了 [MASK]」——根据上下文预测被遮词(LLM)。
* 例2(视觉):遮住图像一块,用其余像素重建该块。
* 例3(对比):同一图像的不同增强视为「相同」、不同图像视为「不同」,学习表示。
数据性质与成本 — 为全部数据打标签成本高。标签充足时监督有效;标签稀缺时用无监督自监督利用无标签数据,再用少量监督微调。可解释性也不同:监督可通过损失和决策路径做一定解释;无监督/自监督需要另做解释(如聚类命名、可视化)。
预训练与微调 — 现代流程常在大规模无标签数据上做自监督预训练,再在少量有标签数据上做监督微调。无监督常用于预处理与探索,例如先用 K-Means 对客户聚类,由人为聚类赋予含义(如「忠诚」「流失风险」),再建监督流失预测模型。选对范式能使流程清晰,并在数据量与标注成本下更现实。
监督 — Ch02 KNN、Ch03 线性回归、Ch04 逻辑回归从(输入, 标签)对学习。分类:垃圾邮件、疾病预测、图像分类。回归:房价、销量、温度等,Ch03/Ch04 会讲数学与优化。
无监督 — Ch08 K-Means 在无标签下聚类;降维(把很多特征压成 2~3 个数)也是常用工具。聚类:客户细分、主题分组。异常检测:学习「正常」区域,标记区域外样本。
自监督 — BERT(掩码词预测)、GPT(下一词预测)、视觉对比学习等广泛使用。预训练后用少量标签做 QA、摘要、分类等。
小结
(1) 监督:从 (x,y)(\mathbf{x},y) 对学习 y=f(x)y=f(\mathbf{x})
(2) 无监督:仅从 x\mathbf{x} 发现结构/聚类。
(3) 自监督:从伪标签(如掩码词)学习表示,再用少量监督数据做下游任务。
  • 标签
  • 监督有(yy)
  • 无监督
  • 自监督自建目标
  • 目标
  • 监督预测yy(分类/回归)
  • 无监督结构、聚类、降维
  • 自监督表示学习
  • 例子
  • 监督KNN、线性/逻辑回归
  • 无监督K-Means、降维
  • 自监督BERT、对比学习
按题型定义:监督=(x,y)对;无监督=无标签;自监督=自建目标。任务:有人工标签?→监督。无标签、仅分组/降维?→无监督。标签由数据派生(如掩码词)?→自监督。场景:垃圾邮件分类(监督)、客户聚类(无监督)、掩码词预测(自监督)。
一行比较 — 监督:「用(题目, 答案)对学习。」无监督:「没有答案,只看数据做分组或降维。」自监督:「遮住一部分数据,预测空缺以学习表示。」做题时看有没有标签、以及标签是人给的还是数据衍生的,即可快速判断类型。