Ch.05

视觉 Transformer（ViT）与图像块

z_i=Ex_i

分块线性嵌入令牌一行编码器分类

学习流程概览

① 分补丁： 将图像划成网格。 ② 令牌化： 嵌入补丁并加位置。 ③ 编码器： 重复 MHA+FFN。 ④ 分类： 从 CLS（或池化）读出。

i

P\cdot C

视觉Transformer：把图像切成补丁再嵌入

N^2

N

训练：预训练＋微调 使用 ImageNet 等上预训练好的 ViT，接上分类头做微调。数据少时用 强增强 、正则化或更小的模型。 服务与推理：分辨率与批量 固定输入尺寸，或对超大图用 滑动窗口 分块推理。显存不够时调 batch、分辨率或混合精度（AMP）。 选对骨干网络 比较 Swin 、 ConvNeXt 、 CNN+ViT 混合 等，在数据量、延迟与精度间取舍；最新 ViT 并不总是最优解。 调试清单 * 效果不好： 检查 patch 大小、位置、[CLS]、预训练权重、分辨率分布。 * OOM： 减少 token（降分辨率或增大 patch）、尝试第04章的 高效注意力 或梯度检查点。

z_i=Ex_i

N

视觉Transformer：把图像切成补丁再嵌入

1. 为什么是 patch？把图像当“句子”来读

概念： Transformer 学习的是输入 token 之间的关系。要把图像喂给 Transformer，ViT 先把图像切成棋盘格一样的小块，这些小块就是patch。

直觉： 想象把风景照切成 16 份拼图：每一块就像句子里的一个词。块里的像素拉成一行，再线性映射成模型维度的向量。

实务： 块切得大→token 少但细节丢；切得小→细节多但 token 暴涨（显存爆炸），与第04章的token 数· $N^2$ 成本直接相关。

2. 给 patch 贴标签：嵌入与位置

概念： Transformer 一次看到所有小块，不知道它们原来在图上的哪里，所以要给每个向量加上“我是左上角第一块”这类位置嵌入。分类任务常在序列最前加一个[CLS] token 汇总整图信息。

公式习惯： 设 patch

i

的像素为

x_i

，线性变换得

z_i=Ex_i

，再加位置

PE_i

，即

h_i=z_i+PE_i

，这就是送进编码器的最终向量。

实务： 检测/分割等任务常用别的 token 化方式（像素、查询等）。

3. 与 CNN 的本质差别：放大镜 vs 圆桌会

概念： 传统 CNN 用局部卷积一层层堆叠；ViT 用全局自注意力一次性关联 distant patch。也有在开头加小卷积茎的混合模型。

比喻： CNN 像拿着小放大镜在图上挪动；ViT 像把所有拼图块摆在圆桌上同时讨论。

实务： 数据足或预训练强时 ViT 很强；小数据往往需要增强、预训练或 CNN 归纳偏置。

4. 训练与推理的现实墙

概念： 分类损失通常是交叉熵；真正棘手的是分辨率——patch 序列越长，计算与显存越大。

实务： 高分辨率下 patch 数暴涨；Transformer 计算量约随 token 数平方（

N^2

）增长，分辨率稍涨就可能 OOM。可借鉴 Swin 等窗口划分，以及第04章的高效注意力、patch 合并等设计。