Ch.07

视觉模型演进：CNN 看局部，ViT 看全局

用两种方式读同一张照片。 CNN 滑动小 卷积核（局部窗） ，从 邻近像素 堆特征； ViT 把图切成 patch token ，用 全局自注意力 在 单个块 也能混合远距离上下文；并用 窗口注意力 分摊成本。

学习流程

CNN 像推着放大镜读街坊；ViT 像村民大会一起发言。

N

关键公式怎么读（CNN vs ViT）

i

CNN 与 ViT：阅读同一幅图像的两种语法

3\times 3

为何重要

N

如何应用

1. CNN 的主战场：端侧（On-Device）、边缘（Edge）、实时 轻、快 意味着：不必依赖远端大模型、必须在 设备本地立刻响应 的场景，CNN 仍然占绝对多数。 * 手机相机滤镜与人脸解锁（Face ID 等）： 既要省电，又要在约 0.1 秒 内抓到脸部轮廓等 局部特征 ，因此常见 MobileNet 这类轻量 CNN。 * 工厂传送带缺陷检测： 一秒流过几十件时，要把表面 细微划痕/压痕 做 实时 检出， YOLO 系列 等 CNN 检测器 非常合适。 * 行车记录仪与低时延辅助驾驶： 行人突然闯入时， 约 0.01 秒 级就要触发制动；相比可能带来额外时延的 transformer， 更快的 CNN 链路 往往是生命线。 2. ViT 的主战场：超大 AI、生成式、多模态 在能投入 大量服务器/GPU 、需要 超越人类的深度理解 之处更常见。与 LLM 同属 transformer 范式 ，因此 与语言模型结合 特别顺。 * ChatGPT 看图（GPT-4V 一类）： 上传小票照片即可读字与摘要—— 文本与视觉可在同一 transformer 空间对齐 ；图像侧常用 ViT（或其变体） 充当“眼睛”。 * Midjourney、DALL\cdotE 等生成式： 当你输入「穿宇航服抽万宝路的猫」这类提示词，模型内部（ DiT：Diffusion with Transformer ）也会用到 ViT 式骨架 ，用 全局关系 把整体画面组织得不别扭。 * 医疗/卫星影像精读： 如转移模式、广域地形变化，往往比单像素更需要 整图宏观语境 ，全局混合更有优势。 3. 实战混合（CNN + ViT）：工程上的黄金平衡 真实团队很少二选一，而是 混搭 最多。 * 套路： 高分辨率 输入先走 CNN 前几层 ， 快速降采样 并抽取 边缘/纹理 ；再在 更深层 接 ViT/Transformer ，在 更小的 token 网格 上处理 长距离关系 。 * 案例： Google CoAtNet 、 Apple MobileViT 等，为了在移动端也能跑 transformer，广泛采用这种结构。

小结

N

解题说明

N

CNN 与 ViT：阅读同一幅图像的两种语法

1. CNN：推着放大镜“只看邻居”（局部性）

概念： CNN 用很小的滤波器（例如

3\times 3

的放大镜）在图像上滑动扫描。在某个位置当下只看到 周围 $k\times k$ ，把结果交给下一层，上下文就一点点变宽。

直觉： 层越深，感受野（receptive field）越逐步扩大。浅层抓线、角等简单模式，深层识别眼、耳、鼻等语义部位。同一卷积核在多个位置复用（权重共享），参数更少；猫在照片左或右，都能用相近滤波器响应，这带来近似的平移等变性（translation equivariance）。

公式直觉： 每个输出点是输入局部块与核的互相关（卷积）。深度

L

增加时，感受野逐层变大，远处像素也会间接被混合。

2. ViT：把 patch 当单词，“全场同时讨论”（全局性）

概念： 图像切成

P\times P

的 patch（如

16\times 16

），每个 patch 变成向量（token）。密集自注意力的一个块里（标准设定下）所有 patch 对都会计算彼此关联。

直觉： CNN 像街坊放大镜，ViT 更像一次俯瞰的无人机：第一个块也能对齐屏幕两端关系；但 patch 数

N

变大时，记录“谁和谁多相关”的分数矩阵大约按

N\times N

膨胀，显存与算力迅速变重。

记住量级： 注意力打分阶段常被感知为 $\mathcal{O}(N^2 d)$ 量级（常数因头数与实现而异）。

3. 不把“全局”一口吞下的分层折中

联系： 先在窗口（小区）内做注意，用 窗口平移 跨边界混合，再用 token 合并 减少

N

。也就是用多次“小范围的全局”叠出大图景的分层策略。

一句比喻： CNN 像地方台，ViT 像全国直播辩论，窗口式设计像地方台联网拼全国新闻。窗口·平移·合并 站在“CNN 与 ViT 之间”的原因，可与本章 CNN/ViT 对照轴一起理解。

4. 为什么要同时搞懂「CNN vs ViT」？（工程选型）

选模型不是挑排行榜一行，而是挑一张对数据的“假设表”。

* 数据少或领域难：近邻像素相关这一假设强的 CNN/混合 往往收敛更快更稳。

* 数据很多且有强预训练：更少受局部束缚的 ViT 系 常在上限性能（SOTA）更占优。

* 自动驾驶检测/分割等需要像素级、多尺度：分层窗口骨干、ConvNeXt、FPN 等下采样金字塔这类 CNN 式套路仍然很强。

* 成本：

N

一大 ViT 先 OOM 很常见，高效注意力与窗口分层是同一焦虑下的工程旋钮。