Ch.00

进阶深度学习：大模型与生成式AI范式

高级深度学习（Ch.00）把“为什么模型会变得这么大”与“生成式AI系统到底怎么运作”连在一起的入门章节。我们不仅学习如何从数据中获得表征（Representation），还会看大规模Transformer如何建立上下文、预测下一个token；并进一步理解如何通过对齐（Alignment）与控制，把这些能力变成可用、可部署的系统。

通往大规模生成模型的高级路线图

随着你从Ch01开始推进，下面的路线图会逐步填充，帮助你把每一章的贡献串成一个完整系统。

你将在 Ch01~Ch24 学到什么

Ch.01
Transformer 1：自注意力与并行化
Ch.02
Transformer：位置编码与前馈
Ch.03
Transformer 谱系：编码器（BERT）vs 解码器（GPT）
Ch.04
注意力优化：FlashAttention 与稀疏注意力
Ch.05
视觉 Transformer（ViT）与图像块
Ch.06
Swin Transformer：从全局注意力到分层窗口结构
Ch.07
视觉模型演进：CNN 看局部，ViT 看全局
Ch.08
参数高效微调 1：PEFT 与 LoRA
Ch.09
QLoRA 与量化：缩得更小再微调
Ch.10
价值对齐与 RLHF：贴合人类偏好
Ch.11
DPO：不用强化学习，用偏好对齐
Ch.12
RAG：用检索减轻幻觉
Ch.13
LLM 智能体：会使用工具的模型
Ch.14
CNN 完全攻略：从卷积核、步幅、填充到骨干演进
Ch.15
目标检测（Object Detection）：R-CNN 家族与 YOLO 的对决（寻找边界框）
Ch.16
图像分割：U-Net 与 DeepLab（逐像素理解图像）
Ch.17
Grad-CAM 与可解释 AI：看 CNN 在看哪里
Ch.18
图神经网络（GNN）：向邻居传递消息
Ch.19
自编码器：压缩后再重建
Ch.20
VAE：用概率书写的生成空间
Ch.21
GAN 基础：生成与判别的对抗
Ch.22
条件 GAN：给定条件生成想要的内容
Ch.23
扩散模型（Diffusion）1：加噪再去噪
Ch.24
扩散模型（Diffusion）2：在潜在空间扩散
Ch.25
视觉-语言模型与 CLIP：图像与句子同一空间（衔接 CNN 与 LLM）
Ch.26
语音识别与音频：声音转文字
Ch.27
模型压缩与知识蒸馏：把大模型装进小模型
Ch.28
推理优化与部署：从服务器到浏览器运行时
Ch.29
进阶深度学习总览：架构与未来一览

什么是高级深度学习？（从生成式AI系统看）

p(x_t\mid x_{<t})

理解生成式AI的一种实用方式，是把它拆成阶段： 预训练（pretraining） 获得广泛知识； 指令微调（instruction / SFT） 让模型遵循你的意图；最后通过 对齐（alignment） 让偏好、安全与事实性更稳定、更可靠。

骨架通常是 Transformer 。自注意力把“token之间的关联”写进上下文表征，再由前馈网络与归一化不断打磨，使模型在长上下文中也能保持一致性。

模型越大能力往往越强，但训练会更不稳定、成本也会迅速上升。因此，高级深度学习关注的不仅是精度，还有 训练稳定性 、 效率（算力/内存） 与 可复现性 。

现实世界里，生成式AI的核心是信任：真实、可控、安全与可靠。要做到这些，需要对齐、评估与控制机制。

另外，部署约束（延迟、成本、服务器资源）也非常关键。所以高级深度学习不会停留在训练阶段，而是延伸到 推理优化 、 压缩 与 服务策略 。

在生产环境中，系统通常遵循类似 `text/image -> tokenization -> context window -> Transformer -> decoding（greedy/beam/sample）` 的流水线。解码策略与提示词设计会显著影响输出质量。

对齐与控制也可以用多种方式实现。例如 RLHF / DPO 使用偏好来更新模型；而 RAG 通过检索外部知识，让回答更有依据。

从产品角度看， 工具调用 、缓存/批处理以及量化与蒸馏等优化，都会成为整体栈的一部分。就算是同一个底座模型，不同的运行方式也会带来完全不同的体验。

本段用叙述方式把“高级深度学习”各条线与应试式理解串起来。 下一个 token 预测 驱动的预训练，是通用语言能力的基础，并与概率生成、表征学习相连。要让模型遵循指令， instruction / SFT 会涉及数据格式与微调策略。 对齐（Alignment） 关心偏好、安全与事实性，自然连到偏好学习与奖励建模。 RAG 与有依据生成 依赖检索、嵌入与上下文拼装，用来压低无依据输出。 推理优化 则从延迟与成本出发，涵盖量化、缓存、蒸馏等部署侧手段。

什么是高级深度学习？（从生成式AI系统看）

p(x_t\mid x_{<t})

理解生成式AI的一种实用方式，是把它拆成阶段： 预训练（pretraining） 获得广泛知识； 指令微调（instruction / SFT） 让模型遵循你的意图；最后通过 对齐（alignment） 让偏好、安全与事实性更稳定、更可靠。

骨架通常是 Transformer 。自注意力把“token之间的关联”写进上下文表征，再由前馈网络与归一化不断打磨，使模型在长上下文中也能保持一致性。

模型越大能力往往越强，但训练会更不稳定、成本也会迅速上升。因此，高级深度学习关注的不仅是精度，还有 训练稳定性 、 效率（算力/内存） 与 可复现性 。

现实世界里，生成式AI的核心是信任：真实、可控、安全与可靠。要做到这些，需要对齐、评估与控制机制。

另外，部署约束（延迟、成本、服务器资源）也非常关键。所以高级深度学习不会停留在训练阶段，而是延伸到 推理优化 、 压缩 与 服务策略 。

在生产环境中，系统通常遵循类似 `text/image -> tokenization -> context window -> Transformer -> decoding（greedy/beam/sample）` 的流水线。解码策略与提示词设计会显著影响输出质量。

对齐与控制也可以用多种方式实现。例如 RLHF / DPO 使用偏好来更新模型；而 RAG 通过检索外部知识，让回答更有依据。

从产品角度看， 工具调用 、缓存/批处理以及量化与蒸馏等优化，都会成为整体栈的一部分。就算是同一个底座模型，不同的运行方式也会带来完全不同的体验。

本段用叙述方式把“高级深度学习”各条线与应试式理解串起来。 下一个 token 预测 驱动的预训练，是通用语言能力的基础，并与概率生成、表征学习相连。要让模型遵循指令， instruction / SFT 会涉及数据格式与微调策略。 对齐（Alignment） 关心偏好、安全与事实性，自然连到偏好学习与奖励建模。 RAG 与有依据生成 依赖检索、嵌入与上下文拼装，用来压低无依据输出。 推理优化 则从延迟与成本出发，涵盖量化、缓存、蒸馏等部署侧手段。