Ch.00
进阶深度学习:大模型与生成式AI范式
高级深度学习(Ch.00)把“为什么模型会变得这么大”与“生成式AI系统到底怎么运作”连在一起的入门章节。我们不仅学习如何从数据中获得表征(Representation),还会看大规模Transformer如何建立上下文、预测下一个token;并进一步理解如何通过对齐(Alignment)与控制,把这些能力变成可用、可部署的系统。
通往大规模生成模型的高级路线图
随着你从Ch01开始推进,下面的路线图会逐步填充,帮助你把每一章的贡献串成一个完整系统。
你将在 Ch01~Ch24 学到什么
- Ch.01Transformer 1:自注意力与并行化
- Ch.02Transformer:位置编码与前馈
- Ch.03Transformer 谱系:编码器(BERT)vs 解码器(GPT)
- Ch.04注意力优化:FlashAttention 与稀疏注意力
- Ch.05视觉 Transformer(ViT)与图像块
- Ch.06Swin Transformer:从全局注意力到分层窗口结构
- Ch.07视觉模型演进:CNN 看局部,ViT 看全局
- Ch.08参数高效微调 1:PEFT 与 LoRA
- Ch.09QLoRA 与量化:缩得更小再微调
- Ch.10价值对齐与 RLHF:贴合人类偏好
- Ch.11DPO:不用强化学习,用偏好对齐
- Ch.12RAG:用检索减轻幻觉
- Ch.13LLM 智能体:会使用工具的模型
- Ch.14CNN 完全攻略:从卷积核、步幅、填充到骨干演进
- Ch.15目标检测(Object Detection):R-CNN 家族与 YOLO 的对决(寻找边界框)
- Ch.16图像分割:U-Net 与 DeepLab(逐像素理解图像)
- Ch.17Grad-CAM 与可解释 AI:看 CNN 在看哪里
- Ch.18图神经网络(GNN):向邻居传递消息
- Ch.19自编码器:压缩后再重建
- Ch.20VAE:用概率书写的生成空间
- Ch.21GAN 基础:生成与判别的对抗
- Ch.22条件 GAN:给定条件生成想要的内容
- Ch.23扩散模型(Diffusion)1:加噪再去噪
- Ch.24扩散模型(Diffusion)2:在潜在空间扩散
- Ch.25视觉-语言模型与 CLIP:图像与句子同一空间(衔接 CNN 与 LLM)
- Ch.26语音识别与音频:声音转文字
- Ch.27模型压缩与知识蒸馏:把大模型装进小模型
- Ch.28推理优化与部署:从服务器到浏览器运行时
- Ch.29进阶深度学习总览:架构与未来一览
什么是高级深度学习?(从生成式AI系统看)
基础模型(Foundation / LLM)以“预测下一个token”为目标进行训练。也就是说,它会最大化 ,学习语言的流动与模式,而不只是死记语法。
理解生成式AI的一种实用方式,是把它拆成阶段:预训练(pretraining)获得广泛知识;指令微调(instruction / SFT)让模型遵循你的意图;最后通过对齐(alignment)让偏好、安全与事实性更稳定、更可靠。
骨架通常是Transformer。自注意力把“token之间的关联”写进上下文表征,再由前馈网络与归一化不断打磨,使模型在长上下文中也能保持一致性。
模型越大能力往往越强,但训练会更不稳定、成本也会迅速上升。因此,高级深度学习关注的不仅是精度,还有 训练稳定性、效率(算力/内存)与 可复现性。
现实世界里,生成式AI的核心是信任:真实、可控、安全与可靠。要做到这些,需要对齐、评估与控制机制。
另外,部署约束(延迟、成本、服务器资源)也非常关键。所以高级深度学习不会停留在训练阶段,而是延伸到 推理优化、压缩与服务策略。
在生产环境中,系统通常遵循类似 `text/image -> tokenization -> context window -> Transformer -> decoding(greedy/beam/sample)` 的流水线。解码策略与提示词设计会显著影响输出质量。
对齐与控制也可以用多种方式实现。例如 RLHF / DPO 使用偏好来更新模型;而 RAG 通过检索外部知识,让回答更有依据。
从产品角度看,工具调用、缓存/批处理以及量化与蒸馏等优化,都会成为整体栈的一部分。就算是同一个底座模型,不同的运行方式也会带来完全不同的体验。
本段用叙述方式把“高级深度学习”各条线与应试式理解串起来。下一个 token 预测驱动的预训练,是通用语言能力的基础,并与概率生成、表征学习相连。要让模型遵循指令,instruction / SFT会涉及数据格式与微调策略。
对齐(Alignment)关心偏好、安全与事实性,自然连到偏好学习与奖励建模。RAG 与有依据生成依赖检索、嵌入与上下文拼装,用来压低无依据输出。推理优化则从延迟与成本出发,涵盖量化、缓存、蒸馏等部署侧手段。