大家的AI
机器学习AI论文
加载中…

学习

🏅我的成就

Ch.00

进阶深度学习:大模型与生成式AI范式

高级深度学习(Ch.00)把“为什么模型会变得这么大”与“生成式AI系统到底怎么运作”连在一起的入门章节。我们不仅学习如何从数据中获得表征(Representation),还会看大规模Transformer如何建立上下文、预测下一个token;并进一步理解如何通过对齐(Alignment)与控制,把这些能力变成可用、可部署的系统。

通往大规模生成模型的高级路线图

随着你从Ch01开始推进,下面的路线图会逐步填充,帮助你把每一章的贡献串成一个完整系统。

你将在 Ch01~Ch24 学到什么

  • Ch.01
    Transformer 1:自注意力与并行化
  • Ch.02
    Transformer:位置编码与前馈
  • Ch.03
    Transformer 谱系:编码器(BERT)vs 解码器(GPT)
  • Ch.04
    注意力优化:FlashAttention 与稀疏注意力
  • Ch.05
    视觉 Transformer(ViT)与图像块
  • Ch.06
    Swin Transformer:从全局注意力到分层窗口结构
  • Ch.07
    视觉模型演进:CNN 看局部,ViT 看全局
  • Ch.08
    参数高效微调 1:PEFT 与 LoRA
  • Ch.09
    QLoRA 与量化:缩得更小再微调
  • Ch.10
    价值对齐与 RLHF:贴合人类偏好
  • Ch.11
    DPO:不用强化学习,用偏好对齐
  • Ch.12
    RAG:用检索减轻幻觉
  • Ch.13
    LLM 智能体:会使用工具的模型
  • Ch.14
    CNN 完全攻略:从卷积核、步幅、填充到骨干演进
  • Ch.15
    目标检测(Object Detection):R-CNN 家族与 YOLO 的对决(寻找边界框)
  • Ch.16
    图像分割:U-Net 与 DeepLab(逐像素理解图像)
  • Ch.17
    Grad-CAM 与可解释 AI:看 CNN 在看哪里
  • Ch.18
    图神经网络(GNN):向邻居传递消息
  • Ch.19
    自编码器:压缩后再重建
  • Ch.20
    VAE:用概率书写的生成空间
  • Ch.21
    GAN 基础:生成与判别的对抗
  • Ch.22
    条件 GAN:给定条件生成想要的内容
  • Ch.23
    扩散模型(Diffusion)1:加噪再去噪
  • Ch.24
    扩散模型(Diffusion)2:在潜在空间扩散
  • Ch.25
    视觉-语言模型与 CLIP:图像与句子同一空间(衔接 CNN 与 LLM)
  • Ch.26
    语音识别与音频:声音转文字
  • Ch.27
    模型压缩与知识蒸馏:把大模型装进小模型
  • Ch.28
    推理优化与部署:从服务器到浏览器运行时
  • Ch.29
    进阶深度学习总览:架构与未来一览

什么是高级深度学习?(从生成式AI系统看)

基础模型(Foundation / LLM)以“预测下一个token”为目标进行训练。也就是说,它会最大化 p(xt∣x<t)p(x_t\mid x_{<t})p(xt​∣x<t​),学习语言的流动与模式,而不只是死记语法。
理解生成式AI的一种实用方式,是把它拆成阶段:预训练(pretraining)获得广泛知识;指令微调(instruction / SFT)让模型遵循你的意图;最后通过对齐(alignment)让偏好、安全与事实性更稳定、更可靠。
骨架通常是Transformer。自注意力把“token之间的关联”写进上下文表征,再由前馈网络与归一化不断打磨,使模型在长上下文中也能保持一致性。
模型越大能力往往越强,但训练会更不稳定、成本也会迅速上升。因此,高级深度学习关注的不仅是精度,还有 训练稳定性、效率(算力/内存)与 可复现性。
现实世界里,生成式AI的核心是信任:真实、可控、安全与可靠。要做到这些,需要对齐、评估与控制机制。
另外,部署约束(延迟、成本、服务器资源)也非常关键。所以高级深度学习不会停留在训练阶段,而是延伸到 推理优化、压缩与服务策略。
在生产环境中,系统通常遵循类似 `text/image -> tokenization -> context window -> Transformer -> decoding(greedy/beam/sample)` 的流水线。解码策略与提示词设计会显著影响输出质量。
对齐与控制也可以用多种方式实现。例如 RLHF / DPO 使用偏好来更新模型;而 RAG 通过检索外部知识,让回答更有依据。
从产品角度看,工具调用、缓存/批处理以及量化与蒸馏等优化,都会成为整体栈的一部分。就算是同一个底座模型,不同的运行方式也会带来完全不同的体验。
本段用叙述方式把“高级深度学习”各条线与应试式理解串起来。下一个 token 预测驱动的预训练,是通用语言能力的基础,并与概率生成、表征学习相连。要让模型遵循指令,instruction / SFT会涉及数据格式与微调策略。
对齐(Alignment)关心偏好、安全与事实性,自然连到偏好学习与奖励建模。RAG 与有依据生成依赖检索、嵌入与上下文拼装,用来压低无依据输出。推理优化则从延迟与成本出发,涵盖量化、缓存、蒸馏等部署侧手段。