Ch.00
进阶数学与人工智能:多变量空间与不确定性的扩展
中级数学是在让AI的“语言”变得更精确的阶段。本课程会把数据不再只当作普通数字,而是用向量与矩阵来理解,并学习把它们连接起来的线性变换规则。此外,你还会用雅可比矩阵(多变量下输出对输入的变化敏感度)与海森矩阵(曲率信息)来解读学习为何会快、慢甚至不稳定。
按章节的数学图示
选择章节后,下方图示会切换为该章节内容。可一览中级数学的脉络。
Ch01~Ch20 所学内容
中级数学会让你理解AI所用语言的深度再提升一层。你会学习如何用向量和矩阵来表示数据,并用线性变换描述它们如何被转换。之后通过点积与投影去量化“相似度”和“方向”。进一步,你会用雅可比矩阵与海森矩阵来阅读变化量与曲率(损失地形的“弯曲程度”)。最后,你用泰勒级数与凸优化来设计更稳定的学习策略,并用贝叶斯、协方差与多元正态分布来处理不确定性。
- Ch.01向量与向量空间:超越标量的大小与方向
- Ch.02向量的内积与投影:数据间的角度与相似度
- Ch.03矩阵与数据捆:多向量的结构性表示
- Ch.04矩阵乘法与线性变换:操纵空间的数学
- Ch.05逆矩阵与行列式:变换的逆运算与空间体积变化
- Ch.06线性独立与秩:数据的冗余与实质维度
- Ch.07特征值与特征向量:变换中不变的主轴
- Ch.08方向导数与梯度:多维空间中的最陡上升
- Ch.09雅可比矩阵:多变量向量函数的一阶微分
- Ch.10海森矩阵:二阶微分与曲面的曲率
- Ch.11泰勒级数:用多项式近似复杂函数
- Ch.12凸优化:求最小值的条件
- Ch.13条件概率与依赖性:变量间的概率关系
- Ch.14贝叶斯定理:用观测数据更新概率
- Ch.15协方差与相关系数:两变量线性相关性的度量
- Ch.16多元正态分布:多变量联合概率模型
- Ch.17最大似然估计(MLE):由观测反推模型参数
- Ch.18熵:基于信息论的不确定性量化
- Ch.19交叉熵与KL散度:两概率分布之差的度量
- Ch.20进阶数学总整理:线性代数与概率论的结合
向量、矩阵与敏感度:中级数学如何解释AI
向量空间提供了用“方向与大小”来描述数据的框架。例如图像可以被表示为学习到的特征坐标。
矩阵是把向量一起变换的工具,尤其是线性变换能用一致的规则描述坐标如何改变,因此神经网络每一层都能用数学方式解释。
雅可比矩阵与海森矩阵是“敏感度地图”。雅可比回答“输入变化时输出变化多少”,而海森描述损失地形的曲率。
学习本质上是反复计算来减少误差。要理解误差为何能下降,需要处理多变量变化(梯度与敏感度)——这正是中级数学的核心。
线性代数帮助你解释表示(representation)。很多概念最终都会归结为“向量如何被重排与变换”,因此你会更能解释结果。
理解海森矩阵后,你能看到学习为何在某些区域变慢,在另一些区域变快。二阶信息也支持牛顿法、信赖域等优化方法。
在前向传播中,输入向量通过矩阵乘法与线性规则被转换,从而决定哪些特征被强调、哪些被抑制。
在反向传播中,你需要跟踪“变化如何传递”,雅可比矩阵承担这个角色;链式法则就是用来整理这条传递路径的语言。
在优化阶段,利用曲率信息(海森)可以提升更新的稳定性。海森能告诉你损失曲面是“平坦”还是“陡峭”。
- 分类相似度与方向
- 在AI中的作用让相似特征更靠近、不同特征更远
- 中级数学概念内积、投影
- 分类层如何运作
- 在AI中的作用一层如何把向量变成新的表示
- 中级数学概念矩阵、线性变换
- 分类敏感度(变化量)
- 在AI中的作用输入微小变化时输出如何变
- 中级数学概念雅可比矩阵、梯度
- 分类学习的曲率
- 在AI中的作用决定优化进行得快还是慢
- 中级数学概念海森矩阵、特征值
- 分类不确定性的语言
- 在AI中的作用多变量如何一起变化
- 中级数学概念协方差、多元正态
| 分类 | 在AI中的作用 | 中级数学概念 |
|---|---|---|
| 相似度与方向 | 让相似特征更靠近、不同特征更远 | 内积、投影 |
| 层如何运作 | 一层如何把向量变成新的表示 | 矩阵、线性变换 |
| 敏感度(变化量) | 输入微小变化时输出如何变 | 雅可比矩阵、梯度 |
| 学习的曲率 | 决定优化进行得快还是慢 | 海森矩阵、特征值 |
| 不确定性的语言 | 多变量如何一起变化 | 协方差、多元正态 |