矩阵微积分
本章系统整理矩阵微积分的核心公式,主要参考 The Matrix Cookbook(Petersen & Pedersen, 2012)——这是机器学习和信号处理领域最权威的矩阵公式手册,汇集了大量实用的矩阵导数、迹导数、行列式导数等结果。本章从中提取最常用的部分,略去过于复杂或应用场景极少的公式,以便快速查阅和学习。
1. 符号约定
本章采用分母布局(denominator layout)约定,这与大多数机器学习教材(如 Matrix Cookbook)一致:
| 记法 | 含义 | 结果形状 |
|---|---|---|
| 标量对列向量求导 | 列向量(与 | |
| 列向量对标量求导 | 列向量(与 | |
| 列向量对列向量求导 | 矩阵(Jacobian) | |
| 标量对矩阵求导 | 矩阵(与 |
2. 基本微分法则
微分(differential)是导数推导的系统工具。对矩阵
| 法则 | 公式 |
|---|---|
| 常数法则 | |
| 线性法则 | |
| 加法法则 | |
| 乘积法则 | |
| 转置法则 | |
| 迹法则 | |
| 逆矩阵法则 | |
| 行列式法则 | |
| 对数行列式法则 |
核心技巧:利用恒等式
可以从
3. 梯度(Gradient)
3.1 标量对向量求导
设
几何意义:梯度指向函数值增长最快的方向,其大小为该方向上的变化率。
3.2 向量/矩阵形式的一阶导数
以下
向量导数
| 函数 | 梯度 |
|---|---|
| — |
矩阵导数(标量函数对矩阵)
| 函数 | 导数 |
|---|---|
4. Jacobian 矩阵
4.1 定义
设
直觉:Jacobian 描述了输出空间中每个方向如何随输入变化,是线性近似
4.2 常用 Jacobian
| 映射 | Jacobian |
|---|---|
5. Hessian 矩阵
5.1 定义
设
5.2 Hessian 与优化
| Hessian 性质 | 对应几何/优化含义 |
|---|---|
| 严格局部最小值,损失函数局部凸 | |
| 局部最大值或鞍点方向 | |
| 鞍点(Saddle point) | |
| loss 曲面狭长,梯度下降收敛慢 |
二阶 Taylor 展开:
6. 迹导数(Trace Derivatives)
迹导数在推导矩阵运算的梯度时极为常用。以下
| 函数 | 导数 |
|---|---|
推导方法:对
先写出 ,利用迹的循环置换不变性 ,再对比恒等式 读出导数。
7. 行列式与逆矩阵导数
7.1 行列式的导数
若
7.2 逆矩阵的导数
对标量参数
对向量形式:
8. 范数导数
8.1 向量范数
8.2 矩阵范数
9. 链式法则(Chain Rule)
9.1 标量情形
设
9.2 向量情形
设
其中
9.3 计算图与链式法则
神经网络的前向传播定义了一个计算图(computation graph),反向传播正是在图上从输出到输入逐层应用链式法则:
输入 x
→ 线性变换: z = Wx + b
→ 激活函数: a = σ(z)
→ 线性变换: o = Va + c
→ 损失: L = loss(o, y)
反向传播(梯度从右向左流动):
∂L/∂o → ∂L/∂V = (∂L/∂o) · aᵀ , ∂L/∂a = Vᵀ · (∂L/∂o)
→ ∂L/∂z = diag(σ'(z)) · ∂L/∂a
→ ∂L/∂W = (∂L/∂z) · xᵀ , ∂L/∂x = Wᵀ · (∂L/∂z)10. 反向传播(Backpropagation)
10.1 本质
反向传播是链式法则在计算图上的高效实现,避免了重复计算:
- 前向传播:计算每个节点的值并缓存(供反向时使用);
- 反向传播:从损失节点出发,依链式法则逆向计算每个参数的梯度。
10.2 线性层的梯度
对层
对批量数据
其中
10.3 Softmax + Cross-Entropy 的梯度
设
这一简洁的结果是 softmax 与交叉熵组合时 Jacobian 化简的结果。
11. 常用矩阵恒等式
在推导梯度时,矩阵求逆恒等式可以大幅简化计算,尤其在高斯过程、卡尔曼滤波和稀疏注意力中频繁出现。
11.1 Woodbury 矩阵恒等式
其中
意义:将一个
11.2 Sherman-Morrison 公式
Woodbury 恒等式在
意义:已知
11.3 矩阵求逆引理(Push-through identity)
12. 常见梯度公式速查
12.1 对向量的梯度
12.2 对矩阵的梯度
在 AI 中的应用
| 概念 | AI/ML 中的体现 |
|---|---|
| 梯度 | 参数更新方向;SGD、Adam 的输入 |
| Jacobian | 每层的"敏感度矩阵";反向传播中梯度的"转发矩阵" |
| Hessian | 二阶优化(Newton、K-FAC);loss 曲面曲率分析;学习率选择 |
| 迹导数 | 推导 LayerNorm、Attention 的参数梯度 |
| 高斯分布对数似然对协方差矩阵的梯度 | |
| Woodbury 恒等式 | 稀疏/低秩注意力计算;线性时间 Transformer;高斯过程推断 |
| Sherman-Morrison | 在线学习中的秩-1 更新;BFGS 拟牛顿法 |
| 分类模型的最终梯度,推动参数更新 |