矩阵微积分

本章系统整理矩阵微积分的核心公式，主要参考 The Matrix Cookbook（Petersen & Pedersen, 2012）——这是机器学习和信号处理领域最权威的矩阵公式手册，汇集了大量实用的矩阵导数、迹导数、行列式导数等结果。本章从中提取最常用的部分，略去过于复杂或应用场景极少的公式，以便快速查阅和学习。

1. 符号约定

本章采用分母布局（denominator layout）约定，这与大多数机器学习教材（如 Matrix Cookbook）一致：

记法	含义	结果形状
$\frac{\partial y}{\partial x}$	标量对列向量求导	列向量（与 $x$ 形状相同）
$\frac{\partial y}{\partial x}$	列向量对标量求导	列向量（与 $y$ 形状相同）
$\frac{\partial y}{\partial x}$	列向量对列向量求导	矩阵（Jacobian）
$\frac{\partial y}{\partial A}$	标量对矩阵求导	矩阵（与 $A$ 形状相同）

2. 基本微分法则

微分（differential）是导数推导的系统工具。对矩阵 $X$ ，以下规则成立：

法则	公式
常数法则	$d (A) = 0$ （ $A$ 为常数矩阵）
线性法则	$d (α X) = α d X$
加法法则	$d (X + Y) = d X + d Y$
乘积法则	$d (X Y) = (d X) Y + X (d Y)$
转置法则	$d (X^{⊤}) = (d X)^{⊤}$
迹法则	$d (tr (X)) = tr (d X)$
逆矩阵法则	$d (X^{- 1}) = - X^{- 1} (d X) X^{- 1}$
行列式法则	$d (det (X)) = det (X) tr (X^{- 1} d X)$
对数行列式法则	$d (\ln det (X)) = tr (X^{- 1} d X)$

核心技巧：利用恒等式

d f = tr ({(\frac{\partial f}{\partial X})}^{⊤} d X)

可以从 $d f$ 的表达式中直接读出 $\frac{\partial f}{\partial X}$ ，避免逐元素计算。

3. 梯度（Gradient）

3.1 标量对向量求导

设 $f : R^{n} \to R$ ， $x \in R^{n}$ 。 $f$ 关于 $x$ 的梯度（gradient）：

\nabla_{x} f = \frac{\partial f}{\partial x} = [\begin{matrix} \frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}} \\ ⋮ \\ \frac{\partial f}{\partial x_{n}} \end{matrix}] \in R^{n}

几何意义：梯度指向函数值增长最快的方向，其大小为该方向上的变化率。

3.2 向量/矩阵形式的一阶导数

以下 $a, b$ 为常数向量， $A, B$ 为常数矩阵， $x$ 为变量向量， $X$ 为变量矩阵。

向量导数

函数 $f (x)$	梯度 $\frac{\partial f}{\partial x}$
$a^{⊤} x$	$a$
$x^{⊤} a$	$a$
$x^{⊤} x = \| x \|^{2}$	$2 x$
$x^{⊤} A x$ （ $A$ 对称）	$2 A x$
$x^{⊤} A x$ （ $A$ 一般）	$(A + A^{⊤}) x$
$\| y - A x \|^{2}$	$- 2 A^{⊤} (y - A x)$
$a^{⊤} X b$ （对 $x$ 中某分量）	—

矩阵导数（标量函数对矩阵）

函数 $f (X)$	导数 $\frac{\partial f}{\partial X}$
$a^{⊤} X b$	$a b^{⊤}$
$a^{⊤} X^{⊤} b$	$b a^{⊤}$
$\| y - X x \|^{2}$	$- 2 (y - X x) x^{⊤}$
$\| X \|_{F}^{2} = tr (X^{⊤} X)$	$2 X$
$x^{⊤} A x$ （对称 $A$ ，对 $x$ ）	$2 A x$

4. Jacobian 矩阵

4.1 定义

设 $f : R^{n} \to R^{m}$ ，输出为 $f (x) = (f_{1} (x), \dots, f_{m} (x))^{⊤}$ 。Jacobian 矩阵（Jacobian matrix）是所有偏导数组成的矩阵：

J = \frac{\partial f}{\partial x} = [\begin{matrix} \frac{\partial f_{1}}{\partial x_{1}} & \dots & \frac{\partial f_{1}}{\partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial f_{m}}{\partial x_{1}} & \dots & \frac{\partial f_{m}}{\partial x_{n}} \end{matrix}] \in R^{m \times n}

直觉：Jacobian 描述了输出空间中每个方向如何随输入变化，是线性近似 $f (x + δ) \approx f (x) + J δ$ 的系数矩阵。

4.2 常用 Jacobian

映射 $f (x)$	Jacobian $J$
$A x$ （ $A \in R^{m \times n}$ 固定）	$A$
$σ (x)$ （逐元素激活）	$diag (σ^{'} (x))$
$softmax (x)$	$diag (p) - p p^{⊤}$ （ $p = softmax (x)$ ）
$\| x \|_{2} \cdot e_{i}$ （ $ℓ_{2}$ 归一化）	$\frac{1}{\| x \|} (I - \hat{x} {\hat{x}}^{⊤})$

5. Hessian 矩阵

5.1 定义

设 $f : R^{n} \to R$ 。Hessian 矩阵是 $f$ 的所有二阶偏导数组成的矩阵：

H = \nabla^{2} f = \frac{\partial^{2} f}{\partial x^{2}} = [\begin{matrix} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \dots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \dots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{matrix}] \in R^{n \times n}

$H$ 是对称矩阵（若 $f$ 二阶连续可微）。

5.2 Hessian 与优化

Hessian 性质	对应几何/优化含义
$H ≻ 0$ （正定）	严格局部最小值，损失函数局部凸
$H ⪯ 0$ （负半定）	局部最大值或鞍点方向
$H$ 不定（有正有负特征值）	鞍点（Saddle point）
$κ (H) ≫ 1$ （条件数大）	loss 曲面狭长，梯度下降收敛慢

二阶 Taylor 展开：

f (x + δ) \approx f (x) + \nabla f (x)^{⊤} δ + \frac{1}{2} δ^{⊤} H δ

6. 迹导数（Trace Derivatives）

迹导数在推导矩阵运算的梯度时极为常用。以下 $A, B$ 为常数矩阵， $X$ 为变量矩阵。

函数 $f (X)$	导数 $\frac{\partial f}{\partial X}$
$tr (X)$	$I$
$tr (X A)$	$A^{⊤}$
$tr (A X)$	$A^{⊤}$
$tr (A X B)$	$A^{⊤} B^{⊤}$
$tr (A X^{⊤} B)$	$B A$
$tr (X^{2})$	$2 X^{⊤}$
$tr (X^{⊤} X)$	$2 X$
$tr (X^{⊤} B X)$	$(B + B^{⊤}) X$
$tr (X B X^{⊤})$	$X (B + B^{⊤})$
$tr (A X B X^{⊤})$	$A^{⊤} X B^{⊤} + A X B$
$tr (X^{k})$	$k (X^{k - 1})^{⊤}$
$tr (A X^{- 1} B)$	$- (X^{- 1} B A X^{- 1})^{⊤}$

推导方法：对 $f = tr (g (X))$ 先写出 $d f$ ，利用迹的循环置换不变性 $tr (A B C) = tr (C A B) = tr (B C A)$ ，再对比恒等式 $d f = tr ({(\frac{\partial f}{\partial X})}^{⊤} d X)$ 读出导数。

7. 行列式与逆矩阵导数

7.1 行列式的导数

\frac{\partial det (X)}{\partial X} = det (X) \cdot (X^{- 1})^{⊤} = det (X) \cdot X^{- ⊤}

\frac{\partial \ln | det (X) |}{\partial X} = (X^{- 1})^{⊤} = X^{- ⊤}

若 $X$ 对称正定，则 $X^{- ⊤} = X^{- 1}$ ，上式化简为 $X^{- 1}$ （常见于高斯分布的对数似然推导）。

7.2 逆矩阵的导数

\frac{\partial (X^{- 1})_{i j}}{\partial X_{k l}} = - (X^{- 1})_{i k} (X^{- 1})_{l j}

对标量参数 $x$ ，若 $Y = Y (x)$ ，则：

\frac{\partial Y^{- 1}}{\partial x} = - Y^{- 1} \frac{\partial Y}{\partial x} Y^{- 1}

对向量形式：

\frac{\partial (a^{⊤} X^{- 1} b)}{\partial X} = - X^{- ⊤} a b^{⊤} X^{- ⊤}

8. 范数导数

8.1 向量范数

\frac{\partial ∥ x ∥_{2}^{2}}{\partial x} = 2 x

\frac{\partial ∥ x ∥_{2}}{\partial x} = \frac{x}{∥ x ∥_{2}} (x \neq 0)

\frac{\partial ∥ x - a ∥_{2}}{\partial x} = \frac{x - a}{∥ x - a ∥_{2}}

8.2 矩阵范数

\frac{\partial ∥ X ∥_{F}^{2}}{\partial X} = \frac{\partial tr (X^{⊤} X)}{\partial X} = 2 X

\frac{\partial ∥ A X - B ∥_{F}^{2}}{\partial X} = 2 A^{⊤} (A X - B)

\frac{\partial ∥ X A - B ∥_{F}^{2}}{\partial X} = 2 (X A - B) A^{⊤}

9. 链式法则（Chain Rule）

9.1 标量情形

设 $y = f (g (x))$ ，则：

\frac{d y}{d x_{i}} = \frac{d y}{d g} \cdot \frac{d g}{d x_{i}}

9.2 向量情形

设 $z = g (x) \in R^{k}$ ， $y = f (z) \in R$ ，则：

\frac{\partial y}{\partial x} = J_{g}^{⊤} \frac{\partial y}{\partial z}

其中 $J_{g} = \frac{\partial z}{\partial x} \in R^{k \times n}$ 是 $g$ 的 Jacobian， $\frac{\partial y}{\partial z} \in R^{k}$ 是 $f$ 对中间量的梯度。

9.3 计算图与链式法则

神经网络的前向传播定义了一个计算图（computation graph），反向传播正是在图上从输出到输入逐层应用链式法则：

输入 x
  → 线性变换: z = Wx + b
  → 激活函数: a = σ(z)
  → 线性变换: o = Va + c
  → 损失: L = loss(o, y)

反向传播（梯度从右向左流动）：
  ∂L/∂o  →  ∂L/∂V = (∂L/∂o) · aᵀ  , ∂L/∂a = Vᵀ · (∂L/∂o)
         →  ∂L/∂z = diag(σ'(z)) · ∂L/∂a
         →  ∂L/∂W = (∂L/∂z) · xᵀ  , ∂L/∂x = Wᵀ · (∂L/∂z)

10. 反向传播（Backpropagation）

10.1 本质

反向传播是链式法则在计算图上的高效实现，避免了重复计算：

前向传播：计算每个节点的值并缓存（供反向时使用）；
反向传播：从损失节点出发，依链式法则逆向计算每个参数的梯度。

10.2 线性层的梯度

对层 $y = W x + b$ ，设上游梯度为 $\frac{\partial L}{\partial y} = δ$ ，则：

\frac{\partial L}{\partial W} = δ x^{⊤}, \frac{\partial L}{\partial b} = δ, \frac{\partial L}{\partial x} = W^{⊤} δ

对批量数据 $Y = X W^{⊤} + 1 b^{⊤}$ （ $X \in R^{B \times d_{i n}}$ ， $W \in R^{d_{o u t} \times d_{i n}}$ ）：

\frac{\partial L}{\partial W} = Δ^{⊤} X, \frac{\partial L}{\partial b} = Δ^{⊤} 1, \frac{\partial L}{\partial X} = Δ W

其中 $Δ = \frac{\partial L}{\partial Y} \in R^{B \times d_{o u t}}$ 。

10.3 Softmax + Cross-Entropy 的梯度

设 $p = softmax (z)$ ， $L = - \sum_{k} y_{k} \log p_{k}$ （交叉熵），则：

\frac{\partial L}{\partial z} = p - y

这一简洁的结果是 softmax 与交叉熵组合时 Jacobian 化简的结果。

11. 常用矩阵恒等式

在推导梯度时，矩阵求逆恒等式可以大幅简化计算，尤其在高斯过程、卡尔曼滤波和稀疏注意力中频繁出现。

11.1 Woodbury 矩阵恒等式

(A + U B V)^{- 1} = A^{- 1} - A^{- 1} U (B^{- 1} + V A^{- 1} U)^{- 1} V A^{- 1}

其中 $A \in R^{n \times n}$ ， $U \in R^{n \times k}$ ， $B \in R^{k \times k}$ ， $V \in R^{k \times n}$ 。

意义：将一个 $n \times n$ 矩阵的求逆问题转化为一个 $k \times k$ 矩阵的求逆（ $k ≪ n$ 时高效）。

11.2 Sherman-Morrison 公式

Woodbury 恒等式在 $U = b$ ， $V = c^{⊤}$ ， $B = 1$ 时退化为：

(A + b c^{⊤})^{- 1} = A^{- 1} - \frac{A^{- 1} b c^{⊤} A^{- 1}}{1 + c^{⊤} A^{- 1} b}

意义：已知 $A^{- 1}$ ，对 $A$ 做秩-1 更新后高效更新逆矩阵，无需重新求逆。

11.3 矩阵求逆引理（Push-through identity）

A (I + B A)^{- 1} = (I + A B)^{- 1} A

(I + A B)^{- 1} A = A (I + B A)^{- 1}

12. 常见梯度公式速查

12.1 对向量的梯度

\nabla_{x} (a^{⊤} x) = a

\nabla_{x} (x^{⊤} A x) = (A + A^{⊤}) x = 2 A x (A 对称)

\nabla_{x} ∥ x - b ∥^{2} = 2 (x - b)

12.2 对矩阵的梯度

\frac{\partial}{\partial W} ∥ X W - Y ∥_{F}^{2} = 2 X^{⊤} (X W - Y)

\frac{\partial}{\partial W} tr (W^{⊤} A W) = (A + A^{⊤}) W = 2 A W (A 对称)

\frac{\partial}{\partial Σ} \log det (Σ) = Σ^{- ⊤} = Σ^{- 1} (Σ 对称正定)

在 AI 中的应用

概念	AI/ML 中的体现
梯度 $\nabla_{θ} L$	参数更新方向；SGD、Adam 的输入
Jacobian	每层的"敏感度矩阵"；反向传播中梯度的"转发矩阵"
Hessian	二阶优化（Newton、K-FAC）；loss 曲面曲率分析；学习率选择
迹导数 $\partial tr (A B) / \partial A$	推导 LayerNorm、Attention 的参数梯度
$\partial \ln det (Σ) / \partial Σ = Σ^{- 1}$	高斯分布对数似然对协方差矩阵的梯度
Woodbury 恒等式	稀疏/低秩注意力计算；线性时间 Transformer；高斯过程推断
Sherman-Morrison	在线学习中的秩-1 更新；BFGS 拟牛顿法
$\partial L / \partial z = p - y$ （softmax+CE）	分类模型的最终梯度，推动参数更新

矩阵微积分 ​

1. 符号约定 ​

2. 基本微分法则 ​

3. 梯度（Gradient） ​

3.1 标量对向量求导 ​

3.2 向量/矩阵形式的一阶导数 ​

4. Jacobian 矩阵 ​

4.1 定义 ​

4.2 常用 Jacobian ​

5. Hessian 矩阵 ​

5.1 定义 ​

5.2 Hessian 与优化 ​

6. 迹导数（Trace Derivatives） ​

7. 行列式与逆矩阵导数 ​

7.1 行列式的导数 ​

7.2 逆矩阵的导数 ​

8. 范数导数 ​

8.1 向量范数 ​

8.2 矩阵范数 ​

9. 链式法则（Chain Rule） ​

9.1 标量情形 ​

9.2 向量情形 ​

9.3 计算图与链式法则 ​

10. 反向传播（Backpropagation） ​

10.1 本质 ​

10.2 线性层的梯度 ​

10.3 Softmax + Cross-Entropy 的梯度 ​

11. 常用矩阵恒等式 ​

11.1 Woodbury 矩阵恒等式 ​

11.2 Sherman-Morrison 公式 ​

11.3 矩阵求逆引理（Push-through identity） ​

12. 常见梯度公式速查 ​

12.1 对向量的梯度 ​

12.2 对矩阵的梯度 ​

在 AI 中的应用 ​