矩阵的谱与性质
本章从多个视角分析矩阵的内在性质:秩与迹描述矩阵的"信息量",特征值揭示矩阵的"作用方式",正定性刻画矩阵的"方向性",矩阵范数度量矩阵的"大小",条件数衡量计算的"稳定性"。这些工具在优化、统计和深度学习中无处不在。
1. 秩(Rank)
1.1 定义
矩阵
1.2 基本性质
| 性质 | 公式 |
|---|---|
| 上界 | |
| 满秩 | |
| 转置不变 | |
| 乘积上界 | |
| 秩-零化度定理 | |
| 加法 |
1.3 低秩结构
若矩阵的秩
存储开销从
2. 迹(Trace)
2.1 定义
方阵
2.2 基本性质
| 性质 | 公式 |
|---|---|
| 线性 | |
| 转置不变 | |
| 循环置换 | |
| 与特征值的关系 | |
| 内积形式 |
循环置换性质
3. 特征值与特征向量
3.1 定义
设
则称
几何直觉:特征向量是被矩阵变换后方向不变(只发生伸缩)的向量,
特征向量不能是零向量。特征值可以是负数或零(甚至复数)。
更具体地说,矩阵会把一般向量旋转、剪切、拉伸到新的方向;而特征向量是其中的“稳定方向”。沿这些方向观察矩阵,复杂的线性变换会退化成一个标量倍数:
:沿该方向被放大; :沿该方向被压缩; :方向被反向,并按 缩放; :该方向被压到零空间中。
因此,特征值描述的是矩阵在关键方向上的作用强度。最大特征值的模常用于判断迭代系统是否稳定;最小特征值是否接近 0,则常提示矩阵可能接近奇异,数值计算会变得不稳定。
3.2 特征多项式
由
展开得关于
其根即为所有特征值(在复数域内共有
3.3 特征子空间
对应于特征值
其维数称为
3.4 关键性质汇总
| 性质 | 说明 |
|---|---|
| 迹等于特征值之和 | |
| 行列式等于特征值之积 | |
| 非零特征值个数 | 秩决定了非零特征值的上限 |
| 不同特征值的特征向量线性无关 | 可用于构造对角化 |
| 相似矩阵具有相同特征值 | 特征值是线性变换的内在性质 |
这些性质的意义在于:迹和行列式把矩阵的整体信息压缩成两个标量;可逆性由是否存在零特征值决定;相似不变性说明特征值不依赖坐标系选择,而是线性变换本身的属性。
3.5 实对称矩阵的特殊性质
实对称矩阵(
- 特征值全为实数;
- 不同特征值对应的特征向量互相正交;
- 一定可以正交对角化:
( 正交, 对角)。
这是谱定理(Spectral Theorem)的核心内容,也是 PCA 和 SVD 的理论基础。直观上,实对称矩阵不会产生难以分离的“斜向剪切”:在一组正交坐标轴上,它只是在每个轴向上独立缩放。PCA 正是利用这一点,把数据方差最大的方向作为新的坐标轴。
4. 矩阵对角化
4.1 定义
若存在可逆矩阵
其中
的对角线上是 的特征值; 的列向量是对应的特征向量。
4.2 可对角化的条件
等价地:每个特征值的几何重数
若
4.3 正交对角化
若
其中
4.4 对角化的应用
矩阵幂运算转化为标量幂运算,大幅简化计算。RNN 梯度传播中的梯度消失/爆炸,本质上就是权重矩阵特征值绝对值反复相乘的结果(
5. 正定与半正定矩阵
5.1 正定矩阵
实对称矩阵
几何意义:正定矩阵定义的二次型曲面是严格"碗状",有唯一最小值(在原点)。
从二次型看,
特征值给出了更直接的判断方式:正定矩阵在每个特征方向上都产生正缩放,最小特征值越大,碗底越“陡”;最小特征值越接近 0,某些方向越平坦,问题也越容易病态。
等价条件(以下任一条成立即可判定
| 条件 | 说明 |
|---|---|
| 所有特征值 | 谱条件 |
| 存在满秩 | 分解条件 |
| 所有顺序主子式 | Sylvester 判别法 |
| 存在 Cholesky 分解 | 数值应用( |
5.2 半正定矩阵
实对称矩阵
等价条件:
| 条件 | 说明 |
|---|---|
| 所有特征值 | 谱条件 |
| 存在矩阵 | 分解条件 |
| 所有主子式 | Sylvester 弱版本 |
5.3 矩阵类型对照
| 类型 | 符号 | 条件 | 特征值 | 几何形状 |
|---|---|---|---|---|
| 正定(PD) | 全 | 严格碗状 | ||
| 正半定(PSD) | 全 | 碗状(允许平坦方向) | ||
| 半负定(NSD) | 全 | 倒碗(允许平坦方向) | ||
| 负定(ND) | 全 | 严格倒碗 | ||
| 不定 | — | 以上均不满足 | 有正有负 | 马鞍面 |
5.4 AI 中的应用
| 场景 | 正定/半正定的作用 |
|---|---|
| Hessian 矩阵 | |
| 协方差矩阵 | 总是 PSD;若数据满秩则 PD |
| 高斯分布 | 要求 |
| Ridge 回归 | |
| 核函数 Gram 矩阵 | 必须 PSD(Mercer 条件),保证为合法核函数 |
| Mahalanobis 距离 |
6. 矩阵范数
6.1 为什么需要矩阵范数?
向量有范数(长度),矩阵也需要一种"大小"度量,用于:分析变换的"放大倍数"、衡量矩阵间的距离、正则化损失函数、分析训练稳定性。
6.2 Frobenius 范数
- 等同于将矩阵展开为向量后取
范数; - 与 SVD 的关系:
( 为奇异值); - 常用于权重衰减(weight decay)正则化:
。
6.3 谱范数(算子范数)
- 等于矩阵最大奇异值;
- 几何意义:
对单位球面上向量的最大拉伸倍数; - 用于谱归一化(Spectral Normalization):通过约束每层权重的谱范数控制 Lipschitz 常数,稳定 GAN 训练。
6.4 核范数(迹范数)
- 等于奇异值之和;
- 是秩(rank)的凸松弛(convex relaxation);
- 用于矩阵补全、推荐系统中的低秩约束。
7. 条件数
7.1 定义
矩阵
(取谱范数时,条件数等于最大奇异值与最小非零奇异值之比。)
7.2 直觉
条件数衡量线性系统
(良态): 的小扰动导致 的小变化,数值稳定; (病态): 的微小扰动可能导致 的剧烈变化,数值不稳定。
精度为
的浮点运算,在条件数为 的矩阵上,结果最多有 位有效数字损失。
7.3 在 AI 中的意义
| 场景 | 条件数的影响 |
|---|---|
| 梯度下降 | Hessian 条件数大 → loss 曲面细长 → 梯度下降震荡慢收敛 |
| 批归一化(BatchNorm) | 归一化输入降低激活层的"有效条件数",加速训练 |
| 注意力权重 | 训练初期 |
| 矩阵求逆 | 条件数大的矩阵求逆数值误差大,故 Ridge 回归加 |
8. Rayleigh 商
8.1 定义
对实对称矩阵
8.2 性质
- 最大值在
为最大特征向量时取到; - 最小值在
为最小特征向量时取到。
Rayleigh 商提供了一种不直接求解特征方程、仅通过优化来逼近最大/最小特征值的方法,是 PCA、LDA 等方法的理论基础。
在 AI 中的完整图景
矩阵的谱
├── 特征值全 > 0 → 正定矩阵 → 凸优化、高斯分布
├── 特征值全 ≥ 0 → 半正定矩阵 → 协方差、核方法
├── 最大特征值 → 谱范数 → Lipschitz 约束、GAN 稳定性
├── 特征值之比 → 条件数 → 优化收敛速度、数值稳定性
└── 特征值之和 → 迹 → 矩阵微积分中的梯度公式
低秩结构
├── rank(A) = r ≪ n → 低秩矩阵 → LoRA、PCA、矩阵补全
└── 奇异值分解 (SVD) → 见内积空间章节