Skip to content

矩阵的谱与性质

本章从多个视角分析矩阵的内在性质:秩与迹描述矩阵的"信息量",特征值揭示矩阵的"作用方式",正定性刻画矩阵的"方向性",矩阵范数度量矩阵的"大小",条件数衡量计算的"稳定性"。这些工具在优化、统计和深度学习中无处不在。

1. 秩(Rank)

1.1 定义

矩阵 ARm×n(rank)rank(A) 是其列空间(等价地,行空间)的维数,等于 RREF 中主元的个数。

rank(A)=dim(Col(A))=dim(Row(A))

1.2 基本性质

性质公式
上界rank(A)min(m,n)
满秩rank(A)=min(m,n)(列满秩或行满秩)
转置不变rank(A)=rank(A)
乘积上界rank(AB)min(rank(A),rank(B))
秩-零化度定理rank(A)+nullity(A)=n
加法rank(A+B)rank(A)+rank(B)

1.3 低秩结构

若矩阵的秩 rmin(m,n),则称其为低秩矩阵(low-rank matrix)。低秩矩阵可以分解为:

A=UV,URm×r, VRn×r

存储开销从 mn 降为 r(m+n)。LoRA 正是利用这一思想,用 ΔW=BABRd×rARr×d)近似大矩阵的更新。

2. 迹(Trace)

2.1 定义

方阵 ARn×n(trace)是主对角线元素之和:

tr(A)=i=1nAii

2.2 基本性质

性质公式
线性tr(A+B)=tr(A)+tr(B)tr(cA)=ctr(A)
转置不变tr(A)=tr(A)
循环置换tr(ABC)=tr(BCA)=tr(CAB)
与特征值的关系tr(A)=i=1nλi
内积形式tr(AB)=i,jAijBij(Frobenius 内积)

循环置换性质 tr(AB)=tr(BA) 在矩阵微积分中极为有用(即使 ABBA)。

3. 特征值与特征向量

3.1 定义

ARn×n。若存在非零向量 vRn 和标量 λ,使得:

Av=λv

则称 λA特征值(eigenvalue),v 为对应的特征向量(eigenvector)。

几何直觉:特征向量是被矩阵变换后方向不变(只发生伸缩)的向量,λ 是伸缩比例。

特征向量不能是零向量。特征值可以是负数或零(甚至复数)。

更具体地说,矩阵会把一般向量旋转、剪切、拉伸到新的方向;而特征向量是其中的“稳定方向”。沿这些方向观察矩阵,复杂的线性变换会退化成一个标量倍数:

  • λ>1:沿该方向被放大;
  • 0<λ<1:沿该方向被压缩;
  • λ<0:方向被反向,并按 |λ| 缩放;
  • λ=0:该方向被压到零空间中。

因此,特征值描述的是矩阵在关键方向上的作用强度。最大特征值的模常用于判断迭代系统是否稳定;最小特征值是否接近 0,则常提示矩阵可能接近奇异,数值计算会变得不稳定。

3.2 特征多项式

Av=λv(λIA)v=0,要使非零解存在,系数矩阵须奇异:

det(λIA)=0

展开得关于 λn 次多项式——特征多项式(characteristic polynomial):

fA(λ)=det(λInA)

其根即为所有特征值(在复数域内共有 n 个,计重数)。

3.3 特征子空间

对应于特征值 λ特征子空间(eigenspace):

Eλ=ker(λIA)={vRnAv=λv}

其维数称为 λ几何重数(geometric multiplicity);λ 作为特征多项式的根的重数称为代数重数(algebraic multiplicity)。

3.4 关键性质汇总

性质说明
tr(A)=iλi迹等于特征值之和
det(A)=iλi行列式等于特征值之积
A 可逆 0 不是特征值λ=0 的特征子空间 =Null(A)
非零特征值个数 rank(A)秩决定了非零特征值的上限
不同特征值的特征向量线性无关可用于构造对角化
相似矩阵具有相同特征值特征值是线性变换的内在性质

这些性质的意义在于:迹和行列式把矩阵的整体信息压缩成两个标量;可逆性由是否存在零特征值决定;相似不变性说明特征值不依赖坐标系选择,而是线性变换本身的属性。

3.5 实对称矩阵的特殊性质

实对称矩阵(A=A)的特征值具有非常好的性质:

  • 特征值全为实数
  • 不同特征值对应的特征向量互相正交
  • 一定可以正交对角化:A=QΛQQ 正交,Λ 对角)。

这是谱定理(Spectral Theorem)的核心内容,也是 PCA 和 SVD 的理论基础。直观上,实对称矩阵不会产生难以分离的“斜向剪切”:在一组正交坐标轴上,它只是在每个轴向上独立缩放。PCA 正是利用这一点,把数据方差最大的方向作为新的坐标轴。

4. 矩阵对角化

4.1 定义

若存在可逆矩阵 P,使得:

A=PDP1

其中 D=diag(λ1,,λn) 是对角矩阵,则称 A 可对角化(diagonalizable)。此时:

  • D 的对角线上是 A 的特征值;
  • P 的列向量是对应的特征向量。

4.2 可对角化的条件

ARn×n 可对角化 An 个线性无关的特征向量。

等价地:每个特征值的几何重数 = 代数重数。

An 个不同的特征值,则 A 必定可对角化(充分条件)。

4.3 正交对角化

A=A(实对称矩阵),则 A正交对角化

A=QΛQ

其中 Q 是正交矩阵(QQ=I),Λ 是对角矩阵。这比一般对角化更强,要求特征向量构成标准正交基。

4.4 对角化的应用

Ak=PDkP1=P[λ1kλnk]P1

矩阵幂运算转化为标量幂运算,大幅简化计算。RNN 梯度传播中的梯度消失/爆炸,本质上就是权重矩阵特征值绝对值反复相乘的结果(|λ|<1 → 消失,|λ|>1 → 爆炸)。

5. 正定与半正定矩阵

5.1 正定矩阵

实对称矩阵 ARn×n正定矩阵(positive definite, PD),当且仅当对所有非零向量 xRn

xAx>0(A0)

几何意义:正定矩阵定义的二次型曲面是严格"碗状",有唯一最小值(在原点)。

从二次型看,xAx 可以理解为方向 x 上的“能量”或“曲率”。正定表示所有非零方向上的能量都严格为正,因此没有平坦方向,也没有向下弯曲的方向。在优化中,Hessian 正定意味着局部形状像一个严格凸的碗;在统计中,协方差矩阵半正定来自一个基本事实:任意线性组合的方差都不可能为负。

特征值给出了更直接的判断方式:正定矩阵在每个特征方向上都产生正缩放,最小特征值越大,碗底越“陡”;最小特征值越接近 0,某些方向越平坦,问题也越容易病态。

等价条件(以下任一条成立即可判定 A0):

条件说明
所有特征值 λi>0谱条件
存在满秩 B 使得 A=BB分解条件
所有顺序主子式 det(Ak)>0Sylvester 判别法
存在 Cholesky 分解 A=LL数值应用(L 对角线元素全正)

5.2 半正定矩阵

实对称矩阵 A正半定矩阵(positive semidefinite, PSD),若:

xRn,xAx0(A0)

等价条件

条件说明
所有特征值 λi0谱条件
存在矩阵 B(不要求满秩),使得 A=BB分解条件
所有主子式 0Sylvester 弱版本

5.3 矩阵类型对照

类型符号条件特征值几何形状
正定(PD)A0xAx>0>0严格碗状
正半定(PSD)A0xAx00碗状(允许平坦方向)
半负定(NSD)A0xAx00倒碗(允许平坦方向)
负定(ND)A0xAx<0<0严格倒碗
不定以上均不满足有正有负马鞍面

5.4 AI 中的应用

场景正定/半正定的作用
Hessian 矩阵H0 损失函数严格凸 梯度下降收敛到唯一最小值
协方差矩阵总是 PSD;若数据满秩则 PD
高斯分布 N(μ,Σ)要求 Σ0,确保概率密度函数存在
Ridge 回归XX+λI0(对任意 λ>0),保证可逆性
核函数 Gram 矩阵必须 PSD(Mercer 条件),保证为合法核函数
Mahalanobis 距离d2=(xμ)Σ1(xμ)Σ0 保证距离非负

6. 矩阵范数

6.1 为什么需要矩阵范数?

向量有范数(长度),矩阵也需要一种"大小"度量,用于:分析变换的"放大倍数"、衡量矩阵间的距离、正则化损失函数、分析训练稳定性。

6.2 Frobenius 范数

AF=i,jAij2=tr(AA)
  • 等同于将矩阵展开为向量后取 2 范数;
  • 与 SVD 的关系:AF=iσi2σi 为奇异值);
  • 常用于权重衰减(weight decay)正则化:Lreg=λWF2

6.3 谱范数(算子范数)

A2=σmax(A)=λmax(AA)
  • 等于矩阵最大奇异值;
  • 几何意义:A 对单位球面上向量的最大拉伸倍数;
  • 用于谱归一化(Spectral Normalization):通过约束每层权重的谱范数控制 Lipschitz 常数,稳定 GAN 训练。

6.4 核范数(迹范数)

A=iσi
  • 等于奇异值之和;
  • 是秩(rank)的凸松弛(convex relaxation);
  • 用于矩阵补全、推荐系统中的低秩约束。

7. 条件数

7.1 定义

矩阵 A条件数(condition number)定义为:

κ(A)=AA1=σmaxσmin

(取谱范数时,条件数等于最大奇异值与最小非零奇异值之比。)

7.2 直觉

条件数衡量线性系统 Ax=b 对输入扰动的敏感程度

  • κ(A)1(良态)b 的小扰动导致 x 的小变化,数值稳定;
  • κ(A)1(病态)b 的微小扰动可能导致 x 的剧烈变化,数值不稳定。

精度为 ϵ 的浮点运算,在条件数为 κ 的矩阵上,结果最多有 log10(κ) 位有效数字损失。

7.3 在 AI 中的意义

场景条件数的影响
梯度下降Hessian 条件数大 → loss 曲面细长 → 梯度下降震荡慢收敛
批归一化(BatchNorm)归一化输入降低激活层的"有效条件数",加速训练
注意力权重训练初期 QK/dk 的缩放防止 softmax 进入饱和区(相当于控制条件数)
矩阵求逆条件数大的矩阵求逆数值误差大,故 Ridge 回归加 λI 降低条件数

8. Rayleigh 商

8.1 定义

对实对称矩阵 A 和非零向量 xRayleigh 商(Rayleigh quotient)定义为:

RA(x)=xAxxx

8.2 性质

λmin(A)RA(x)λmax(A)
  • 最大值在 x 为最大特征向量时取到;
  • 最小值在 x 为最小特征向量时取到。

Rayleigh 商提供了一种不直接求解特征方程、仅通过优化来逼近最大/最小特征值的方法,是 PCA、LDA 等方法的理论基础。

在 AI 中的完整图景

矩阵的谱
    ├── 特征值全 > 0  →  正定矩阵  →  凸优化、高斯分布
    ├── 特征值全 ≥ 0  →  半正定矩阵 →  协方差、核方法
    ├── 最大特征值    →  谱范数    →  Lipschitz 约束、GAN 稳定性
    ├── 特征值之比    →  条件数    →  优化收敛速度、数值稳定性
    └── 特征值之和    →  迹        →  矩阵微积分中的梯度公式

低秩结构
    ├── rank(A) = r ≪ n  →  低秩矩阵  →  LoRA、PCA、矩阵补全
    └── 奇异值分解 (SVD) →  见内积空间章节

以知识图谱方式组织 AI 学习路径。