Skip to content

内积空间

内积空间在线性空间的基础上引入了几何结构:长度、角度、正交性。这些概念在 AI 中无处不在——注意力机制的相似度计算、LoRA 的低秩压缩、PCA 的主成分提取,都离不开内积与正交的思想。

1. 欧氏空间与内积

1.1 什么是欧氏空间

欧氏空间(Euclidean Space)通常指的是带有内积的实向量空间,最典型的例子是 Rn

在欧氏空间中,我们可以定义:

  • 内积(inner product):衡量两个向量之间的"相关程度";
  • 范数(norm):衡量向量的"长度";
  • 夹角(angle):衡量两向量的方向关系;
  • 正交性(orthogonality):两向量互相垂直;
  • 正交基(orthogonal basis)与标准正交基(orthonormal basis)。

1.2 内积的定义

内积是定义在向量空间 V 上的一个二元运算 ,:V×VR,满足:

性质公式
对称性u,v=v,u
线性性(第一分量)cu+w,v=cu,v+w,v
正定性v,v0,且 v,v=0v=0

内积是抽象的。Rn 中最常用的是点积(dot product)u,v=uv=iuivi,但也可以定义加权内积 u,vA=uAv(其中 A 正定)等各种形式。

1.3 范数与夹角

由内积导出的**(欧氏)范数**:

v=v,v

两向量之间的夹角 θ

cosθ=u,vuv

两向量正交(orthogonal):u,v=0(即 θ=90°)。

Cauchy-Schwarz 不等式

|u,v|uv

2. 正交基与标准正交基

2.1 正交基

向量组 {u1,u2,,un}正交基(orthogonal basis),若:

  • 任意两个不同向量正交:ui,uj=0ij
  • 每个向量非零:ui0

2.2 标准正交基

在正交基的基础上,要求每个向量都是单位向量(长度为 1),即得到标准正交基(orthonormal basis):

qi,qj=δij={1i=j0ij

用矩阵表示:若 Q=[q1q2qn],则 QQ=I

2.3 正交基的优势

  • 投影简单:向量 vqi 方向的投影系数 ci=v,qi
  • 坐标计算直接v=iv,qiqi
  • 数值稳定性好:避免了普通基的条件数问题。

3. Gram-Schmidt 正交化

3.1 目的

Gram-Schmidt 正交化(Gram-Schmidt Orthogonalization)的目的是:给定一组任意基 {v1,v2,,vn},构造出一组等价的标准正交基 {q1,q2,,qn}(张成同一个空间)。

3.2 算法过程

第一步:取 v1,单位化:

u1=v1,q1=u1u1

第二步:从 v2 中减去在 q1 方向的分量(投影),再单位化:

u2=v2v2,q1q1,q2=u2u2

k:从 vk 中减去在所有已有基向量方向上的投影:

uk=vkj=1k1vk,qjqj,qk=ukuk

直觉:每一步都是"去掉已有方向的成分,保留垂直方向的新信息"。

4. QR 分解

4.1 定义

ARm×nmn,列线性无关),则 A 可以分解为:

A=QR

其中:

  • QRm×n 的列是标准正交的(QQ=In);
  • RRn×n上三角矩阵(且对角线元素为正)。

4.2 从 Gram-Schmidt 推导 QR

A=[a1a2an] 施行 Gram-Schmidt,得到标准正交基 Q=[q1qn]

由于每个 ajq1,,qj 的线性组合,可以写出:

aj=i=1jrijqi=r1jq1+r2jq2++rjjqj

其中 rij=aj,qii<j),rjj=uj。用矩阵形式即得 A=QRR(i,j) 元素 rij=qiajij),i>j 时为 0。

4.3 为什么要用"标准正交"?

因为我们需要 QQ=I,从而:

A=QRQA=QQR=IR=R

可以直接用 R=QA 快速求出 R

Q 只是正交(列之间正交但长度 1),则 QQ=DI(对角矩阵),需要额外处理对角缩放,计算更复杂,且数值稳定性更差。

4.4 QR 分解的应用

应用说明
最小二乘AAx=Ab 化为 Rx=Qb,后向代入即可
数值稳定比直接用 (AA)1 条件数更小
正交基提取Q 的列就是 A 的列空间的标准正交基

5. 正交矩阵

5.1 定义

方阵 QRn×n正交矩阵(orthogonal matrix),若:

QQ=QQ=I

Q1=Q。正交矩阵的列(同时也是行)构成 Rn 的标准正交基。

5.2 正交矩阵的性质

性质说明
det(Q)=±1保持(或翻转)有向体积
|Qx|=|x|保持向量长度(等距变换)
Qu,Qv=u,v保持内积(即保持夹角)
特征值模为 1实正交矩阵的特征值为 ±1 或共轭复数对 e±iθ

正交矩阵代表的变换是旋转det=1)或旋转+反射det=1)。

6. 正交对角化

6.1 从对角化到正交对角化

线性变换中,我们讨论了矩阵对角化 A=PDP1,其中 P 是特征向量矩阵(不要求正交)。

正交对角化(Orthogonal Diagonalization)要求更强:P 不仅可逆,而且是正交矩阵(即 P1=P),从而:

A=QDQ

其中 Q 是正交矩阵,D 是对角矩阵。

6.2 可正交对角化的条件

谱定理(Spectral Theorem):实矩阵 A 可正交对角化,当且仅当 A对称矩阵A=A)。

对称矩阵的美好性质:

  • 特征值全为实数
  • 不同特征值对应的特征向量两两正交
  • 一定有 n 个线性无关的特征向量(可对角化)。

6.3 正交对角化算法

  1. 验证 A=A
  2. 求特征多项式 det(λIA)=0,解出特征值 λ1,,λk(实数);
  3. 对每个特征值求特征子空间,在子空间内用 Gram-Schmidt 正交化得到正交特征向量;
  4. 将所有特征向量单位化,排成 QD=diag(λ1,,λn)
  5. 验证 A=QDQ

7. 奇异值分解(SVD)

7.1 动机

特征值分解要求方阵且(理想情况下)可对角化,但实际中的矩阵往往是长方形的(如数据矩阵 XRm×nmn)。奇异值分解(Singular Value Decomposition, SVD)推广了特征值分解,适用于任意矩阵。

7.2 SVD 的定义

任意矩阵 ARm×nmn)可以分解为:

A=UΣV

其中:

  • URm×m:正交矩阵,列向量称为左奇异向量
  • ΣRm×n:对角形矩阵,对角线上是奇异值 σ1σ2σr>0r=rank(A)),其余位置为 0;
  • VRn×n:正交矩阵,列向量称为右奇异向量

7.3 SVD 与特征值的关系

AA=VΣUUΣV=V(ΣΣ)VAA=UΣVVΣU=U(ΣΣ)U

即:V 的列是 AA 的特征向量,U 的列是 AA 的特征向量,奇异值 σi=λi(AA)

7.4 低秩近似(Truncated SVD)

取前 k 个奇异值和对应的奇异向量:

AAk=UkΣkVk=i=1kσiuivi

Ak 是所有秩不超过 k 的矩阵中,与 A 的 Frobenius 范数意义下最接近的矩阵(Eckart-Young 定理)。

7.5 SVD 的应用

应用说明
PCA数据矩阵的右奇异向量即主成分方向;奇异值反映主成分的重要性
LoRA用低秩矩阵 BA 近似权重更新 ΔW,减少参数量
图像压缩保留前 k 个奇异值,压缩存储
推荐系统矩阵分解找出用户-物品的潜在因子
数值求解求矩阵的伪逆 A+=VΣ+U

8. 二次型

8.1 定义

xRnARn×n 是对称矩阵(A=A),形式:

Q(x)=xAx=i,jAijxixj

称为由 A 定义的二次型(quadratic form)。

8.2 二次型的规范化

利用对称矩阵的正交对角化 A=QDQ,令 y=Qx(坐标变换),则:

Q(x)=xQDQx=yDy=i=1nλiyi2

二次型在特征向量基下化为只含平方项的标准形

8.3 二次型的符号

二次型的符号由矩阵 A 的特征值决定:

A 的类型特征值条件Q(x) 的符号
正定(PD)所有 λi>0>0x0
正半定(PSD)所有 λi00
负定(ND)所有 λi<0<0x0
不定(Indefinite)有正有负无确定符号

二次型的正定性在优化和统计中至关重要,详见正定与半正定矩阵

在 AI 中的应用

概念AI/ML 中的体现
内积注意力分数 score(Q,K)=QKdk;余弦相似度
范数L2 正则化 |θ|2;梯度裁剪 ||
正交基数值稳定的权重初始化(正交初始化)
Gram-Schmidt正交化多头注意力的 Q,K 空间
QR 分解最小二乘回归的数值求解;线性层的正交正则化
SVD / 低秩近似LoRA:ΔW=BA;PCA 降维;模型压缩
二次型Loss 的 Hessian 分析;正则化项 xAx

以知识图谱方式组织 AI 学习路径。