内积空间
内积空间在线性空间的基础上引入了几何结构:长度、角度、正交性。这些概念在 AI 中无处不在——注意力机制的相似度计算、LoRA 的低秩压缩、PCA 的主成分提取,都离不开内积与正交的思想。
1. 欧氏空间与内积
1.1 什么是欧氏空间
欧氏空间(Euclidean Space)通常指的是带有内积的实向量空间,最典型的例子是
在欧氏空间中,我们可以定义:
- 内积(inner product):衡量两个向量之间的"相关程度";
- 范数(norm):衡量向量的"长度";
- 夹角(angle):衡量两向量的方向关系;
- 正交性(orthogonality):两向量互相垂直;
- 正交基(orthogonal basis)与标准正交基(orthonormal basis)。
1.2 内积的定义
内积是定义在向量空间
| 性质 | 公式 |
|---|---|
| 对称性 | |
| 线性性(第一分量) | |
| 正定性 |
内积是抽象的。
中最常用的是点积(dot product) ,但也可以定义加权内积 (其中 正定)等各种形式。
1.3 范数与夹角
由内积导出的**(欧氏)范数**:
两向量之间的夹角
两向量正交(orthogonal):
Cauchy-Schwarz 不等式:
2. 正交基与标准正交基
2.1 正交基
向量组
- 任意两个不同向量正交:
对 ; - 每个向量非零:
。
2.2 标准正交基
在正交基的基础上,要求每个向量都是单位向量(长度为 1),即得到标准正交基(orthonormal basis):
用矩阵表示:若
2.3 正交基的优势
- 投影简单:向量
在 方向的投影系数 ; - 坐标计算直接:
; - 数值稳定性好:避免了普通基的条件数问题。
3. Gram-Schmidt 正交化
3.1 目的
Gram-Schmidt 正交化(Gram-Schmidt Orthogonalization)的目的是:给定一组任意基
3.2 算法过程
第一步:取
第二步:从
第
直觉:每一步都是"去掉已有方向的成分,保留垂直方向的新信息"。
4. QR 分解
4.1 定义
设
其中:
的列是标准正交的( ); 是上三角矩阵(且对角线元素为正)。
4.2 从 Gram-Schmidt 推导 QR
对
由于每个
其中
4.3 为什么要用"标准正交"?
因为我们需要
可以直接用
若
4.4 QR 分解的应用
| 应用 | 说明 |
|---|---|
| 最小二乘 | |
| 数值稳定 | 比直接用 |
| 正交基提取 |
5. 正交矩阵
5.1 定义
方阵
即
5.2 正交矩阵的性质
| 性质 | 说明 |
|---|---|
| 保持(或翻转)有向体积 | |
| 保持向量长度(等距变换) | |
| 保持内积(即保持夹角) | |
| 特征值模为 1 | 实正交矩阵的特征值为 |
正交矩阵代表的变换是旋转(
6. 正交对角化
6.1 从对角化到正交对角化
在线性变换中,我们讨论了矩阵对角化
正交对角化(Orthogonal Diagonalization)要求更强:
其中
6.2 可正交对角化的条件
谱定理(Spectral Theorem):实矩阵
可正交对角化,当且仅当 是对称矩阵( )。
对称矩阵的美好性质:
- 特征值全为实数;
- 不同特征值对应的特征向量两两正交;
- 一定有
个线性无关的特征向量(可对角化)。
6.3 正交对角化算法
- 验证
; - 求特征多项式
,解出特征值 (实数); - 对每个特征值求特征子空间,在子空间内用 Gram-Schmidt 正交化得到正交特征向量;
- 将所有特征向量单位化,排成
; ; - 验证
。
7. 奇异值分解(SVD)
7.1 动机
特征值分解要求方阵且(理想情况下)可对角化,但实际中的矩阵往往是长方形的(如数据矩阵
7.2 SVD 的定义
任意矩阵
其中:
:正交矩阵,列向量称为左奇异向量; :对角形矩阵,对角线上是奇异值 ( ),其余位置为 0; :正交矩阵,列向量称为右奇异向量。
7.3 SVD 与特征值的关系
即:
7.4 低秩近似(Truncated SVD)
取前
7.5 SVD 的应用
| 应用 | 说明 |
|---|---|
| PCA | 数据矩阵的右奇异向量即主成分方向;奇异值反映主成分的重要性 |
| LoRA | 用低秩矩阵 |
| 图像压缩 | 保留前 |
| 推荐系统 | 矩阵分解找出用户-物品的潜在因子 |
| 数值求解 | 求矩阵的伪逆 |
8. 二次型
8.1 定义
设
称为由
8.2 二次型的规范化
利用对称矩阵的正交对角化
二次型在特征向量基下化为只含平方项的标准形。
8.3 二次型的符号
二次型的符号由矩阵
| 特征值条件 | ||
|---|---|---|
| 正定(PD) | 所有 | |
| 正半定(PSD) | 所有 | |
| 负定(ND) | 所有 | |
| 不定(Indefinite) | 有正有负 | 无确定符号 |
二次型的正定性在优化和统计中至关重要,详见正定与半正定矩阵。
在 AI 中的应用
| 概念 | AI/ML 中的体现 |
|---|---|
| 内积 | 注意力分数 |
| 范数 | L2 正则化 |
| 正交基 | 数值稳定的权重初始化(正交初始化) |
| Gram-Schmidt | 正交化多头注意力的 |
| QR 分解 | 最小二乘回归的数值求解;线性层的正交正则化 |
| SVD / 低秩近似 | LoRA: |
| 二次型 | Loss 的 Hessian 分析;正则化项 |