内积空间

内积空间在线性空间的基础上引入了几何结构：长度、角度、正交性。这些概念在 AI 中无处不在——注意力机制的相似度计算、LoRA 的低秩压缩、PCA 的主成分提取，都离不开内积与正交的思想。

1. 欧氏空间与内积

1.1 什么是欧氏空间

欧氏空间（Euclidean Space）通常指的是带有内积的实向量空间，最典型的例子是 $R^{n}$ 。

在欧氏空间中，我们可以定义：

内积（inner product）：衡量两个向量之间的"相关程度"；
范数（norm）：衡量向量的"长度"；
夹角（angle）：衡量两向量的方向关系；
正交性（orthogonality）：两向量互相垂直；
正交基（orthogonal basis）与标准正交基（orthonormal basis）。

1.2 内积的定义

内积是定义在向量空间 $V$ 上的一个二元运算 $⟨ \cdot, \cdot ⟩ : V \times V \to R$ ，满足：

性质	公式
对称性	$⟨ u, v ⟩ = ⟨ v, u ⟩$
线性性（第一分量）	$⟨ c u + w, v ⟩ = c ⟨ u, v ⟩ + ⟨ w, v ⟩$
正定性	$⟨ v, v ⟩ \geq 0$ ，且 $⟨ v, v ⟩ = 0 ⟺ v = 0$

内积是抽象的。 $R^{n}$ 中最常用的是点积（dot product） $⟨ u, v ⟩ = u^{⊤} v = \sum_{i} u_{i} v_{i}$ ，但也可以定义加权内积 $⟨ u, v ⟩_{A} = u^{⊤} A v$ （其中 $A$ 正定）等各种形式。

1.3 范数与夹角

由内积导出的**（欧氏）范数**：

∥ v ∥ = \sqrt{⟨ v, v ⟩}

两向量之间的夹角 $θ$ ：

\cos θ = \frac{⟨ u, v ⟩}{∥ u ∥ \cdot ∥ v ∥}

两向量正交（orthogonal）： $⟨ u, v ⟩ = 0$ （即 $θ = 90 °$ ）。

Cauchy-Schwarz 不等式：

| ⟨ u, v ⟩ | \leq ∥ u ∥ \cdot ∥ v ∥

2. 正交基与标准正交基

2.1 正交基

向量组 ${u_{1}, u_{2}, \dots, u_{n}}$ 是正交基（orthogonal basis），若：

任意两个不同向量正交： $⟨ u_{i}, u_{j} ⟩ = 0$ 对 $i \neq j$ ；
每个向量非零： $u_{i} \neq 0$ 。

2.2 标准正交基

在正交基的基础上，要求每个向量都是单位向量（长度为 1），即得到标准正交基（orthonormal basis）：

⟨ q_{i}, q_{j} ⟩ = δ_{i j} = {\begin{cases} 1 & i = j \\ 0 & i \neq j \end{cases}

用矩阵表示：若 $Q = [q_{1} ∣ q_{2} ∣ \dots ∣ q_{n}]$ ，则 $Q^{⊤} Q = I$ 。

2.3 正交基的优势

投影简单：向量 $v$ 在 $q_{i}$ 方向的投影系数 $c_{i} = ⟨ v, q_{i} ⟩$ ；
坐标计算直接： $v = \sum_{i} ⟨ v, q_{i} ⟩ q_{i}$ ；
数值稳定性好：避免了普通基的条件数问题。

3. Gram-Schmidt 正交化

3.1 目的

Gram-Schmidt 正交化（Gram-Schmidt Orthogonalization）的目的是：给定一组任意基 ${v_{1}, v_{2}, \dots, v_{n}}$ ，构造出一组等价的标准正交基 ${q_{1}, q_{2}, \dots, q_{n}}$ （张成同一个空间）。

3.2 算法过程

第一步：取 $v_{1}$ ，单位化：

u_{1} = v_{1}, q_{1} = \frac{u_{1}}{∥ u_{1} ∥}

第二步：从 $v_{2}$ 中减去在 $q_{1}$ 方向的分量（投影），再单位化：

u_{2} = v_{2} - ⟨ v_{2}, q_{1} ⟩ q_{1}, q_{2} = \frac{u_{2}}{∥ u_{2} ∥}

第 $k$ 步：从 $v_{k}$ 中减去在所有已有基向量方向上的投影：

u_{k} = v_{k} - \sum_{j = 1}^{k - 1} ⟨ v_{k}, q_{j} ⟩ q_{j}, q_{k} = \frac{u_{k}}{∥ u_{k} ∥}

直觉：每一步都是"去掉已有方向的成分，保留垂直方向的新信息"。

4. QR 分解

4.1 定义

设 $A \in R^{m \times n}$ （ $m \geq n$ ，列线性无关），则 $A$ 可以分解为：

A = Q R

其中：

$Q \in R^{m \times n}$ 的列是标准正交的（ $Q^{⊤} Q = I_{n}$ ）；
$R \in R^{n \times n}$ 是上三角矩阵（且对角线元素为正）。

4.2 从 Gram-Schmidt 推导 QR

对 $A = [a_{1} ∣ a_{2} ∣ \dots ∣ a_{n}]$ 施行 Gram-Schmidt，得到标准正交基 $Q = [q_{1} ∣ \dots ∣ q_{n}]$ 。

由于每个 $a_{j}$ 是 $q_{1}, \dots, q_{j}$ 的线性组合，可以写出：

a_{j} = \sum_{i = 1}^{j} r_{i j} q_{i} = r_{1 j} q_{1} + r_{2 j} q_{2} + \dots + r_{j j} q_{j}

其中 $r_{i j} = ⟨ a_{j}, q_{i} ⟩$ （ $i < j$ ）， $r_{j j} = ∥ u_{j} ∥$ 。用矩阵形式即得 $A = Q R$ ， $R$ 的 $(i, j)$ 元素 $r_{i j} = q_{i}^{⊤} a_{j}$ （ $i \leq j$ ）， $i > j$ 时为 0。

4.3 为什么要用"标准正交"？

因为我们需要 $Q^{⊤} Q = I$ ，从而：

A = Q R ⟹ Q^{⊤} A = Q^{⊤} Q R = I R = R

可以直接用 $R = Q^{⊤} A$ 快速求出 $R$ 。

若 $Q$ 只是正交（列之间正交但长度 $\neq 1$ ），则 $Q^{⊤} Q = D \neq I$ （对角矩阵），需要额外处理对角缩放，计算更复杂，且数值稳定性更差。

4.4 QR 分解的应用

应用	说明
最小二乘	$A^{⊤} A x = A^{⊤} b$ 化为 $R x = Q^{⊤} b$ ，后向代入即可
数值稳定	比直接用 $(A^{⊤} A)^{- 1}$ 条件数更小
正交基提取	$Q$ 的列就是 $A$ 的列空间的标准正交基

5. 正交矩阵

5.1 定义

方阵 $Q \in R^{n \times n}$ 是正交矩阵（orthogonal matrix），若：

Q^{⊤} Q = Q Q^{⊤} = I

即 $Q^{- 1} = Q^{⊤}$ 。正交矩阵的列（同时也是行）构成 $R^{n}$ 的标准正交基。

5.2 正交矩阵的性质

性质	说明
$det (Q) = \pm 1$	保持（或翻转）有向体积
$\| Q x \| = \| x \|$	保持向量长度（等距变换）
$⟨ Q u, Q v ⟩ = ⟨ u, v ⟩$	保持内积（即保持夹角）
特征值模为 1	实正交矩阵的特征值为 $\pm 1$ 或共轭复数对 $e^{\pm i θ}$

正交矩阵代表的变换是旋转（ $det = 1$ ）或旋转+反射（ $det = - 1$ ）。

6. 正交对角化

6.1 从对角化到正交对角化

在线性变换中，我们讨论了矩阵对角化 $A = P D P^{- 1}$ ，其中 $P$ 是特征向量矩阵（不要求正交）。

正交对角化（Orthogonal Diagonalization）要求更强： $P$ 不仅可逆，而且是正交矩阵（即 $P^{- 1} = P^{⊤}$ ），从而：

A = Q D Q^{⊤}

其中 $Q$ 是正交矩阵， $D$ 是对角矩阵。

6.2 可正交对角化的条件

谱定理（Spectral Theorem）：实矩阵 $A$ 可正交对角化，当且仅当 $A$ 是对称矩阵（ $A^{⊤} = A$ ）。

对称矩阵的美好性质：

特征值全为实数；
不同特征值对应的特征向量两两正交；
一定有 $n$ 个线性无关的特征向量（可对角化）。

6.3 正交对角化算法

验证 $A = A^{⊤}$ ；
求特征多项式 $det (λ I - A) = 0$ ，解出特征值 $λ_{1}, \dots, λ_{k}$ （实数）；
对每个特征值求特征子空间，在子空间内用 Gram-Schmidt 正交化得到正交特征向量；
将所有特征向量单位化，排成 $Q$ ； $D = diag (λ_{1}, \dots, λ_{n})$ ；
验证 $A = Q D Q^{⊤}$ 。

7. 奇异值分解（SVD）

7.1 动机

特征值分解要求方阵且（理想情况下）可对角化，但实际中的矩阵往往是长方形的（如数据矩阵 $X \in R^{m \times n}$ ， $m \neq n$ ）。奇异值分解（Singular Value Decomposition, SVD）推广了特征值分解，适用于任意矩阵。

7.2 SVD 的定义

任意矩阵 $A \in R^{m \times n}$ （ $m \geq n$ ）可以分解为：

A = U Σ V^{⊤}

其中：

$U \in R^{m \times m}$ ：正交矩阵，列向量称为左奇异向量；
$Σ \in R^{m \times n}$ ：对角形矩阵，对角线上是奇异值 $σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0$ （ $r = rank (A)$ ），其余位置为 0；
$V \in R^{n \times n}$ ：正交矩阵，列向量称为右奇异向量。

7.3 SVD 与特征值的关系

A^{⊤} A = V Σ^{⊤} U^{⊤} U Σ V^{⊤} = V (Σ^{⊤} Σ) V^{⊤}

A A^{⊤} = U Σ V^{⊤} V Σ^{⊤} U^{⊤} = U (Σ Σ^{⊤}) U^{⊤}

即： $V$ 的列是 $A^{⊤} A$ 的特征向量， $U$ 的列是 $A A^{⊤}$ 的特征向量，奇异值 $σ_{i} = \sqrt{λ_{i} (A^{⊤} A)}$ 。

7.4 低秩近似（Truncated SVD）

取前 $k$ 个奇异值和对应的奇异向量：

A \approx A_{k} = U_{k} Σ_{k} V_{k}^{⊤} = \sum_{i = 1}^{k} σ_{i} u_{i} v_{i}^{⊤}

$A_{k}$ 是所有秩不超过 $k$ 的矩阵中，与 $A$ 的 Frobenius 范数意义下最接近的矩阵（Eckart-Young 定理）。

7.5 SVD 的应用

应用	说明
PCA	数据矩阵的右奇异向量即主成分方向；奇异值反映主成分的重要性
LoRA	用低秩矩阵 $B A$ 近似权重更新 $Δ W$ ，减少参数量
图像压缩	保留前 $k$ 个奇异值，压缩存储
推荐系统	矩阵分解找出用户-物品的潜在因子
数值求解	求矩阵的伪逆 $A^{+} = V Σ^{+} U^{⊤}$

8. 二次型

8.1 定义

设 $x \in R^{n}$ ， $A \in R^{n \times n}$ 是对称矩阵（ $A^{⊤} = A$ ），形式：

Q (x) = x^{⊤} A x = \sum_{i, j} A_{i j} x_{i} x_{j}

称为由 $A$ 定义的二次型（quadratic form）。

8.2 二次型的规范化

利用对称矩阵的正交对角化 $A = Q D Q^{⊤}$ ，令 $y = Q^{⊤} x$ （坐标变换），则：

Q (x) = x^{⊤} Q D Q^{⊤} x = y^{⊤} D y = \sum_{i = 1}^{n} λ_{i} y_{i}^{2}

二次型在特征向量基下化为只含平方项的标准形。

8.3 二次型的符号

二次型的符号由矩阵 $A$ 的特征值决定：

$A$ 的类型	特征值条件	$Q (x)$ 的符号
正定（PD）	所有 $λ_{i} > 0$	$> 0$ （ $x \neq 0$ ）
正半定（PSD）	所有 $λ_{i} \geq 0$	$\geq 0$
负定（ND）	所有 $λ_{i} < 0$	$< 0$ （ $x \neq 0$ ）
不定（Indefinite）	有正有负	无确定符号

二次型的正定性在优化和统计中至关重要，详见正定与半正定矩阵。

在 AI 中的应用

概念	AI/ML 中的体现
内积	注意力分数 $score (Q, K) = \frac{Q K^{⊤}}{\sqrt{d_{k}}}$ ；余弦相似度
范数	L2 正则化 $\| θ \|^{2}$ ；梯度裁剪 $\| \nabla \|$
正交基	数值稳定的权重初始化（正交初始化）
Gram-Schmidt	正交化多头注意力的 $Q, K$ 空间
QR 分解	最小二乘回归的数值求解；线性层的正交正则化
SVD / 低秩近似	LoRA： $Δ W = B A$ ；PCA 降维；模型压缩
二次型	Loss 的 Hessian 分析；正则化项 $x^{⊤} A x$

内积空间 ​

1. 欧氏空间与内积 ​

1.1 什么是欧氏空间 ​

1.2 内积的定义 ​

1.3 范数与夹角 ​

2. 正交基与标准正交基 ​

2.1 正交基 ​

2.2 标准正交基 ​

2.3 正交基的优势 ​

3. Gram-Schmidt 正交化 ​

3.1 目的 ​

3.2 算法过程 ​

4. QR 分解 ​

4.1 定义 ​

4.2 从 Gram-Schmidt 推导 QR ​

4.3 为什么要用"标准正交"？ ​

4.4 QR 分解的应用 ​

5. 正交矩阵 ​

5.1 定义 ​

5.2 正交矩阵的性质 ​

6. 正交对角化 ​

6.1 从对角化到正交对角化 ​

6.2 可正交对角化的条件 ​

6.3 正交对角化算法 ​

7. 奇异值分解（SVD） ​

7.1 动机 ​

7.2 SVD 的定义 ​

7.3 SVD 与特征值的关系 ​

7.4 低秩近似（Truncated SVD） ​

7.5 SVD 的应用 ​

8. 二次型 ​

8.1 定义 ​

8.2 二次型的规范化 ​

8.3 二次型的符号 ​

在 AI 中的应用 ​