矩阵与线性方程组

线性代数的起点是线性方程组的求解，而矩阵是这一问题的核心工具。本节从高斯消元出发，系统介绍矩阵的基本运算与分解，并引出行列式这一重要标量量。

1. 线性方程组

一个包含 $m$ 个方程、 $n$ 个未知数的线性方程组可以写成：

{\begin{cases} a_{11} x_{1} + a_{12} x_{2} + \dots + a_{1 n} x_{n} = b_{1} \\ a_{21} x_{1} + a_{22} x_{2} + \dots + a_{2 n} x_{n} = b_{2} \\ ⋮ \\ a_{m 1} x_{1} + a_{m 2} x_{2} + \dots + a_{m n} x_{n} = b_{m} \end{cases}

写成矩阵形式为 $A x = b$ ，其中：

$A \in R^{m \times n}$ 是系数矩阵；
$x \in R^{n}$ 是未知向量；
$b \in R^{m}$ 是常数向量。

增广矩阵（augmented matrix）将系数与常数项拼在一起，便于行变换操作：

[A ∣ b] = [\begin{matrix} a_{11} & \dots & a_{1 n} & b_{1} \\ ⋮ & ⋱ & ⋮ & ⋮ \\ a_{m 1} & \dots & a_{m n} & b_{m} \end{matrix}]

2. 高斯-约当消元法

高斯消元法（Gaussian Elimination）通过对增广矩阵施加初等行变换，将方程组化简为等价但易于求解的形式。

2.1 初等行变换

共有三种基本操作，均不改变方程组的解：

操作	符号	含义
行缩放	$r_{i} \leftarrow c \cdot r_{i}$ （ $c \neq 0$ ）	某行乘以非零常数
行交换	$r_{i} \leftrightarrow r_{j}$	交换两行
行加法	$r_{i} \leftarrow r_{i} + c \cdot r_{j}$	某行加上另一行的常数倍

2.2 阶梯形（REF）与简约阶梯形（RREF）

通过行变换可将矩阵化为：

行阶梯形（Row Echelon Form, REF）：

全零行在最下方；
每行的主元（pivot，第一个非零元）严格位于上一行主元的右侧。

[\begin{matrix} 1 & * & * & * \\ 0 & 1 & * & * \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{matrix}]

简约行阶梯形（Reduced Row Echelon Form, RREF）：

在 REF 的基础上，每个主元为 1，且主元所在列的其他元素都为 0。

RREF 是唯一的，每个矩阵只对应一个 RREF。

2.3 解的存在性与 Rank

设增广矩阵 $[A ∣ b]$ 化为 REF 后，矩阵 $A$ 的秩（rank）= 主元个数。

条件	解的情况
$rank (A) < rank ([A ∣ b])$	无解（矛盾方程）
$rank (A) = rank ([A ∣ b]) = n$	唯一解
$rank (A) = rank ([A ∣ b]) < n$	无穷多解（存在自由变量）

3. 矩阵的基本运算

3.1 加法与数乘

矩阵加法和数乘按分量逐元素进行，满足通常的代数律（交换律、结合律、分配律）。

3.2 矩阵乘法

$A \in R^{m \times p}$ ， $B \in R^{p \times n}$ ，则 $C = A B \in R^{m \times n}$ ，其中：

C_{i j} = \sum_{k = 1}^{p} A_{i k} B_{k j} = a_{i}^{⊤} b_{j}

注意：矩阵乘法一般不满足交换律， $A B \neq B A$ 。

主要代数性质：

结合律： $(A B) C = A (B C)$
分配律： $A (B + C) = A B + A C$
转置： $(A B)^{⊤} = B^{⊤} A^{⊤}$

3.3 矩阵的转置

若 $A \in R^{m \times n}$ ，则 $A^{⊤} \in R^{n \times m}$ ， $(A^{⊤})_{i j} = A_{j i}$ 。

对称矩阵： $A^{⊤} = A$ （即 $A_{i j} = A_{j i}$ ）；
反对称（斜对称）矩阵： $A^{⊤} = - A$ （对角线必须全为 0）。

4. 矩阵的逆

4.1 定义

若存在矩阵 $B$ 使得 $A B = B A = I$ ，则称 $A$ 可逆（invertible，也称非奇异）， $B$ 称为 $A$ 的逆矩阵，记作 $A^{- 1}$ 。

可逆矩阵的逆矩阵唯一。

4.2 逆矩阵的代数性质

(A B C)^{- 1} = C^{- 1} B^{- 1} A^{- 1}

(A^{⊤})^{- 1} = (A^{- 1})^{⊤}

(c A)^{- 1} = \frac{1}{c} A^{- 1} (c \neq 0)

4.3 计算矩阵的逆

方法一：公式法（ $2 \times 2$ 矩阵）

A = [\begin{matrix} a & b \\ c & d \end{matrix}] ⟹ A^{- 1} = \frac{1}{a d - b c} [\begin{matrix} d & - b \\ - c & a \end{matrix}]

仅当 $a d - b c \neq 0$ （即 $det (A) \neq 0$ ）时存在。

方法二：伴随矩阵法（一般 $n \times n$ 矩阵）

A^{- 1} = \frac{1}{det (A)} \cdot adj (A)

其中 $adj (A)$ 是 $A$ 的伴随矩阵（adjugate matrix），定义为代数余子式矩阵的转置：

A_{i j} = (- 1)^{i + j} M_{i j}

$M_{i j}$ 是删去第 $i$ 行第 $j$ 列后所得子矩阵的行列式（余子式）；
$adj (A) = [A_{j i}]$ （代数余子式矩阵的转置）。

方法三：增广矩阵行变换（推荐）

将 $A$ 与单位矩阵拼接：

[A ∣ I] \overset{初等行变换}{\to} [I ∣ A^{- 1}]

若左侧能化为 $I$ ，则右侧即为 $A^{- 1}$ ；若出现全零行，则 $A$ 不可逆。

5. 特殊矩阵

5.1 初等矩阵

由单位矩阵经一次初等行变换得到的矩阵称为初等矩阵。对矩阵左乘一个初等矩阵，等价于对该矩阵施加对应的初等行变换。初等矩阵均可逆。

5.2 对角矩阵

仅主对角线上可能有非零元素的矩阵。设 $D = diag (d_{1}, d_{2}, \dots, d_{n})$ ，则：

$D$ 可逆 $⟺$ 所有 $d_{i} \neq 0$ ；
$D^{- 1} = diag (d_{1}^{- 1}, \dots, d_{n}^{- 1})$ 。

5.3 上下三角矩阵

上三角矩阵：主对角线以下元素全为 0；
下三角矩阵：主对角线以上元素全为 0。

性质：上（下）三角矩阵可逆当且仅当主对角元素均非零，且其逆矩阵仍是上（下）三角矩阵。

6. LU 分解

6.1 定义

若存在下三角矩阵 $L$ 和上三角矩阵 $U$ ，使得：

A = L U

则称之为 $A$ 的 LU 分解。通常约定 $L$ 的对角线元素均为 1（即单位下三角矩阵）。

NOTE

并非每个矩阵都存在 LU 分解。若可逆矩阵 $A$ 的 $(1, 1)$ 元素为 0，则 $A$ 没有 LU 分解（需先进行行交换，得到 $P A = L U$ 的形式）。

6.2 求解线性方程组的应用

当 $A = L U$ 时，方程 $A x = b$ 变为 $L U x = b$ 。令 $y = U x$ ，分两步求解：

前向代入：解 $L y = b$ （ $L$ 是下三角，从上往下代入）；
后向代入：解 $U x = y$ （ $U$ 是上三角，从下往上代入）。

相比直接高斯消元，LU 分解在需要对同一矩阵求解多个右端项时效率更高。

7. 行列式

7.1 定义与基本性质

矩阵 $A \in R^{n \times n}$ 的行列式（determinant） $det (A)$ 是一个标量，几何意义是 $A$ 的列向量张成的平行体的有符号体积。

核心性质：

性质	公式
乘积法则	$det (A B) = det (A) det (B)$
数乘	$det (c A) = c^{n} det (A)$
转置	$det (A^{⊤}) = det (A)$
逆矩阵	$det (A^{- 1}) = \frac{1}{det (A)}$
行交换	交换两行，行列式变号
行倍加	一行加上另一行的倍数，行列式不变
行缩放	某行乘以 $k$ ，行列式乘以 $k$

$A$ 可逆 $⟺$ $det (A) \neq 0$ 。

7.2 计算方法

$2 \times 2$ ： $det [\begin{matrix} a & b \\ c & d \end{matrix}] = a d - b c$
$n \times n$ （余子式展开，按第 $i$ 行）：

det (A) = \sum_{j = 1}^{n} (- 1)^{i + j} A_{i j} M_{i j}

三角矩阵：行列式等于主对角线元素之积。
通过高斯消元：将 $A$ 化为上三角形 $U$ ，记录行交换次数 $s$ ，则 $det (A) = (- 1)^{s} \prod_{i} U_{i i}$ 。

7.3 Cramer 法则

对于 $n \times n$ 可逆方程组 $A x = b$ （ $det (A) \neq 0$ ），解的每个分量为：

x_{i} = \frac{det (A_{i})}{det (A)}

其中 $A_{i}$ 是将矩阵 $A$ 的第 $i$ 列替换为 $b$ 所得的矩阵。

NOTE

Cramer 法则在理论分析中有用，但计算效率远低于高斯消元，不建议直接用于数值求解。

8. 矩阵变换

8.1 定义

由矩阵 $A \in R^{m \times n}$ 定义的矩阵变换（matrix transformation）为：

T_{A} : R^{n} \to R^{m}, T_{A} (x) = A x

这是一个从 $R^{n}$ 到 $R^{m}$ 的线性映射，将每个输入向量映射到其与 $A$ 的乘积。

8.2 单射、满射与双射

性质	定义	矩阵条件
单射（injective）	$T (x) = T (y) \Rightarrow x = y$	列线性无关， $rank (A) = n$
满射（surjective）	$\forall b \in R^{m}, \exists x : T (x) = b$	列张成 $R^{m}$ ， $rank (A) = m$
双射（bijective）	既单射又满射	$A$ 是方阵且可逆（ $m = n$ ， $det (A) \neq 0$ ）

对于方阵 $A$ ：单射、满射、双射与 $A$ 可逆四者互相等价。

9. 伴随矩阵与 Hermitian 矩阵

矩阵 $A$ 的伴随矩阵（conjugate transpose，也记作 $A^{*}$ 或 $A^{H}$ ）定义为：

(A^{*})_{i j} = \overset{―}{A_{j i}}

即先转置再取复共轭。若 $A^{*} = A$ ，则称 $A$ 为自伴矩阵（self-adjoint）或 Hermitian 矩阵。

性质：Hermitian 矩阵对角线上的元素必定为实数。

对于实矩阵，Hermitian 矩阵即对称矩阵（ $A^{⊤} = A$ ）。

在 AI 中的应用

概念	AI/ML 中的体现
矩阵乘法	神经网络前向传播： $h = W x + b$
矩阵逆	正规方程求最小二乘解： $\hat{θ} = (X^{⊤} X)^{- 1} X^{⊤} y$
LU 分解	高效求解多右端项线性系统
行列式	归一化常数、变量替换的 Jacobian
矩阵变换	注意力中的投影： $Q = X W_{Q}$ ， $K = X W_{K}$ ， $V = X W_{V}$

矩阵与线性方程组 ​

1. 线性方程组 ​

2. 高斯-约当消元法 ​

2.1 初等行变换 ​

2.2 阶梯形（REF）与简约阶梯形（RREF） ​

2.3 解的存在性与 Rank ​

3. 矩阵的基本运算 ​

3.1 加法与数乘 ​

3.2 矩阵乘法 ​

3.3 矩阵的转置 ​

4. 矩阵的逆 ​

4.1 定义 ​

4.2 逆矩阵的代数性质 ​

4.3 计算矩阵的逆 ​

5. 特殊矩阵 ​

5.1 初等矩阵 ​

5.2 对角矩阵 ​

5.3 上下三角矩阵 ​

6. LU 分解 ​

6.1 定义 ​

6.2 求解线性方程组的应用 ​

7. 行列式 ​

7.1 定义与基本性质 ​

7.2 计算方法 ​

7.3 Cramer 法则 ​

8. 矩阵变换 ​

8.1 定义 ​

8.2 单射、满射与双射 ​

9. 伴随矩阵与 Hermitian 矩阵 ​

在 AI 中的应用 ​