Skip to content

矩阵与线性方程组

线性代数的起点是线性方程组的求解,而矩阵是这一问题的核心工具。本节从高斯消元出发,系统介绍矩阵的基本运算与分解,并引出行列式这一重要标量量。

1. 线性方程组

一个包含 m 个方程、n 个未知数的线性方程组可以写成:

{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm

写成矩阵形式为 Ax=b,其中:

  • ARm×n系数矩阵
  • xRn 是未知向量;
  • bRm 是常数向量。

增广矩阵(augmented matrix)将系数与常数项拼在一起,便于行变换操作:

[Ab]=[a11a1nb1am1amnbm]

2. 高斯-约当消元法

高斯消元法(Gaussian Elimination)通过对增广矩阵施加初等行变换,将方程组化简为等价但易于求解的形式。

2.1 初等行变换

共有三种基本操作,均不改变方程组的解:

操作符号含义
行缩放ricric0某行乘以非零常数
行交换rirj交换两行
行加法riri+crj某行加上另一行的常数倍

2.2 阶梯形(REF)与简约阶梯形(RREF)

通过行变换可将矩阵化为:

行阶梯形(Row Echelon Form, REF)

  • 全零行在最下方;
  • 每行的主元(pivot,第一个非零元)严格位于上一行主元的右侧。
[10100010000]

简约行阶梯形(Reduced Row Echelon Form, RREF)

  • 在 REF 的基础上,每个主元为 1,且主元所在列的其他元素都为 0。

RREF 是唯一的,每个矩阵只对应一个 RREF。

2.3 解的存在性与 Rank

设增广矩阵 [Ab] 化为 REF 后,矩阵 A(rank)= 主元个数。

条件解的情况
rank(A)<rank([Ab])无解(矛盾方程)
rank(A)=rank([Ab])=n唯一解
rank(A)=rank([Ab])<n无穷多解(存在自由变量)

3. 矩阵的基本运算

3.1 加法与数乘

矩阵加法和数乘按分量逐元素进行,满足通常的代数律(交换律、结合律、分配律)。

3.2 矩阵乘法

ARm×pBRp×n,则 C=ABRm×n,其中:

Cij=k=1pAikBkj=aibj

注意:矩阵乘法一般不满足交换律,ABBA

主要代数性质:

  • 结合律:(AB)C=A(BC)
  • 分配律:A(B+C)=AB+AC
  • 转置:(AB)=BA

3.3 矩阵的转置

ARm×n,则 ARn×m(A)ij=Aji

  • 对称矩阵A=A(即 Aij=Aji);
  • 反对称(斜对称)矩阵A=A(对角线必须全为 0)。

4. 矩阵的逆

4.1 定义

若存在矩阵 B 使得 AB=BA=I,则称 A 可逆(invertible,也称非奇异),B 称为 A逆矩阵,记作 A1

可逆矩阵的逆矩阵唯一。

4.2 逆矩阵的代数性质

(ABC)1=C1B1A1(A)1=(A1)(cA)1=1cA1(c0)

4.3 计算矩阵的逆

方法一:公式法(2×2 矩阵)

A=[abcd]A1=1adbc[dbca]

仅当 adbc0(即 det(A)0)时存在。

方法二:伴随矩阵法(一般 n×n 矩阵)

A1=1det(A)adj(A)

其中 adj(A)A伴随矩阵(adjugate matrix),定义为代数余子式矩阵的转置:

Aij=(1)i+jMij
  • Mij 是删去第 i 行第 j 列后所得子矩阵的行列式(余子式);
  • adj(A)=[Aji](代数余子式矩阵的转置)。

方法三:增广矩阵行变换(推荐)

A 与单位矩阵拼接:

[AI]初等行变换[IA1]

若左侧能化为 I,则右侧即为 A1;若出现全零行,则 A 不可逆。

5. 特殊矩阵

5.1 初等矩阵

由单位矩阵经一次初等行变换得到的矩阵称为初等矩阵。对矩阵左乘一个初等矩阵,等价于对该矩阵施加对应的初等行变换。初等矩阵均可逆。

5.2 对角矩阵

仅主对角线上可能有非零元素的矩阵。设 D=diag(d1,d2,,dn),则:

  • D 可逆 所有 di0
  • D1=diag(d11,,dn1)

5.3 上下三角矩阵

  • 上三角矩阵:主对角线以下元素全为 0;
  • 下三角矩阵:主对角线以上元素全为 0。

性质:上(下)三角矩阵可逆当且仅当主对角元素均非零,且其逆矩阵仍是上(下)三角矩阵。

6. LU 分解

6.1 定义

若存在下三角矩阵 L上三角矩阵 U,使得:

A=LU

则称之为 ALU 分解。通常约定 L 的对角线元素均为 1(即单位下三角矩阵)。

NOTE

并非每个矩阵都存在 LU 分解。若可逆矩阵 A(1,1) 元素为 0,则 A 没有 LU 分解(需先进行行交换,得到 PA=LU 的形式)。

6.2 求解线性方程组的应用

A=LU 时,方程 Ax=b 变为 LUx=b。令 y=Ux,分两步求解:

  1. 前向代入:解 Ly=bL 是下三角,从上往下代入);
  2. 后向代入:解 Ux=yU 是上三角,从下往上代入)。

相比直接高斯消元,LU 分解在需要对同一矩阵求解多个右端项时效率更高。

7. 行列式

7.1 定义与基本性质

矩阵 ARn×n行列式(determinant)det(A) 是一个标量,几何意义是 A 的列向量张成的平行体的有符号体积。

核心性质:

性质公式
乘积法则det(AB)=det(A)det(B)
数乘det(cA)=cndet(A)
转置det(A)=det(A)
逆矩阵det(A1)=1det(A)
行交换交换两行,行列式变号
行倍加一行加上另一行的倍数,行列式不变
行缩放某行乘以 k,行列式乘以 k

A 可逆 det(A)0

7.2 计算方法

  • 2×2det[abcd]=adbc

  • n×n(余子式展开,按第 i 行)

det(A)=j=1n(1)i+jAijMij
  • 三角矩阵:行列式等于主对角线元素之积。

  • 通过高斯消元:将 A 化为上三角形 U,记录行交换次数 s,则 det(A)=(1)siUii

7.3 Cramer 法则

对于 n×n 可逆方程组 Ax=bdet(A)0),解的每个分量为:

xi=det(Ai)det(A)

其中 Ai 是将矩阵 A 的第 i 列替换为 b 所得的矩阵。

NOTE

Cramer 法则在理论分析中有用,但计算效率远低于高斯消元,不建议直接用于数值求解。

8. 矩阵变换

8.1 定义

由矩阵 ARm×n 定义的矩阵变换(matrix transformation)为:

TA:RnRm,TA(x)=Ax

这是一个从 RnRm 的线性映射,将每个输入向量映射到其与 A 的乘积。

8.2 单射、满射与双射

性质定义矩阵条件
单射(injective)T(x)=T(y)x=y列线性无关,rank(A)=n
满射(surjective)bRm,x:T(x)=b列张成 Rmrank(A)=m
双射(bijective)既单射又满射A 是方阵且可逆(m=ndet(A)0

对于方阵 A:单射、满射、双射与 A 可逆四者互相等价。

9. 伴随矩阵与 Hermitian 矩阵

矩阵 A伴随矩阵(conjugate transpose,也记作 AAH)定义为:

(A)ij=Aji

即先转置再取复共轭。若 A=A,则称 A自伴矩阵(self-adjoint)或 Hermitian 矩阵

性质:Hermitian 矩阵对角线上的元素必定为实数。

对于实矩阵,Hermitian 矩阵即对称矩阵(A=A)。

在 AI 中的应用

概念AI/ML 中的体现
矩阵乘法神经网络前向传播:h=Wx+b
矩阵逆正规方程求最小二乘解:θ^=(XX)1Xy
LU 分解高效求解多右端项线性系统
行列式归一化常数、变量替换的 Jacobian
矩阵变换注意力中的投影:Q=XWQK=XWKV=XWV

以知识图谱方式组织 AI 学习路径。