Skip to content

线性变换

线性变换是线性代数中最核心的映射概念。矩阵只是线性变换在某组基下的"具体表示",理解这种抽象与具体的关系,才能真正理解神经网络层的本质。

特征值、特征向量与矩阵对角化属于矩阵的谱性质,见 矩阵的谱与性质

1. 线性变换的定义

线性变换(Linear Transformation)是两个向量空间之间的映射 T:VW,满足:

性质公式含义
可加性T(u+v)=T(u)+T(v)变换保持加法结构
齐次性T(cu)=cT(u)变换保持数乘结构

两条合并为一条等价判定:

T(cu+dv)=cT(u)+dT(v),u,vV, c,dF

线性变换 vs 矩阵变换

线性变换 T矩阵变换 TA(x)=Ax
性质抽象的数学映射线性变换在特定基下的具体表示
依赖基?不依赖依赖(换一组基就得到不同矩阵)
关系给定基后,每个线性变换唯一对应一个矩阵同一变换,不同基给出不同但相似的矩阵

2. 线性变换的矩阵表示

2.1 如何确定一个线性变换?

对于线性空间 V,只要给定一组基 B={b1,b2,,bn},空间中每个向量都可以由基表示。因此:

只要知道线性变换 T 在每个基向量上的像,就能确定 T 在整个空间上的行为。

即,若 v=c1b1++cnbn,则:

T(v)=c1T(b1)+c2T(b2)++cnT(bn)

2.2 变换矩阵的构造

给定 V 的基 B={b1,,bn}W 的基 C={c1,,cm},线性变换 T:VW矩阵表示 [T]BCRm×n 的第 j 列为 T(bj) 在基 C 下的坐标:

[T]BC=[[T(b1)]C|[T(b2)]C||[T(bn)]C]

3. 核与像

3.1 核(Kernel)

线性变换 T:VW(kernel)是被映射到零向量的所有输入的集合:

ker(T)={vVT(v)=0W}

ker(T)V 的子空间。对于矩阵变换 TAker(TA)=Null(A)

  • T 是单射(injective) ker(T)={0}

3.2 像(Image)

线性变换 T:VW(image)是所有输出的集合:

Im(T)={T(v)vV}

Im(T)W 的子空间。对于矩阵变换 TAIm(TA)=Col(A)(列空间)。

  • T 是满射(surjective) Im(T)=W

3.3 维数定理

dim(ker(T))+dim(Im(T))=dim(V)

核的维数(nullity)加上像的维数(rank)等于定义域的维数——这是秩-零化度定理的变换版本。

4. 相似矩阵

4.1 核心思想:殊途同归

同一个线性变换 T:VV,在不同基 BB 下,得到不同的矩阵 AB,但它们描述的是同一个变换

VB A VBPPVB B VB

其中 P 是从基 B 到基 B 的过渡矩阵。

4.2 相似矩阵的定义

若存在可逆矩阵 P,使得:

B=P1AP

则称矩阵 AB 相似(similar),记作 AB

4.3 相似矩阵共享的不变量

相似矩阵代表同一线性变换,因此共享所有与变换本身相关的量:

不变量公式/说明
特征值(含重数)fA(λ)=fB(λ)
行列式det(A)=det(B)
tr(A)=tr(B)
rank(A)=rank(B)
特征多项式det(λIA)=det(λIB)

这些不变量是分析模型结构的关键工具,详见 矩阵的谱与性质

5. 仿射变换

线性变换要求 T(0)=0(必须过原点)。但神经网络中常见的是仿射变换(affine transformation):

T(x)=Ax+b

其中 b 是偏置向量(bias)。仿射变换 = 线性变换 + 平移,不过原点,因此严格来说不是线性变换,但它构成了深度学习每一层的基础运算。

在 AI 中的应用

概念AI/ML 中的体现
线性变换神经网络线性层:h=Wx;注意力投影:Q=XWQK=XWKV=XWV
仿射变换带 bias 的线性层:h=Wx+b
核(零空间)模型中不影响输出的输入方向(冗余信息)
像(列空间)线性层能表达的输出集合,决定模型的表达能力
相似矩阵不同坐标系下的同一变换;权重矩阵在不同基下的等价表示

以知识图谱方式组织 AI 学习路径。