线性变换

线性变换是线性代数中最核心的映射概念。矩阵只是线性变换在某组基下的"具体表示"，理解这种抽象与具体的关系，才能真正理解神经网络层的本质。

特征值、特征向量与矩阵对角化属于矩阵的谱性质，见矩阵的谱与性质。

1. 线性变换的定义

线性变换（Linear Transformation）是两个向量空间之间的映射 $T : V \to W$ ，满足：

性质	公式	含义
可加性	$T (u + v) = T (u) + T (v)$	变换保持加法结构
齐次性	$T (c u) = c \cdot T (u)$	变换保持数乘结构

两条合并为一条等价判定：

T (c u + d v) = c T (u) + d T (v), \forall u, v \in V, c, d \in F

线性变换 vs 矩阵变换

	线性变换 $T$	矩阵变换 $T_{A} (x) = A x$
性质	抽象的数学映射	线性变换在特定基下的具体表示
依赖基？	不依赖	依赖（换一组基就得到不同矩阵）
关系	给定基后，每个线性变换唯一对应一个矩阵	同一变换，不同基给出不同但相似的矩阵

2. 线性变换的矩阵表示

2.1 如何确定一个线性变换？

对于线性空间 $V$ ，只要给定一组基 $B = {b_{1}, b_{2}, \dots, b_{n}}$ ，空间中每个向量都可以由基表示。因此：

只要知道线性变换 $T$ 在每个基向量上的像，就能确定 $T$ 在整个空间上的行为。

即，若 $v = c_{1} b_{1} + \dots + c_{n} b_{n}$ ，则：

T (v) = c_{1} T (b_{1}) + c_{2} T (b_{2}) + \dots + c_{n} T (b_{n})

2.2 变换矩阵的构造

给定 $V$ 的基 $B = {b_{1}, \dots, b_{n}}$ 和 $W$ 的基 $C = {c_{1}, \dots, c_{m}}$ ，线性变换 $T : V \to W$ 的矩阵表示 $[T]_{B}^{C} \in R^{m \times n}$ 的第 $j$ 列为 $T (b_{j})$ 在基 $C$ 下的坐标：

[T]_{B}^{C} = [[T (b_{1})]_{C} | [T (b_{2})]_{C} | \dots | [T (b_{n})]_{C}]

3. 核与像

3.1 核（Kernel）

线性变换 $T : V \to W$ 的核（kernel）是被映射到零向量的所有输入的集合：

\ker (T) = {v \in V ∣ T (v) = 0_{W}}

$\ker (T)$ 是 $V$ 的子空间。对于矩阵变换 $T_{A}$ ， $\ker (T_{A}) = Null (A)$ 。

$T$ 是单射（injective） $⟺$ $\ker (T) = {0}$ 。

3.2 像（Image）

线性变换 $T : V \to W$ 的像（image）是所有输出的集合：

Im (T) = {T (v) ∣ v \in V}

$Im (T)$ 是 $W$ 的子空间。对于矩阵变换 $T_{A}$ ， $Im (T_{A}) = Col (A)$ （列空间）。

$T$ 是满射（surjective） $⟺$ $Im (T) = W$ 。

3.3 维数定理

\dim (\ker (T)) + \dim (Im (T)) = \dim (V)

核的维数（nullity）加上像的维数（rank）等于定义域的维数——这是秩-零化度定理的变换版本。

4. 相似矩阵

4.1 核心思想：殊途同归

同一个线性变换 $T : V \to V$ ，在不同基 $B$ 和 $B^{'}$ 下，得到不同的矩阵 $A$ 和 $B$ ，但它们描述的是同一个变换：

\begin{array}{ccc} V_{B} & \overset{A}{\to} & V_{B} \\ P ↓ & ↓ P \\ V_{B^{'}} & \overset{B}{\to} & V_{B^{'}} \end{array}

其中 $P$ 是从基 $B$ 到基 $B^{'}$ 的过渡矩阵。

4.2 相似矩阵的定义

若存在可逆矩阵 $P$ ，使得：

B = P^{- 1} A P

则称矩阵 $A$ 和 $B$ 相似（similar），记作 $A \sim B$ 。

4.3 相似矩阵共享的不变量

相似矩阵代表同一线性变换，因此共享所有与变换本身相关的量：

不变量	公式/说明
特征值（含重数）	$f_{A} (λ) = f_{B} (λ)$
行列式	$det (A) = det (B)$
迹	$tr (A) = tr (B)$
秩	$rank (A) = rank (B)$
特征多项式	$det (λ I - A) = det (λ I - B)$

这些不变量是分析模型结构的关键工具，详见矩阵的谱与性质。

5. 仿射变换

线性变换要求 $T (0) = 0$ （必须过原点）。但神经网络中常见的是仿射变换（affine transformation）：

T (x) = A x + b

其中 $b$ 是偏置向量（bias）。仿射变换 = 线性变换 + 平移，不过原点，因此严格来说不是线性变换，但它构成了深度学习每一层的基础运算。

在 AI 中的应用

概念	AI/ML 中的体现
线性变换	神经网络线性层： $h = W x$ ；注意力投影： $Q = X W_{Q}$ ， $K = X W_{K}$ ， $V = X W_{V}$
仿射变换	带 bias 的线性层： $h = W x + b$
核（零空间）	模型中不影响输出的输入方向（冗余信息）
像（列空间）	线性层能表达的输出集合，决定模型的表达能力
相似矩阵	不同坐标系下的同一变换；权重矩阵在不同基下的等价表示

线性变换 ​

1. 线性变换的定义 ​

线性变换 vs 矩阵变换 ​

2. 线性变换的矩阵表示 ​

2.1 如何确定一个线性变换？ ​

2.2 变换矩阵的构造 ​

3. 核与像 ​

3.1 核（Kernel） ​

3.2 像（Image） ​

3.3 维数定理 ​

4. 相似矩阵 ​

4.1 核心思想：殊途同归 ​

4.2 相似矩阵的定义 ​

4.3 相似矩阵共享的不变量 ​

5. 仿射变换 ​

在 AI 中的应用 ​