矩阵微积分
它在 AI 中解决什么问题?
占位说明:解释向量、矩阵和张量函数如何求导,支撑模型训练公式的实现级推导。
核心概念
- 待补:matrix derivative
- 待补:shape-aware gradient
- 待补:vector-Jacobian product
关键公式
待补:linear layer backward、softmax backward、attention backward。
它出现在模型的哪里?
- 待补:neural network derivation
- 待补:Transformer backward
- 待补:autograd implementation logic
后续需要补充
- 待补:定义
- 待补:直觉
- 待补:例子
- 待补:常见误区