矩阵微积分

它在 AI 中解决什么问题？

占位说明：解释向量、矩阵和张量函数如何求导，支撑模型训练公式的实现级推导。

核心概念

待补：matrix derivative
待补：shape-aware gradient
待补：vector-Jacobian product

关键公式

待补：linear layer backward、softmax backward、attention backward。

它出现在模型的哪里？

待补：neural network derivation
待补：Transformer backward
待补：autograd implementation logic

后续需要补充

待补：定义
待补：直觉
待补：例子
待补：常见误区