
矩阵微分常用公式.pdf
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
本PDF文档提供了全面而系统的矩阵微分常用公式集合,涵盖各种基础到高级的应用场景,是学习和研究线性代数及机器学习中必备的参考材料。
本段落将详细介绍“常用矩阵微分公式”的关键知识点,涵盖函数相对于实值向量的梯度以及实值函数相对于实值矩阵的梯度等方面。
### 一、函数相对于实值向量的梯度
#### 1.1 实值函数相对向量的梯度矩阵
假设有一个实值函数 \( f(\mathbf{x}) \),其中 \(\mathbf{x}\) 是一个 \( n \times 1 \) 的列向量,则该函数相对于 \(\mathbf{x}\) 的梯度定义为一个 \( n \times 1 \) 的列向量:
\[
\nabla_{\mathbf{x}} f(\mathbf{x}) =
\begin{bmatrix}
\frac{\partial f(\mathbf{x})}{\partial x_1} \\
\frac{\partial f(\mathbf{x})}{\partial x_2} \\
\vdots \\
\frac{\partial f(\mathbf{x})}{\partial x_n}
\end{bmatrix}
\]
这里,\( \nabla \) 表示梯度算子,它定义为:
\[
\nabla =
\begin{bmatrix}
\frac{\partial}{\partial x_1} \\
\frac{\partial}{\partial x_2} \\
\vdots \\
\frac{\partial}{\partial x_n}
\end{bmatrix}
\]
#### 1.2 运算法则
对于实值函数相对于向量的梯度,存在以下几种运算法则:
1. **线性法则**:如果 \( f(\mathbf{x}) \) 和 \( g(\mathbf{x}) \) 分别是向量 \(\mathbf{x}\) 的实值函数,\( c_1 \) 和 \( c_2 \) 为实常数,则:
\[
\nabla_{\mathbf{x}} (c_1 f(\mathbf{x}) + c_2 g(\mathbf{x})) = c_1 \nabla_{\mathbf{x}} f(\mathbf{x}) + c_2 \nabla_{\mathbf{x}} g(\mathbf{x})
\]
2. **乘积法则**:若 \( f(\mathbf{x}) \) 和 \( g(\mathbf{x}) \) 分别是向量 \(\mathbf{x}\) 的实值函数,则:
\[
\nabla_{\mathbf{x}} (f(\mathbf{x}) g(\mathbf{x})) = f(\mathbf{x}) \nabla_{\mathbf{x}} g(\mathbf{x}) + g(\mathbf{x}) \nabla_{\mathbf{x}} f(\mathbf{x})
\]
3. **商法则**:若 \( g(\mathbf{x}) \neq 0 \),则:
\[
\nabla_{\mathbf{x}} \left( \frac{f(\mathbf{x})}{g(\mathbf{x})} \right) =
\frac{g(\mathbf{x}) \nabla_{\mathbf{x}} f(\mathbf{x}) - f(\mathbf{x}) \nabla_{\mathbf{x}} g(\mathbf{x})}{g^2(\mathbf{x})}
\]
4. **链式法则**:若 \( y = \mathbf{y}(x) \) 是 \(\mathbf{x}\) 的向量值函数,则:
\[
\nabla_{\mathbf{x}} f(y(\mathbf{x})) = (\nabla_y f(y))^T \cdot \nabla_{\mathbf{x}} y(\mathbf{x})
\]
#### 1.3 基本公式
给定向量 \(\mathbf{x}\) 和 \(\mathbf{y}\),以及矩阵 \( A \) 和 \( B \)(与 \(\mathbf{x}\) 无关),其中 \( I \) 表示单位矩阵。以下是一些基本的梯度公式:
1. 若 \( c \) 是常数,则 \( \nabla_{\mathbf{x}} c = 0 \).
2. \( \nabla_{\mathbf{x}} (\mathbf{x}^T) = I \).
3. \( \nabla_{\mathbf{x}} (\mathbf{x}^T \mathbf{x}) = 2\mathbf{x} \).
4. 若矩阵 \( A \) 是对称的,则:
\(
\nabla_{\mathbf{x}} (\mathbf{x}^T A \mathbf{x}) = (A + A^T)\mathbf{x}
\)
5. 如果向量 \( \mathbf{
全部评论 (0)


