19、海森矩阵 Hessian_hessian矩阵
文章目录
引言
Hessian 矩阵是一个多元函数的二阶偏导数构成的方阵,它描述了函数的局部曲率。
定义
其中 ( i ) 和 ( j ) 是变量的索引,表示函数对变量 ( xi ) 和 ( xj ) 进行求导两次得到的结果。
性质
以下是Hessian矩阵的一些关键性质:
1. 对称性:
Hessian矩阵是对称的,即对于任意的 (i) 和 (j),都有 (Hij = Hji)。这是因为混合偏导数相等(克莱罗定理)。
2. 极值点的性质:
- 如果Hessian矩阵在某个临界点(一阶偏导数为零的点)是正定的,则该点是局部最小值。
- 如果Hessian矩阵在某个临界点是负定的,则该点是局部最大值。
- 如果Hessian矩阵在某个临界点是不定的(即既有正的特征值也有负的特征值),则该点是鞍点(saddle point)
3. 凹凸性判断:
Hessian矩阵的正定性在判断优化问题的凹凸性方面有重要作用。如果Hessian矩阵在定义域内的所有点都是正定的,则函数是凸函数;如果Hessian矩阵在定义域内的所有点都是负定的,则函数是凹函数
4. 特征值:
Hessian矩阵的特征值提供了关于函数曲率的信息。正的特征值表示函数在相应特征向量方向上是向上弯曲的,而负的特征值表示函数在相应特征向量方向上是向下弯曲的。
5. 行列式:
Hessian矩阵的行列式(即所有特征值的乘积)可以提供关于函数凹凸性的信息。如果行列式为正,则函数在所有方向上都是同号弯曲的(要么全部向上,要么全部向下),这意味着函数是凸的或凹的。
6. 牛顿法:
在牛顿法中,Hessian矩阵用于寻找函数的极值点。牛顿法的迭代公式涉及到Hessian矩阵的逆和函数的梯度。
7. 泰勒展开:
在函数的二阶泰勒展开中,Hessian矩阵提供了二次项的系数,这有助于近似函数在临界点附近的行为。
8. 稳定性分析:
在动态系统的稳定性分析中,Hessian矩阵可以用来确定系统的平衡点是稳定的还是不稳定的。
9. 几何意义:
Hessian矩阵可以被看作是函数在临界点附近的局部曲率的度量,它描述了函数曲面在该点的弯曲程度。
这些性质使得Hessian矩阵成为分析和解决多元函数优化问题的重要工具。
在图的鞍点位置,⽬标函数在x轴⽅向上是局部最小值,但在y轴⽅向上是局部最⼤值。
应用
-
优化问题:Hessian矩阵在牛顿法等利用二阶导数信息的优化算法中应用广泛,帮助确定极值点的性质。
-
图像处理:Hessian矩阵在图像处理中有着广泛的应用,包括边缘检测、纹理分析、边缘增强、边缘消除等。
-
统计学:在统计学中,Fisher信息矩阵与Hessian矩阵有关,用于估计参数的不确定性。
Hessian矩阵是理解和解决优化问题的关键工具,它通过提供函数的二阶导数信息,帮助我们分析函数的局部行为和全局性质。
计算
计算一个函数的Hessian矩阵涉及到求该函数所有二阶偏导数并将它们组织成一个方阵。以下是计算Hessian矩阵的步骤:
1. 确定函数和变量:
设函数为 ( f(x1, x2, … , xn) ),其中 ( x1, x2, … , xn ) 是自变量。
2. 计算一阶偏导数:
3. 计算二阶偏导数:
4. 构建Hessian矩阵:
5. 确保对称性:
由于混合偏导数的等式(克莱罗定理),Hessian矩阵是对称的。这意味着你只需要计算上三角或下三角的元素,其他的可以通过对称性得到。
示例
考虑一个二元函数 (
),计算其Hessian矩阵:
- 一阶偏导数:
- 二阶偏导数:
- 构建Hessian矩阵:
这样,我们就得到了函数 (
) 的Hessian矩阵。对于更高维度的函数,计算过程类似,但需要计算更多的二阶偏导数并填充到更大的方阵中。