Fisher信息矩阵(Fisher Information Matrix,简称FIM)
Fisher信息矩阵简介
Fisher信息矩阵(Fisher Information Matrix,简称FIM)是统计学和信息理论中的一个重要概念,广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德·费希尔(Ronald Fisher)的名字命名,反映了概率分布对参数变化的敏感度,是衡量模型参数估计不确定性的核心工具。
什么是Fisher信息矩阵?
Fisher信息矩阵是一个对称的方阵,用于描述概率密度函数(或概率质量函数)在其参数下的信息含量。简单来说,它告诉我们通过观测数据能够获得多少关于未知参数的信息。对于一个参数化的概率分布 ( p(x∣θ)p(x|\\theta)p(x∣θ) ),其中 ( θ\\thetaθ ) 是参数向量,Fisher信息矩阵 ( I(θ)I(\\theta)I(θ) ) 的定义基于对数似然函数的二阶导数。
数学定义
假设我们有一个概率密度函数 ( p(x∣θ)p(x|\\theta)p(x∣θ) ),其中 ( θ=(θ1,θ2,…,θk)\\theta = (\\theta_1, \\theta_2, \\dots, \\theta_k)θ=(θ1,θ2,…,θk) ) 是 ( kkk ) 维参数向量。Fisher信息矩阵 ( I(θ)I(\\theta)I(θ) ) 的元素可以通过以下两种等价的方式定义:
-
基于期望的定义:
I(θ)ij=E[∂logp(x∣θ)∂θi∂logp(x∣θ)∂θj∣θ]I(\\theta)_{ij} = E\\left[ \\frac{\\partial \\log p(x|\\theta)}{\\partial \\theta_i} \\frac{\\partial \\log p(x|\\theta)}{\\partial \\theta_j} \\bigg| \\theta \\right]I(θ)ij=E[∂θi∂logp(x∣θ)∂θj∂logp(x∣θ)θ]
这里,( E[⋅]E[\\cdot]E[⋅] ) 表示在给定 ( θ\\thetaθ ) 下的期望,( ∂logp(x∣θ)∂θi\\frac{\\partial \\log p(x|\\theta)}{\\partial \\theta_i}∂θi∂logp(x∣θ) ) 是对数似然函数对第 ( iii ) 个参数的偏导数,也称为得分函数(score function)。 -
基于二阶导数的定义(在一定条件下等价):
I(θ)ij=−E[∂2logp(x∣θ)∂θi∂θj∣θ]I(\\theta)_{ij} = -E\\left[ \\frac{\\partial^2 \\log p(x|\\theta)}{\\partial \\theta_i \\partial \\theta_j} \\bigg| \\theta \\right]I(θ)ij=−E[∂θi∂θj∂2logp(x∣θ)θ]
这是对数似然函数的二阶偏导数的负期望值,通常称为Hessian矩阵的期望。
这两种定义在正则条件下(例如,分布满足可微性和期望的可交换性)是等价的。
一个简单例子
为了更好地理解,假设我们有一个正态分布 ( N(μ,σ2)N(\\mu, \\sigma^2)N(μ,σ2) ),其中参数 ( θ=(μ,σ2)\\theta = (\\mu, \\sigma^2)θ=(μ,σ2) )。我们来计算它的Fisher信息矩阵:
对数似然函数
对于单个观测值 ( xxx ):
logp(x∣μ,σ2)=−12log(2πσ2)−(x−μ)22σ2\\log p(x|\\mu, \\sigma^2) = -\\frac{1}{2} \\log (2\\pi \\sigma^2) - \\frac{(x - \\mu)^2}{2\\sigma^2}logp(x∣μ,σ2)=−21log(2πσ2)−2σ2(x−μ)2
计算得分函数
- 对 ( μ\\muμ ) 求偏导:
∂logp∂μ=x−μσ2\\frac{\\partial \\log p}{\\partial \\mu} = \\frac{x - \\mu}{\\sigma^2}∂μ∂logp=σ2x−μ - 对 ( σ2\\sigma^2σ2 ) 求偏导:
∂logp∂σ2=−12σ2+(x−μ)22(σ2)2\\frac{\\partial \\log p}{\\partial \\sigma^2} = -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2}∂σ2∂logp=−2σ21+2(σ2)2(x−μ)2
Fisher信息矩阵元素
- ( I11=E[(x−μσ2)2]=1σ2I_{11} = E\\left[ \\left( \\frac{x - \\mu}{\\sigma^2} \\right)^2 \\right] = \\frac{1}{\\sigma^2}I11=E[(σ2x−μ)2]=σ21 ),因为 ( E[(x−μ)2]=σ2E[(x - \\mu)^2] = \\sigma^2E[(x−μ)2]=σ2 )。
- ( I22=E[(−12σ2+(x−μ)22(σ2)2)2]=12(σ2)2I_{22} = E\\left[ \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right)^2 \\right] = \\frac{1}{2(\\sigma^2)^2}I22=E[(−2σ21+2(σ2)2(x−μ)2)2]=2(σ2)21 )。计算过程见下文。
- ( I12=I21=E[x−μσ2⋅(−12σ2+(x−μ)22(σ2)2)]=0I_{12} = I_{21} = E\\left[ \\frac{x - \\mu}{\\sigma^2} \\cdot \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right) \\right] = 0I12=I21=E[σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)]=0 )(交叉项期望为零)。计算过程见下文。
于是,Fisher信息矩阵为:
I(θ)=[1σ20012(σ2)2]I(\\theta) = \\begin{bmatrix}\\frac{1}{\\sigma^2} & 0 \\\\0 & \\frac{1}{2(\\sigma^2)^2}\\end{bmatrix}I(θ)=[σ21002(σ2)21]
Fisher信息矩阵的性质
- 正定性:如果模型是可识别的(即不同参数对应不同分布),Fisher信息矩阵通常是正定的,这意味着它可以用来衡量参数估计的“曲率”。
- 对角元素:对角线上的元素 ( IiiI_{ii}Iii ) 表示单个参数 ( θi\\theta_iθi ) 的信息量。
- 独立性:如果参数之间是独立的(得分函数的交叉项期望为零),矩阵将是对角矩阵。
应用
-
Cramér-Rao下界:
Fisher信息矩阵的一个重要应用是提供参数估计方差的下界。对于一个无偏估计器 ( θ^\\hat{\\theta}θ^ ),其协方差矩阵满足:
Cov(θ^)≥I(θ)−1\\text{Cov}(\\hat{\\theta}) \\geq I(\\theta)^{-1}Cov(θ^)≥I(θ)−1
其中 ( I(θ)−1I(\\theta)^{-1}I(θ)−1 ) 是Fisher信息矩阵的逆矩阵。这表明,估计器的精度受限于Fisher信息。 -
最大似然估计:
在最大似然估计(MLE)中,Fisher信息矩阵的逆可以用来近似估计参数的协方差矩阵,尤其是在大样本情况下。 -
机器学习:
在深度学习中,Fisher信息矩阵被用于优化算法(如自然梯度下降)和模型正则化,帮助理解损失函数的几何结构。
总结
Fisher信息矩阵是统计学中的一个强大工具,它连接了概率分布、参数估计和信息理论。通过量化数据中包含的参数信息,它为我们提供了理解模型行为和估计精度的基础。尽管计算复杂,但在许多实际问题中,它可以通过数值方法或近似来实现。
如果你需要更深入的探讨或具体例子,请告诉我,我可以进一步扩展!
I22I_{22}I22复杂计算过程
以下是关于Fisher信息矩阵元素 ( I22I_{22}I22 ) 的计算过程
第一部分:计算 ( I22I_{22}I22 )
给出的表达式是:
I22=E[(−12σ2+(x−μ)22(σ2)2)2]I_{22} = E\\left[ \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right)^2 \\right]I22=E[(−2σ21+2(σ2)2(x−μ)2)2]
并提到它等于 ( 12(σ2)2\\frac{1}{2(\\sigma^2)^2}2(σ2)21 )。让我们一步步验证这个计算过程,假设 ( x∼N(μ,σ2)x \\sim N(\\mu, \\sigma^2)x∼N(μ,σ2) ),因为Fisher信息矩阵通常在正态分布的背景下计算。
步骤 1:定义对数似然函数
对于来自正态分布 ( N(μ,σ2)N(\\mu, \\sigma^2)N(μ,σ2) ) 的单个观测值 ( xxx ),概率密度函数为:
p(x∣μ,σ2)=12πσ2exp(−(x−μ)22σ2)p(x | \\mu, \\sigma^2) = \\frac{1}{\\sqrt{2\\pi \\sigma^2}} \\exp\\left( -\\frac{(x - \\mu)^2}{2\\sigma^2} \\right)p(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
对数似然函数为:
logp(x∣μ,σ2)=−12log(2πσ2)−(x−μ)22σ2\\log p(x | \\mu, \\sigma^2) = -\\frac{1}{2} \\log (2\\pi \\sigma^2) - \\frac{(x - \\mu)^2}{2\\sigma^2}logp(x∣μ,σ2)=−21log(2πσ2)−2σ2(x−μ)2
步骤 2:对 ( σ2\\sigma^2σ2 ) 求偏导数
由于 (I22I_{22}I22 ) 对应参数 ( θ2=σ2\\theta_2 = \\sigma^2θ2=σ2 ),我们需要计算:
∂logp∂σ2\\frac{\\partial \\log p}{\\partial \\sigma^2}∂σ2∂logp
- 第一项:( −12log(2πσ2)=−12log2π−12logσ2-\\frac{1}{2} \\log (2\\pi \\sigma^2) = -\\frac{1}{2} \\log 2\\pi - \\frac{1}{2} \\log \\sigma^2−21log(2πσ2)=−21log2π−21logσ2 )
∂∂σ2(−12logσ2)=−12⋅1σ2=−12σ2\\frac{\\partial}{\\partial \\sigma^2} \\left( -\\frac{1}{2} \\log \\sigma^2 \\right) = -\\frac{1}{2} \\cdot \\frac{1}{\\sigma^2} = -\\frac{1}{2\\sigma^2}∂σ2∂(−21logσ2)=−21⋅σ21=−2σ21
(这里使用了链式法则:( ddσ2logσ2=1σ2\\frac{d}{d\\sigma^2} \\log \\sigma^2 = \\frac{1}{\\sigma^2}dσ2dlogσ2=σ21 )。)
- 第二项:( −(x−μ)22σ2-\\frac{(x - \\mu)^2}{2\\sigma^2}−2σ2(x−μ)2 )
∂∂σ2(−(x−μ)22σ2)=−(x−μ)22⋅(−1)(σ2)−2=(x−μ)22(σ2)2\\frac{\\partial}{\\partial \\sigma^2} \\left( -\\frac{(x - \\mu)^2}{2\\sigma^2} \\right) = -\\frac{(x - \\mu)^2}{2} \\cdot (-1) (\\sigma^2)^{-2} = \\frac{(x - \\mu)^2}{2(\\sigma^2)^2}∂σ2∂(−2σ2(x−μ)2)=−2(x−μ)2⋅(−1)(σ2)−2=2(σ2)2(x−μ)2
因此:
∂logp∂σ2=−12σ2+(x−μ)22(σ2)2\\frac{\\partial \\log p}{\\partial \\sigma^2} = -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2}∂σ2∂logp=−2σ21+2(σ2)2(x−μ)2
这与给出的期望内的表达式一致.
步骤 3:对偏导数平方
I22=E[(∂logp∂σ2)2]=E[(−12σ2+(x−μ)22(σ2)2)2]I_{22} = E\\left[ \\left( \\frac{\\partial \\log p}{\\partial \\sigma^2} \\right)^2 \\right] = E\\left[ \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right)^2 \\right]I22=E[(∂σ2∂logp)2]=E[(−2σ21+2(σ2)2(x−μ)2)2]
展开平方:
(−12σ2+(x−μ)22(σ2)2)2=(−12σ2)2+2(−12σ2)((x−μ)22(σ2)2)+((x−μ)22(σ2)2)2\\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right)^2 = \\left( -\\frac{1}{2\\sigma^2} \\right)^2 + 2 \\left( -\\frac{1}{2\\sigma^2} \\right) \\left( \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right) + \\left( \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right)^2(−2σ21+2(σ2)2(x−μ)2)2=(−2σ21)2+2(−2σ21)(2(σ2)2(x−μ)2)+(2(σ2)2(x−μ)2)2
逐项简化:
-
( (−12σ2)2=14(σ2)2\\left( -\\frac{1}{2\\sigma^2} \\right)^2 = \\frac{1}{4(\\sigma^2)^2}(−2σ21)2=4(σ2)21 )
-
( 2(−12σ2)((x−μ)22(σ2)2)=−(x−μ)22(σ2)32 \\left( -\\frac{1}{2\\sigma^2} \\right) \\left( \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right) = -\\frac{(x - \\mu)^2}{2(\\sigma^2)^3}2(−2σ21)(2(σ2)2(x−μ)2)=−2(σ2)3(x−μ)2 )
-
( ((x−μ)22(σ2)2)2=(x−μ)44(σ2)4\\left( \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right)^2 = \\frac{(x - \\mu)^4}{4(\\sigma^2)^4}(2(σ2)2(x−μ)2)2=4(σ2)4(x−μ)4 )
因此:
I22=E[14(σ2)2−(x−μ)22(σ2)3+(x−μ)44(σ2)4]I_{22} = E\\left[ \\frac{1}{4(\\sigma^2)^2} - \\frac{(x - \\mu)^2}{2(\\sigma^2)^3} + \\frac{(x - \\mu)^4}{4(\\sigma^2)^4} \\right]I22=E[4(σ2)21−2(σ2)3(x−μ)2+4(σ2)4(x−μ)4]
步骤 4:计算期望
由于 ( σ2\\sigma^2σ2 ) 是参数(常数),我们对 ( xxx ) 取期望:
-
( E[14(σ2)2]=14(σ2)2E\\left[ \\frac{1}{4(\\sigma^2)^2} \\right] = \\frac{1}{4(\\sigma^2)^2}E[4(σ2)21]=4(σ2)21 ) (常数)
-
( E[−(x−μ)22(σ2)3]=−12(σ2)3E[(x−μ)2]E\\left[ -\\frac{(x - \\mu)^2}{2(\\sigma^2)^3} \\right] = -\\frac{1}{2(\\sigma^2)^3} E[(x - \\mu)^2]E[−2(σ2)3(x−μ)2]=−2(σ2)31E[(x−μ)2] )
-
( E[(x−μ)44(σ2)4]=14(σ2)4E[(x−μ)4]E\\left[ \\frac{(x - \\mu)^4}{4(\\sigma^2)^4} \\right] = \\frac{1}{4(\\sigma^2)^4} E[(x - \\mu)^4]E[4(σ2)4(x−μ)4]=4(σ2)41E[(x−μ)4] )
对于 ( x∼N(μ,σ2)x \\sim N(\\mu, \\sigma^2)x∼N(μ,σ2) ):
-
( E[(x−μ)2]=方差=σ2E[(x - \\mu)^2] = \\text{方差} = \\sigma^2E[(x−μ)2]=方差=σ2 )
-
( E[(x−μ)4]=3(σ2)2E[(x - \\mu)^4] = 3(\\sigma^2)^2E[(x−μ)4]=3(σ2)2 ) (正态分布的四阶中心矩)
代入:
I22=14(σ2)2−12(σ2)3⋅σ2+14(σ2)4⋅3(σ2)2I_{22} = \\frac{1}{4(\\sigma^2)^2} - \\frac{1}{2(\\sigma^2)^3} \\cdot \\sigma^2 + \\frac{1}{4(\\sigma^2)^4} \\cdot 3(\\sigma^2)^2I22=4(σ2)21−2(σ2)31⋅σ2+4(σ2)41⋅3(σ2)2
=14(σ2)2−12(σ2)2+34(σ2)2= \\frac{1}{4(\\sigma^2)^2} - \\frac{1}{2(\\sigma^2)^2} + \\frac{3}{4(\\sigma^2)^2}=4(σ2)21−2(σ2)21+4(σ2)23
=(14−24+34)1(σ2)2=241(σ2)2=12(σ2)2= \\left( \\frac{1}{4} - \\frac{2}{4} + \\frac{3}{4} \\right) \\frac{1}{(\\sigma^2)^2} = \\frac{2}{4} \\frac{1}{(\\sigma^2)^2} = \\frac{1}{2(\\sigma^2)^2}=(41−42+43)(σ2)21=42(σ2)21=2(σ2)21
这证实了:
I22=12(σ2)2I_{22} = \\frac{1}{2(\\sigma^2)^2}I22=2(σ2)21
这个计算依赖于对偏导数平方后展开,并利用正态分布的矩,结果如上所示。
第二部分:两个偏导的乘积是否等价于平方?
两个偏导的乘积等价成平方了吗?让我们在 ( θ=(μ,σ2)\\theta = (\\mu, \\sigma^2)θ=(μ,σ2) ) 的Fisher信息矩阵背景下解释这个问题。
Fisher信息矩阵元素
-
( I11=E[(∂logp∂μ)2]I_{11} = E\\left[ \\left( \\frac{\\partial \\log p}{\\partial \\mu} \\right)^2 \\right]I11=E[(∂μ∂logp)2] )
-
( I12=I21=E[∂logp∂μ∂logp∂σ2]I_{12} = I_{21} = E\\left[ \\frac{\\partial \\log p}{\\partial \\mu} \\frac{\\partial \\log p}{\\partial \\sigma^2} \\right]I12=I21=E[∂μ∂logp∂σ2∂logp] )
-
( I22=E[(∂logp∂σ2)2]I_{22} = E\\left[ \\left( \\frac{\\partial \\log p}{\\partial \\sigma^2} \\right)^2 \\right]I22=E[(∂σ2∂logp)2] ) (如上计算)
对角元素是平方,非对角元素是乘积。
解答交叉项期望为零
为什么 ( I12=I21=E[x−μσ2⋅(−12σ2+(x−μ)22(σ2)2)]=0I_{12} = I_{21} = E\\left[ \\frac{x - \\mu}{\\sigma^2} \\cdot \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right) \\right] = 0I12=I21=E[σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)]=0 )?
背景
在Fisher信息矩阵中,( IijI_{ij}Iij ) 表示参数 ( θi\\theta_iθi ) 和 ( θj\\theta_jθj ) 的信息关联。对于正态分布 ( N(μ,σ2)N(\\mu, \\sigma^2)N(μ,σ2) ),我们令 ( θ1=μ\\theta_1 = \\muθ1=μ ),( θ2=σ2\\theta_2 = \\sigma^2θ2=σ2 )。这里,( I12I_{12}I12 ) 是交叉项,定义为:
I12=E[∂logp∂μ⋅∂logp∂σ2]I_{12} = E\\left[ \\frac{\\partial \\log p}{\\partial \\mu} \\cdot \\frac{\\partial \\log p}{\\partial \\sigma^2} \\right]I12=E[∂μ∂logp⋅∂σ2∂logp]
它衡量了 ( μ\\muμ ) 和 ( σ2\\sigma^2σ2 ) 之间的信息相关性。如果 ( I12=0I_{12} = 0I12=0 ),说明这两个参数在信息上是“正交”的,也就是说,一个参数的得分函数(score function)与另一个参数的得分函数在期望上是无关的。
计算过程
步骤 1:计算交叉项 ( I12I_{12}I12 )
I12=E[∂logp∂μ⋅∂logp∂σ2]=E[x−μσ2⋅(−12σ2+(x−μ)22(σ2)2)]I_{12} = E\\left[ \\frac{\\partial \\log p}{\\partial \\mu} \\cdot \\frac{\\partial \\log p}{\\partial \\sigma^2} \\right] = E\\left[ \\frac{x - \\mu}{\\sigma^2} \\cdot \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right) \\right]I12=E[∂μ∂logp⋅∂σ2∂logp]=E[σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)]
展开乘积:
x−μσ2⋅(−12σ2+(x−μ)22(σ2)2)=x−μσ2⋅(−12σ2)+x−μσ2⋅(x−μ)22(σ2)2\\frac{x - \\mu}{\\sigma^2} \\cdot \\left( -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2} \\right) = \\frac{x - \\mu}{\\sigma^2} \\cdot \\left( -\\frac{1}{2\\sigma^2} \\right) + \\frac{x - \\mu}{\\sigma^2} \\cdot \\frac{(x - \\mu)^2}{2(\\sigma^2)^2}σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)=σ2x−μ⋅(−2σ21)+σ2x−μ⋅2(σ2)2(x−μ)2
=−x−μ2(σ2)2+(x−μ)32(σ2)3= -\\frac{x - \\mu}{2(\\sigma^2)^2} + \\frac{(x - \\mu)^3}{2(\\sigma^2)^3}=−2(σ2)2x−μ+2(σ2)3(x−μ)3
因此:
I12=E[−x−μ2(σ2)2+(x−μ)32(σ2)3]I_{12} = E\\left[ -\\frac{x - \\mu}{2(\\sigma^2)^2} + \\frac{(x - \\mu)^3}{2(\\sigma^2)^3} \\right]I12=E[−2(σ2)2x−μ+2(σ2)3(x−μ)3]
由于期望是线性的,我们可以分开计算:
I12=−12(σ2)2E[x−μ]+12(σ2)3E[(x−μ)3]I_{12} = -\\frac{1}{2(\\sigma^2)^2} E[x - \\mu] + \\frac{1}{2(\\sigma^2)^3} E[(x - \\mu)^3]I12=−2(σ2)21E[x−μ]+2(σ2)31E[(x−μ)3]
步骤 2:计算正态分布的矩
对于 ( x∼N(μ,σ2)x \\sim N(\\mu, \\sigma^2)x∼N(μ,σ2) ):
-
( E[x−μ]=0E[x - \\mu] = 0E[x−μ]=0 ) (一阶中心矩,因为均值为 ( μ\\muμ ))
-
( E[(x−μ)3]=0E[(x - \\mu)^3] = 0E[(x−μ)3]=0 ) (三阶中心矩,由于正态分布是对称的,奇数阶中心矩为零)
代入:
I12=−12(σ2)2⋅0+12(σ2)3⋅0=0I_{12} = -\\frac{1}{2(\\sigma^2)^2} \\cdot 0 + \\frac{1}{2(\\sigma^2)^3} \\cdot 0 = 0I12=−2(σ2)21⋅0+2(σ2)31⋅0=0
所以:
I12=0I_{12} = 0I12=0
这就是为什么交叉项期望为零。
解释:为什么会是零?
这个结果的背后有深刻的统计意义:
-
正态分布的对称性:
- ( x−μx - \\mux−μ ) 的分布是对称的(服从 ( N(0,σ2)N(0, \\sigma^2)N(0,σ2) )),其奇数阶中心矩(如 ( E[x−μ]E[x - \\mu]E[x−μ] ) 和 ( E[(x−μ)3]E[(x - \\mu)^3]E[(x−μ)3] ))都为零。
- ( ∂logp∂μ=x−μσ2\\frac{\\partial \\log p}{\\partial \\mu} = \\frac{x - \\mu}{\\sigma^2}∂μ∂logp=σ2x−μ ) 是线性项,期望为零。
- ( ∂logp∂σ2=−12σ2+(x−μ)22(σ2)2\\frac{\\partial \\log p}{\\partial \\sigma^2} = -\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2}∂σ2∂logp=−2σ21+2(σ2)2(x−μ)2 ) 包含常数项和二次项,乘以奇数项 ( x−μx - \\mux−μ ) 后,奇数阶的部分在期望下消失。
-
参数的正交性:
- 在正态分布中,( μ\\muμ ) 和 ( σ2\\sigma^2σ2 ) 的得分函数是“正交”的,意味着它们提供的信息在统计上是独立的。
- 当 ( I12=0I_{12} = 0I12=0 ),Fisher信息矩阵是对角矩阵,表明 ( μ\\muμ ) 和 ( σ2\\sigma^2σ2 ) 的估计不会相互干扰。
-
直观理解:
- ( x−μσ2\\frac{x - \\mu}{\\sigma^2}σ2x−μ ) 表示数据偏离均值的程度,是随机的正负波动。
- (−12σ2+(x−μ)22(σ2)2-\\frac{1}{2\\sigma^2} + \\frac{(x - \\mu)^2}{2(\\sigma^2)^2}−2σ21+2(σ2)2(x−μ)2 ) 与方差相关,是关于偏差大小的量。
- 这两者乘积的正负波动在对称分布下互相抵消,期望为零。
验证:另一种方法(二阶导数)
Fisher信息矩阵也可以用二阶导数的负期望定义:
I12=−E[∂2logp∂μ∂σ2]I_{12} = -E\\left[ \\frac{\\partial^2 \\log p}{\\partial \\mu \\partial \\sigma^2} \\right]I12=−E[∂μ∂σ2∂2logp]
计算二阶混合偏导:
∂∂σ2(x−μσ2)=(x−μ)⋅(−1)(σ2)−2=−x−μ(σ2)2\\frac{\\partial}{\\partial \\sigma^2} \\left( \\frac{x - \\mu}{\\sigma^2} \\right) = (x - \\mu) \\cdot (-1) (\\sigma^2)^{-2} = -\\frac{x - \\mu}{(\\sigma^2)^2}∂σ2∂(σ2x−μ)=(x−μ)⋅(−1)(σ2)−2=−(σ2)2x−μ
I12=−E[−x−μ(σ2)2]=1(σ2)2E[x−μ]=0I_{12} = -E\\left[ -\\frac{x - \\mu}{(\\sigma^2)^2} \\right] = \\frac{1}{(\\sigma^2)^2} E[x - \\mu] = 0I12=−E[−(σ2)2x−μ]=(σ2)21E[x−μ]=0
这与得分函数方法一致,进一步确认 ( I12=0I_{12} = 0I12=0 )。
结论
( I12=0I_{12} = 0I12=0 ) 是因为正态分布的奇数阶中心矩为零,导致 ( ∂logp∂μ\\frac{\\partial \\log p}{\\partial \\mu}∂μ∂logp ) 和 ( ∂logp∂σ2\\frac{\\partial \\log p}{\\partial \\sigma^2}∂σ2∂logp ) 的乘积在期望下抵消。这反映了 ( μ\\muμ ) 和 ( σ2\\sigma^2σ2 ) 在信息上的独立性,是正态分布的一个重要特性。
后记
2025年2月24日21点43分于上海,在Grok3大模型辅助下完成。