【概率论】似然和概率的区别
似然(Likelihood)与概率(Probability)的深度解析
似然与概率是统计学中的两大核心概念,形式相似却本质不同。理解二者的差异与联系,是掌握统计推断、机器学习等地方的关键。
一、定义与视角:根本差异
(一)概率(Probability):已知参数,预测数据
概率描述的是“在给定模型参数的情况下,观测到某一数据的可能性”。其数学形式是概率分布函数(离散变量为概率质量函数 PMF,连续变量为概率密度函数 PDF),变量是数据 xxx,参数 θ\\thetaθ 是已知的固定值。
数学表达(以离散变量为例):对于模型参数 θ\\thetaθ(如抛硬币的正面概率 ppp),观测到数据 xxx(如抛10次得到7次正面)的概率为:
P(x∣θ)=概率质量函数(PMF) P(x \\mid \\theta) = \\text{概率质量函数(PMF)} P(x∣θ)=概率质量函数(PMF)
关键性质:
- 归一化:所有可能数据的概率之和(或积分)为1(∑xP(x∣θ)=1\\sum_x P(x \\mid \\theta) = 1∑xP(x∣θ)=1)。
- 用途:用于预测或生成数据(如已知硬币正面概率 p=0.5p=0.5p=0.5,预测抛10次得到7次正面的概率)。
(二)似然(Likelihood):已知数据,评估参数
似然描述的是“在给定观测数据的情况下,模型参数的合理程度”。其数学形式与概率分布函数形式相同,但变量是参数 θ\\thetaθ,数据 xxx 是已知的固定值(观测结果)。
数学表达(以离散变量为例):给定观测数据 xxx(如抛10次得到7次正面),参数 θ\\thetaθ(如硬币正面概率 ppp)的似然函数为:
L(θ∣x)=P(x∣θ) L(\\theta \\mid x) = P(x \\mid \\theta) L(θ∣x)=P(x∣θ)
关键性质:
- 不要求归一化:似然函数是参数 θ\\thetaθ 的相对合理性度量,∫L(θ∣x)dθ\\int L(\\theta \\mid x) d\\theta∫L(θ∣x)dθ 不一定等于1(如抛硬币的似然函数 L(p∣7次正面)L(p \\mid 7\\text{次正面})L(p∣7次正面) 积分后不为1)。
- 用途:用于参数估计(如通过最大似然估计找到最合理的 ppp)。
二、数学形式的联系:同一公式的两种解读
似然与概率的数学表达式完全相同,但变量与固定量不同。以下通过具体例子说明:
例1:抛硬币实验
假设抛一枚硬币 n=10n=10n=10 次,观测到正面次数 x=7x=7x=7。模型为二项分布,参数为正面概率 ppp。
-
概率视角(固定 ppp,变量是 xxx):概率 P(x=7∣p)P(x=7 \\mid p)P(x=7∣p) 是二项分布的 PMF:
P(7∣p)=(107)p7(1−p)3 P(7 \\mid p) = \\binom{10}{7} p^7 (1-p)^3 P(7∣p)=(710)p7(1−p)3
此时 ppp 是已知值(如 p=0.5p=0.5p=0.5),计算的是“抛10次得到7次正面的概率”。 -
似然视角(固定 x=7x=7x=7,变量是 ppp):似然函数 L(p∣7)L(p \\mid 7)L(p∣7) 形式与概率相同:
L(p∣7)=(107)p7(1−p)3 L(p \\mid 7) = \\binom{10}{7} p^7 (1-p)^3 L(p∣7)=(710)p7(1−p)3
此时 x=7x=7x=7 是观测结果,ppp 是未知参数,计算的是“当观测到7次正面时,不同 ppp 值的合理性”(如 p=0.7p=0.7p=0.7 比 p=0.5p=0.5p=0.5 更合理)。
例2:正态分布数据
假设观测到一个数据点 x=5x=5x=5,模型为正态分布 N(μ,σ2)N(\\mu, \\sigma^2)N(μ,σ2)。
-
概率视角(固定 μ=3,σ=2\\mu=3, \\sigma=2μ=3,σ=2,变量是 xxx):概率密度 p(x=5∣μ=3,σ=2)p(x=5 \\mid \\mu=3, \\sigma=2)p(x=5∣μ=3,σ=2) 是正态分布的 PDF:
p(5∣3,2)=12π⋅22exp(−(5−3)22⋅22) p(5 \\mid 3, 2) = \\frac{1}{\\sqrt{2\\pi \\cdot 2^2}} \\exp\\left(-\\frac{(5-3)^2}{2 \\cdot 2^2}\\right) p(5∣3,2)=2π⋅221exp(−2⋅22(5−3)2)
此时 μ,σ\\mu, \\sigmaμ,σ 已知,计算的是“数据 x=5x=5x=5 出现的概率密度”。 -
似然视角(固定 x=5x=5x=5,变量是 μ,σ\\mu, \\sigmaμ,σ):似然函数 L(μ,σ∣5)L(\\mu, \\sigma \\mid 5)L(μ,σ∣5) 形式与概率相同:
L(μ,σ∣5)=12πσ2exp(−(5−μ)22σ2) L(\\mu, \\sigma \\mid 5) = \\frac{1}{\\sqrt{2\\pi \\sigma^2}} \\exp\\left(-\\frac{(5-\\mu)^2}{2 \\sigma^2}\\right) L(μ,σ∣5)=2πσ21exp(−2σ2(5−μ)2)
此时 x=5x=5x=5 是观测结果,μ,σ\\mu, \\sigmaμ,σ 是未知参数,计算的是“当观测到 x=5x=5x=5 时,不同 μ,σ\\mu, \\sigmaμ,σ 的合理性”(如 μ=5\\mu=5μ=5 比 μ=3\\mu=3μ=3 更合理)。
三、核心区别:一张表格总结
四、核心联系:统计推断的两大支柱
似然与概率虽视角不同,但在统计推断中互为补充,共同支撑模型的建立与优化。
(一)最大似然估计(MLE):用似然“反推”参数
最大似然估计(MLE)是统计学中最常用的参数估计方法,其核心思想是:找到使似然函数 L(θ∣x)L(\\theta \\mid x)L(θ∣x) 最大的参数 θ\\thetaθ,即:
θ^MLE=argmaxθL(θ∣x) \\hat{\\theta}_{\\text{MLE}} = \\arg\\max_\\theta L(\\theta \\mid x) θ^MLE=argθmaxL(θ∣x)
由于似然函数与概率分布形式相同,MLE 本质是“用观测数据反推最可能的模型参数”。
例:抛硬币实验中,MLE 会找到 p=0.7p=0.7p=0.7(因为 L(0.7∣7)L(0.7 \\mid 7)L(0.7∣7) 最大),这与观测数据“7次正面”最匹配。
(二)贝叶斯推断:似然连接先验与后验
在贝叶斯统计中,似然函数是连接“先验知识”与“后验结论”的桥梁。贝叶斯定理为:
P(θ∣x)=P(x∣θ)⏞似然⋅P(θ)⏞先验P(x)⏟证据 P(\\theta \\mid x) = \\frac{\\overbrace{P(x \\mid \\theta)}^{\\text{似然}} \\cdot \\overbrace{P(\\theta)}^{\\text{先验}}}{\\underbrace{P(x)}_{\\text{证据}}} P(θ∣x)=证据P(x)P(x∣θ)似然⋅P(θ)先验
其中:
- P(θ)P(\\theta)P(θ) 是参数的先验分布(如抛硬币前假设 ppp 服从均匀分布)。
- P(x∣θ)P(x \\mid \\theta)P(x∣θ) 是似然函数(观测数据对参数的支持程度)。
- P(θ∣x)P(\\theta \\mid x)P(θ∣x) 是后验分布(结合数据后的参数分布)。
(三)模型评估:似然比检验
似然函数可用于比较不同模型的优劣。例如,似然比检验(Likelihood Ratio Test)通过比较两个模型的似然值,判断哪个模型更符合观测数据:
似然比=L(θ1∣x)L(θ2∣x) \\text{似然比} = \\frac{L(\\theta_1 \\mid x)}{L(\\theta_2 \\mid x)} 似然比=L(θ2∣x)L(θ1∣x)
若似然比显著大于1,则模型1更优。
五、常见误区:似然不是参数的概率
初学者常误认为“似然是参数的概率”,但二者有本质区别:
- 概率 P(θ)P(\\theta)P(θ) 是参数的分布(如贝叶斯中的先验),满足归一化(∫P(θ)dθ=1\\int P(\\theta) d\\theta = 1∫P(θ)dθ=1)。
- 似然 L(θ∣x)L(\\theta \\mid x)L(θ∣x) 是参数的合理性度量,不要求归一化(如抛硬币的似然函数 L(p∣7)L(p \\mid 7)L(p∣7) 积分后远大于1)。
总结
似然与概率是统计学中的“镜像概念”:
- 概率是“已知参数,预测数据”,关注数据的分布。
- 似然是“已知数据,评估参数”,关注参数的合理性。
二者数学形式相同,但视角和用途互补,共同构成统计推断的基础——概率用于生成数据,似然用于反推模型,缺一不可。理解这一区别与联系,是掌握机器学习、计量经济学等地方的关键。