《概率论与数理统计》学渣笔记_概率论与数理统计笔记总结
文章目录
- 1 随机事件和概率
-
- 1.1 古典概型求概率
-
- 随机分配问题
- 简单随机抽样问题
- 1.2 几何概型求概率
- 1.3 重要公式求概率
- 2 一维随机变量及其分布
-
- 2.1 随机变量及其分布函数的定义
-
- 离散型随机变量及其概率分布(概率分布)
- 连续型随机变量及其概率分布(分布函数)
- 2.2 离散型分布
-
- 0-1分布 X ∼ B ( 1 , p ) X \\sim B(1,p) X∼B(1,p)
- 二项分布 X ∼ B ( n , p ) X\\sim B(n,p) X∼B(n,p)
- 负二项分布(帕斯卡分布) X ∼ N b ( r , p ) X\\sim Nb(r,p) X∼Nb(r,p)
- 几何分布 X ∼ G ( p ) X\\sim G(p) X∼G(p)
- 超几何分布 X ∼ H ( n , M , N ) X\\sim H(n,M,N) X∼H(n,M,N)
- 泊松分布 X ∼ P ( λ ) X\\sim P(λ) X∼P(λ)
- 离散型→离散型
- 2.3 连续型分布
-
- 均匀分布 X ∼ U ( a , b ) X\\sim U(a,b) X∼U(a,b)
- 指数分布 X ∼ E ( λ ) X\\sim E(λ) X∼E(λ)
- 正态分布 X ∼ N ( μ , σ 2 ) X\\sim N(μ,σ^2) X∼N(μ,σ2)
- 连续型→离散型
- 2.4 混合型分布
-
- 连续型→连续型(或混合型)
- 3 多维随机变量及其分布
-
- 3.1 定义
- 3.2 求联合分布
-
- 二维均匀分布与二维正态分布
- 3.3 求边缘分布
- 3.4 求条件分布
- 3.5 判独立
- 3.6 用分布
- 3.7(离散型,离散型)→离散型
- 3.8(连续型,连续型)→连续型
-
- 分布函数法
- 卷积公式法(建议用这个)
- 最值函数的分布
- 3.10(离散型,连续型)→连续型【全集分解】
- 3.11 离散型→(离散型,离散型)
- 3.12 连续型→(离散型,离散型)
- 3.13 (离散型,离散型)→(离散型,离散型)
- 3.14 (连续型,连续型)→(离散型,离散型)
- 3.15 (离散型,连续型)→(离散型,离散型)
- 4 数字特征
-
- 4.1 数学期望
- 4.2 方差
- 4.3 亚当-夏娃公式(全期望定理,全方差定理)
- 4.4 常用分布的期望和方差
- 4.5 协方差
- 4.6 相关系数
- 4.7 独立性与不相关性的判定
- 4.8 切比雪夫不等式
- 5 大数定律与中心极限定理
-
- 5.1 切比雪夫大数定律(均值依概率收敛到期望)
- 5.2 伯努利大数定律(频率依概率收敛到概率)
- 5.3 辛钦大数定律(均值依概率收敛到期望)
- 5.4 中心极限定理(n足够大时,均收敛于正态分布)
- 6 统计量及其分布
-
- 6.1 统计量
- 6.2 标准正态分布分布的上α分位数
- 6.3 卡方分布 X ∼ χ 2 ( n ) X\\sim \\chi^2(n) X∼χ2(n)
- 6.4 t分布 t ∼ t ( n ) t\\sim t(n) t∼t(n)
- 6.5 F分布 F ∼ F ( n 1 , n 2 ) F\\sim F(n_1,n_2) F∼F(n1,n2)
- 6.6 正态总体下的常用结论
- 7 参数估计与假设检验
-
- 7.1 矩估计
- 7.2 最大似然估计(MLE)
-
- MLE的应用
- 7.3 常见分布的矩估计量和最大似然估计量
- 7.4 无偏性:求期望
- 7.5 有效性:比方差,方差越小越有效
- 7.6 一致性(相合性):大数定律
- 7.7 区间估计
- 7.8 假设检验
-
- 选择检验统计量
- 7.9 两类错误
-
- 第一类错误:弃真(直接算落入拒绝域的概率)
- 第二类错误:取伪(直接算落入收敛域的概率)
1 随机事件和概率
1.1 古典概型求概率
在古典概型中,样本空间中的每个基本事件发生的概率是相同的。如果样本空间中有 n n n 个可能的基本事件,而感兴趣的事件 A A A 包含其中的 m m m 个基本事件,则事件 A A A 发生的概率 P(A) P(A) P(A) 可以表示为:
P ( A ) = 事件 A 包含的基本事件数 样本空间Ω中的基本事件总数 = m n \\boldsymbol{P(A) = \\frac{\\text{事件 } A \\text{ 包含的基本事件数}}{\\text{样本空间Ω中的基本事件总数}} = \\frac{m}{n}} P(A)=样本空间Ω中的基本事件总数事件 A 包含的基本事件数=nm
随机分配问题
将 n 个球随机分配到 N 个盒子中 \\boldsymbol{将n个球随机分配到N个盒子中} 将n个球随机分配到N个盒子中
“某指定n个”:只有1种情况
“恰有n个”:有 C N n C_N^n CNn种情况
简单随机抽样问题
从含有 N 个球的盒子中 n 次简单随机抽样 \\boldsymbol{从含有N个球的盒子中n次简单随机抽样} 从含有N个球的盒子中n次简单随机抽样
抓阄模型:“先后无放回取 k k k个球”与“任取 k k k个球”的概率相同。
1.2 几何概型求概率
P ( A ) = A (子区域:长度,面积) Ω (几何区域:长度,面积) \\boldsymbol{P(A)=\\frac{A(子区域:长度,面积)}{Ω(几何区域:长度,面积)}} P(A)=Ω(几何区域:长度,面积)A(子区域:长度,面积)
1.3 重要公式求概率
2 一维随机变量及其分布
2.1 随机变量及其分布函数的定义
离散型随机变量及其概率分布(概率分布)
连续型随机变量及其概率分布(分布函数)
2.2 离散型分布
0-1分布 X∼B(1,p) X \\sim B(1,p) X∼B(1,p)
二项分布 X∼B(n,p) X\\sim B(n,p) X∼B(n,p)
负二项分布(帕斯卡分布) X∼Nb(r,p) X\\sim Nb(r,p) X∼Nb(r,p)
在伯努利试验中,每次试验中事件 A A A发生的概率为 p p p,若 X X X表示事件 A A A在第 r r r次发生时的试验次数,则
P { X = k } = C k − 1 r − 1 p r ( 1 − p ) k − r, k = r , r + 1 , . . . P\\{X = k\\} =C^{r - 1}_{k - 1} p^r (1-p)^{k-r} ,k=r,r+1,... P{X=k}=Ck−1r−1pr(1−p)k−r,k=r,r+1,...
E X = r p , D X = r ( 1 − p ) p 2 EX=\\frac{r}{p},DX=\\frac{r(1-p)}{p^2} EX=pr,DX=p2r(1−p)
帕斯卡分布与几何分布有关, r=1 r = 1 r=1时为几何分布。表首 r r r次即停止。
Y∼Nb(2,p) Y\\sim Nb(2,p) Y∼Nb(2,p)得 EY= 2 p EY=\\frac{2}{p} EY=p2
几何分布 X∼G(p) X\\sim G(p) X∼G(p)
首中即停止(等待型分布),具有无记忆性 首中即停止(等待型分布),具有无记忆性 首中即停止(等待型分布),具有无记忆性
超几何分布 X∼H(n,M,N) X\\sim H(n,M,N) X∼H(n,M,N)
泊松分布 X∼P(λ) X\\sim P(λ) X∼P(λ)
用于描述稀有事件的概率 用于描述稀有事件的概率 用于描述稀有事件的概率
离散型→离散型
2.3 连续型分布
均匀分布 X∼U(a,b) X\\sim U(a,b) X∼U(a,b)
指数分布 X∼E(λ) X\\sim E(λ) X∼E(λ)
正态分布 X∼N(μ, σ 2 ) X\\sim N(μ,σ^2) X∼N(μ,σ2)
正态分布,也叫高斯分布,是一种特定的概率分布。其曲线呈钟形,对称于均值。
正态分布的重要性源于以下几个原因:
-
自然现象的普遍性:很多自然和社会现象的测量结果近似服从正态分布,比如人的身高、考试成绩、误差分布等。原因是这些现象往往受到多种独立因素的共同影响,而根据中心极限定理,当这些影响因素足够多且相互独立时,其结果往往接近正态分布。
-
统计推断的基础:在统计学中,许多推断方法(如 t t t 检验、 z z z 检验、线性回归等)都基于数据服从正态分布的假设。正态分布的数学特性使得这些方法可以更有效地估计参数、检验假设。
-
中心极限定理的支持:无论数据原本的分布是什么样的,只要样本量足够大,样本均值的分布就会趋向于正态分布。这一理论使得我们可以在处理大样本时,使用正态分布来简化问题。
-
易于计算和理解:正态分布有简洁的数学表达式,且它的标准化(即转化为标准正态分布)使得很多复杂的计算变得简单、直观。
连续型→离散型
2.4 混合型分布
连续型→连续型(或混合型)
3 多维随机变量及其分布
3.1 定义
3.2 求联合分布
二维均匀分布与二维正态分布
3.3 求边缘分布
3.4 求条件分布
3.5 判独立
3.6 用分布
3.7(离散型,离散型)→离散型
3.8(连续型,连续型)→连续型
分布函数法
卷积公式法(建议用这个)
最值函数的分布
3.10(离散型,连续型)→连续型【全集分解】
3.11 离散型→(离散型,离散型)
3.12 连续型→(离散型,离散型)
3.13 (离散型,离散型)→(离散型,离散型)
3.14 (连续型,连续型)→(离散型,离散型)
3.15 (离散型,连续型)→(离散型,离散型)
4 数字特征
4.1 数学期望
4.2 方差
4.3 亚当-夏娃公式(全期望定理,全方差定理)
4.4 常用分布的期望和方差
4.5 协方差
4.6 相关系数
对于随机变量 X X X 和 Y Y Y,若它们满足线性关系 Y=aX+b Y = aX + b Y=aX+b:
-
当 a > 0 a > 0 a>0 时, Y Y Y 随 X X X 同方向变化(即 X X X 增加, Y Y Y 也增加),所以它们呈完全正相关,此时相关系数 ρ X Y = 1 \\rho_{XY} = 1 ρXY=1。
-
当 a < 0 a < 0 a<0 时, Y Y Y 随 X X X 反方向变化(即 X X X 增加, Y Y Y 减少),因此它们呈完全负相关,此时相关系数 ρ X Y = − 1 \\rho_{XY} = -1 ρXY=−1。如 X + Y = 1 X+Y=1 X+Y=1可以直接推出 ρ X Y = − 1 \\rho_{XY} = -1 ρXY=−1
4.7 独立性与不相关性的判定
4.8 切比雪夫不等式
5 大数定律与中心极限定理
5.1 切比雪夫大数定律(均值依概率收敛到期望)
5.2 伯努利大数定律(频率依概率收敛到概率)
5.3 辛钦大数定律(均值依概率收敛到期望)
5.4 中心极限定理(n足够大时,均收敛于正态分布)
6 统计量及其分布
6.1 统计量
统计量是不含未知参数的随机变量的函数 统计量是不含未知参数的随机变量的函数 统计量是不含未知参数的随机变量的函数
6.2 标准正态分布分布的上α分位数
6.3 卡方分布 X∼ χ 2 (n) X\\sim \\chi^2(n) X∼χ2(n)
标准正态分布的平方 标准正态分布的平方 标准正态分布的平方
6.4 t分布 t∼t(n) t\\sim t(n) t∼t(n)
标准正态分布的单打独斗 标准正态分布的单打独斗 标准正态分布的单打独斗
6.5 F分布 F∼F( n 1 , n 2 ) F\\sim F(n_1,n_2) F∼F(n1,n2)
卡方分布的单打独斗 卡方分布的单打独斗 卡方分布的单打独斗
6.6 正态总体下的常用结论
7 参数估计与假设检验
7.1 矩估计
矩估计法的核心思想是使得样本的样本矩等于总体的理论矩,从而通过这个等式来解出模型的参数。所谓“矩”就是随机变量的不同阶的期望,比如一阶矩是期望值,二阶矩是方差等。
参数估计能揭示数据规律,指导实际应用。描述数据、预测未来、优化决策和风险评估是参数估计的主要用途。
-
描述数据特性:估计参数帮助我们理解数据的分布特性,比如正态分布的均值(数据中心)和方差(数据分散程度)。
-
预测与推断:通过估计参数,可以进行未来预测或假设检验。例如,使用时间序列模型的参数预测市场趋势。
-
建模与优化:许多模型依赖参数估计来优化决策,如线性回归中的回归系数,用于预测或分类。
-
风险管理与模拟:估计参数后可以进行数据模拟,帮助评估金融风险或仿真系统性能。
-
理论验证与模型选择:通过实际数据检验理论模型,参数估计帮助选择更适合的模型。
7.2 最大似然估计(MLE)
MLE的应用
在 概率模型 中,最大似然估计 (MLE) 通过学习模型的参数,优化模型,使得在给定这些参数的情况下,训练数据的观测结果发生的概率最大。简言之,最大似然估计的目标是选择一组参数,使得模型最能够生成或解释现有数据。在深度学习中,这种优化过程通常通过最小化负对数似然损失来实现。
- 似然函数 是给定数据和模型的情况下,模型参数的联合概率。它评估在不同的参数值下,观测数据出现的可能性。
- 对数似然函数 是似然函数的对数,它常用于优化,因为对数的运算简化了计算,尤其是在处理大规模数据时。
- 负对数似然函数 是对数似然函数的负数,因为在优化问题中我们通常通过最小化损失来优化模型,而不是最大化似然。
因此,最大似然估计的目标 可以转化为 最小化负对数似然损失(NLL),这就是损失函数。在 机器学习和深度学习 中,我们通常用损失函数来度量模型的预测与真实数据之间的差距。
7.3 常见分布的矩估计量和最大似然估计量
7.4 无偏性:求期望
7.5 有效性:比方差,方差越小越有效
7.6 一致性(相合性):大数定律
常用切比雪夫不等式、辛钦大数定律判一致性 常用切比雪夫不等式、辛钦大数定律判一致性 常用切比雪夫不等式、辛钦大数定律判一致性
7.7 区间估计
7.8 假设检验
选择检验统计量
7.9 两类错误
需要注意的几点:
- 通常用检验的显著性水平 α α α来表示在检验中允许犯第一类错误的概率。
- 两类错误之和可以大于1。
- 增大样本容量不一定能降低同时犯两类错误的概率。
第一类错误:弃真(直接算落入拒绝域的概率)
第二类错误:取伪(直接算落入收敛域的概率)