应用数理统计
应用数理统计
第一章
常见一维随机变量的分布
两点分布
X∼B(1,p)P(X=k)=pk(1−p)1−kEX=pDX=p(1−p) X \\sim B(1,p)\\\\ P(X=k)=p^k(1-p)^{1-k} \\\\ EX=p \\\\ DX=p(1-p)X∼B(1,p)P(X=k)=pk(1−p)1−kEX=pDX=p(1−p)
二项分布
X∼B(n,p)P{X=k}=Cnkpk(1−p)n−kEX=npDX=np(1−p)X \\sim B(n,p)\\\\ P\\{X=k\\}=C_n^kp^k(1-p)^{n-k} \\\\ EX=np \\\\ DX=np(1-p)X∼B(n,p)P{X=k}=Cnkpk(1−p)n−kEX=npDX=np(1−p)
泊松分布
X∼P(λ)P{X=k}=e−λλkk!EX=λDX=λ X \\sim P(\\lambda)\\\\ P\\{X=k\\} = e^{- \\lambda} \\frac{\\lambda^k}{k!} \\\\ \\\\ EX=\\lambda \\\\ DX=\\lambdaX∼P(λ)P{X=k}=e−λk!λkEX=λDX=λ
指数分布
密度函数
X∼Γ(1,λ)f(x)=λe−λxEX=1λDX=1λ2 X \\sim Γ(1,\\lambda) \\\\ f(x)=\\lambda e^{-\\lambda x} \\\\ EX=\\frac{1}{\\lambda} \\\\ DX=\\frac{1}{\\lambda ^2} X∼Γ(1,λ)f(x)=λe−λxEX=λ1DX=λ21
正态分布
密度函数
X∼N(μ,θ2)f(x)=12πσe−x−μ22σ2f(x)=12πe−x22 X \\sim N(\\mu,\\theta^2) \\\\f(x)=\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{- \\frac{{x-\\mu}^2}{2\\sigma^2}} \\\\f(x)=\\frac{1}{\\sqrt{2\\pi}}e^{- \\frac{x^2}{2}}X∼N(μ,θ2)f(x)=2πσ1e−2σ2x−μ2f(x)=2π1e−2x2
常见一维随机变量函数的分布
FY(y)=P{Y≤y}=P{g(X)≤y}=∫g(x)≤yfX(x)dx F_Y(y)=P\\{Y \\le y\\}=P\\{g(X) \\le y\\}=\\int_{g(x) \\le y}f_X(x)dxFY(y)=P{Y≤y}=P{g(X)≤y}=∫g(x)≤yfX(x)dx
大数定理和中心极限定理
大数定理描述的是算术平均的取值变化趋势。
中心极限定理刻画的是算术平均的极限分布。
khinchin大数定理
频率的极限是概率
中心极限定理
正态分布是二项分布的极限分布
第二章 数据特征
基本概念
样本点:随机试验中的基本事件,ω或者e表示
样本空间:称为E,记作Ω
总体:研究对象的全体,符号:X
总体分布 :F(x)=P(X≤x),∈x F(x) = P (X \\leq x) , ∈ x F(x)=P(X≤x),∈x
样本的分布 :
F(x1,x2,...,xn)=P(X1≤x1,....,Xn≤xn)=∏i=1nP(Xi≤xi)=∏F(xi) \\begin{align} F(x_1,x_2,...,x_n) = P(X_1 \\leq x_1,....,X_n \\leq x_n) \\\\ =\\prod_{i=1}^{n} P(X_i \\leq x _i) = \\prod F(x_i) \\end{align} F(x1,x2,...,xn)=P(X1≤x1,....,Xn≤xn)=i=1∏nP(Xi≤xi)=∏F(xi)
样本的联合密度函数
f(x1,x2,...,xn)=∏i=1nf(xi) f (x_1,x_2,...,x_n) =\\prod_{i=1}^{n} f(x _i) f(x1,x2,...,xn)=i=1∏nf(xi)
众数和频数
分位数
偏度和峰度
左偏和右偏
峰度值通常是和标准正态分布比较的,峰度为0为标准正态分布
sk=1n∑i=1n(xi−xˉ)3[1n∑i=1n(Xi−Xˉ)2]32 ku=1n∑i=1n(xi−xˉ)4[1n∑i=1n(Xi−Xˉ)2]2−3 sk=\\frac{\\frac{1}{n} \\sum_{i=1}^{n} (x_i - \\bar{x})^3}{[\\frac{1}{n} \\sum_{i=1}^{n} (X_i - \\bar{X})^2]^\\frac{3}{2}} \\\\ \\,\\\\ ku=\\frac{\\frac{1}{n} \\sum_{i=1}^{n} (x_i - \\bar{x})^4}{[\\frac{1}{n} \\sum_{i=1}^{n} (X_i - \\bar{X})^2]^2}-3 sk=[n1∑i=1n(Xi−Xˉ)2]23n1∑i=1n(xi−xˉ)3ku=[n1∑i=1n(Xi−Xˉ)2]2n1∑i=1n(xi−xˉ)4−3
图形描述
箱线图来进行异常值的判断
茎叶图
常见的统计量
均值、方差、原点矩和中心距、标准差 、变异系数
Xˉ=1n∑i=1nXiEX=μ,DXˉ=θ2EXˉ=μ,DXˉ=θ2n \\bar{X} = \\frac{1}{n} \\sum_{i=1}^{n} X_i \\\\EX=\\mu ,D\\bar X =\\theta ^2 \\\\ E\\bar X=\\mu , D\\bar X = \\frac {\\theta^2}{n}Xˉ=n1i=1∑nXiEX=μ,DXˉ=θ2EXˉ=μ,DXˉ=nθ2
s2=1n−1∑i=1n(Xi−Xˉ)2=1n(∑i=1nXi2−nXˉ2)∃DX,ES2=DX,EM2∗=n−1nDX s^2 = \\frac{1}{n-1} \\sum_{i=1}^{n} (X_i - \\bar{X})^2=\\frac{1}{n}(\\sum_{i=1}^{n}X_i^2-n\\bar X^2) \\\\ \\exists DX, ES^2 = DX ,EM_2^*=\\frac{n-1}{n}DXs2=n−11i=1∑n(Xi−Xˉ)2=n1(i=1∑nXi2−nXˉ2)∃DX,ES2=DX,EM2∗=nn−1DX
Mk=1n∑i=1nXik M_k = \\frac{1}{n} \\sum_{i=1}^{n} X_i^k Mk=n1i=1∑nXik
Mk∗=1n∑i=1n(Xi−Xˉ)∗M_k^*= \\frac{1}{n}\\sum_{i=1}^{n}( X_i -\\bar X)^*Mk∗=n1i=1∑n(Xi−Xˉ)∗
顺序统计量
抽样分布
1 χ2
χ2=∑i=1nxi2 \\chi^2 = \\sum _{i=1}^n x_i^2χ2=i=1∑nxi2
f(x)=12k/2Γ(k/2)xk/2−1e−x/2 Γ(z)=∫0∞tz−1e−tdt χ2∼χ2(n),Eχ2=n,Dχ2=2n χ12∼χ2(n1),χ22∼χ2(n2),χ12+χ22∼χ2(n1+n2) X∼χ2(2),X∼Γ(1,1/2) f(x) = \\frac{1}{2^{k/2}Γ(k/2)}x^{k/2-1}e^{-x/2} \\\\ \\; \\\\ Γ(z) = ∫_{0}^{∞} t^{z-1}e^{-t} dt \\\\ \\, \\\\ \\chi^2 \\sim \\chi^2(n),E \\chi^2=n ,D \\chi^2=2n \\\\ \\; \\\\ \\chi_1^2 \\sim \\chi^2(n_1),\\chi_2^2 \\sim \\chi^2(n_2) ,\\chi_1^2+\\chi_2^2 \\sim \\chi^2(n_1+n_2) \\\\ \\,\\\\ X \\sim \\chi ^2(2) , X \\sim \\Gamma(1,1/2) f(x)=2k/2Γ(k/2)1xk/2−1e−x/2Γ(z)=∫0∞tz−1e−tdtχ2∼χ2(n),Eχ2=n,Dχ2=2nχ12∼χ2(n1),χ22∼χ2(n2),χ12+χ22∼χ2(n1+n2)X∼χ2(2),X∼Γ(1,1/2)
2 t分布
X∼N(0,1),Y∼χ2(n)T=XY/n T∼t(n)f(x;ν)=Γ(ν+12)νπ Γ(ν2)(1+x2ν)−ν+12 X\\sim N(0,1),Y \\sim \\chi^2(n) \\\\ T=\\frac{X}{\\sqrt{Y/n}} \\,T \\sim t(n) \\\\ f(x; \\nu) = \\frac{\\Gamma\\left(\\frac{\\nu + 1}{2}\\right)}{\\sqrt{\\nu \\pi} \\, \\Gamma\\left(\\frac{\\nu}{2}\\right)} \\left(1 + \\frac{x^2}{\\nu}\\right)^{-\\frac{\\nu + 1}{2}} X∼N(0,1),Y∼χ2(n)T=Y/nXT∼t(n)f(x;ν)=νπΓ(2ν)Γ(2ν+1)(1+νx2)−2ν+1
3 F分布
X∼χ2(n),Y∼χ2(m)F=X/nY/m X\\sim \\chi^2(n),Y \\sim \\chi^2(m) \\\\ F=\\frac{X/n}{Y/m} X∼χ2(n),Y∼χ2(m)F=Y/mX/n
抽样分布
关于单个总体的抽样分布定理
(n−1)S2σ2∼χ2(n−1)Xˉ∼N(μ,σ2/n)\\frac{(n-1)S^2}{\\sigma^2} \\sim \\chi^2(n-1)\\\\ \\bar X \\sim N(\\mu,\\sigma^2/n) \\\\ σ2(n−1)S2∼χ2(n−1)Xˉ∼N(μ,σ2/n)
关于两个总体的抽样分布定理
随机模拟
参数估计
利用样本估计总体
点估计 求解参数θ的点估计量和点估计值θ^i \\small{求解参数θ的点估计量和点估计值} \\hat {\\theta }_i求解参数θ的点估计量和点估计值θ^i
矩估计法
E^Xl=Ml=1n∑inXilE^X=Xˉ,E^X2=1n∑inXi2D^X=E^X2−(E^X)2 \\hat{E}X^l=M_l=\\frac{1}{n}\\sum_i^nX_i^l \\\\ \\hat{E}X= \\bar{X} , \\hat{E}X^2=\\frac{1}{n}\\sum_i^nX_i^2\\\\ \\hat{D}X= \\hat{E}X^2-(\\hat{E}X)^2E^Xl=Ml=n1i∑nXilE^X=Xˉ,E^X2=n1i∑nXi2D^X=E^X2−(E^X)2
总体的中心距可用样本的l阶中心距代替
最大似然估计
未知参数的最大似然估计值为参数空间中使抽样试验结果出现的概率达到最大的值
- 求似然函数
- 求未知参数的最大似然估计值
L(θ1,...,θk;x1,...,xk)max L(θ1,...,θk;x1,...,xk)max lnL(θ1,...,θk;x1,...,xk) L(\\theta_1,...,\\theta_k;x_1,...,x_k)\\\\max \\, L(\\theta_1,...,\\theta_k;x_1,...,x_k)\\\\max \\,\\, lnL(\\theta_1,...,\\theta_k;x_1,...,x_k)L(θ1,...,θk;x1,...,xk)maxL(θ1,...,θk;x1,...,xk)maxlnL(θ1,...,θk;x1,...,xk)
贝叶斯估计
估计的参数视为随机变量
总体信息、样本信息和先验信息
最小二乘估计
点估计的评价
MSE(θ^)=(Eθ^−θ)2+Dθ^ MSE(\\hat{\\theta})=(E\\hat{\\theta}-\\theta)^2+D\\hat{\\theta}MSE(θ^)=(Eθ^−θ)2+Dθ^
偏依度和变异性
区间估计
假设检验
**显著水平:**人为的选定一个较小的概率值α,并且认为概率不超过α的事件为小概率事件。
假设检验的两类错误
弃真错误α
纳伪错误β
单个总体的参数假设检验
单个正态总体和非正态总体的假设检验方法
回归分析
随机变量相关关系的一种统计方法
- 回归分析的内容
1.确定回归函数f(x)或者f(x1,x2,…,xm)
【含若干个未知参数的情形称为参数回归;对数学模型无特殊假设的回归分析称为非参数回归】
2.检验回归模型
3.筛选自变量 ??
4.预测
一元线性回归分析
回归系数的最小二乘估计
使得总的误差平方和达到最小时的系数值作为回归参数的估计值
Q(β0,β1)=∑i=1n(yi−β0−β1xi)2 Q(\\beta_0,\\beta_1)=\\sum_{i=1}^n(y_i-\\beta_0-\\beta_1x_i)^2Q(β0,β1)=i=1∑n(yi−β0−β1xi)2
通过极值求导,得到参数的解
{β^1=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2β^0=yˉ−β^1xˉ\\begin{cases} \\hat \\beta_1=\\frac{\\sum^n_{i=1}(x_i-\\bar x)(y_i-\\bar y)}{\\sum^n_{i=1}(x_i-\\bar x)^2} \\\\\\hat \\beta_0=\\bar y-\\hat \\beta_1 \\bar x \\end{cases}{β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)β^0=yˉ−β^1xˉ
最小二乘估计的性质及证明
β^1∼N(β1,σ2lxx) β^0∼N(β0,(1n+xˉ2lxx)σ2) y^=β^0+β^1x∼N(β0+β1x,(1n+(x−xˉ2)lxx)σ2) \\hat \\beta_1 \\sim N(\\beta_1,\\frac{\\sigma^2}{l_{xx}}) \\\\ \\, \\\\\\hat \\beta_0 \\sim N(\\beta_0,({\\frac{1}{n} }+ \\frac{\\bar x^2}{l_{xx}})\\sigma^2) \\\\\\,\\\\\\hat y=\\hat \\beta_0+\\hat \\beta_1x \\sim N(\\beta_0+ \\beta_1x,({\\frac{1}{n} }+ \\frac{(x-\\bar x^2)}{l_{xx}})\\sigma^2)β^1∼N(β1,lxxσ2)β^0∼N(β0,(n1+lxxxˉ2)σ2)y^=β^0+β^1x∼N(β0+β1x,(n1+lxx(x−xˉ2))σ2)
回归方程的检验
1.t 检验法
2.F 检验法
3. r检验法
方差设计与正交分析
分类变量和数值变量的关系
单因素方差分析和多因素方差分析
单因素方差分析
总均值
μˉ=1n∑i=1rniμi \\bar \\mu =\\frac{1}{n}\\sum_{i=1}^r {}n_i \\mu _iμˉ=n1i=1∑rniμi
水平效应
αi=μi−μˉ\\alpha_i=\\mu_i-\\bar \\muαi=μi−μˉ