当前位置: 首页 > news >正文

机器学习基础:统计量与抽样分布

文章目录


机器学习必备基础知识,力求以最简洁的语言,描述最完整的内容。
很多知识没有深入剖析,也没必要深入剖析。大致了解知识框架之后,即可开始学习机器学习,有不懂的再回过头再仔细研究,驱动式学习才是最高效的学习。

在这里插入图片描述

统计量与抽样分布

概述

数理统计是对随机现象进行统计规律归纳,它与概率论在研究方法上恰好相反。具体而言,我们在概率论中总是假设一个随机变量的分布已知,而在现实里,我们可能很难知道一个随机事件服从的分布,或者知道了对应的分布,但不确定其中参数的取值。在这些场景中,我们需要用到数理统计的知识和方法。也就是说,进入了从理论到实际应用的阶段

比如说服装厂为了确定各种尺码的生产比例,调查人们身长的分布,从成年男性中随机抽取100人,得到他们的身长数据

1、通过身长数据推断男性成人身长 X X X的概率密度——有数据,不知道分布

2、若已知 X X X服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),要估计参数 μ , σ \mu,\sigma μ,σ的值 ——有数据有分布,不知道参数——参数统计

  • 数理统计的内容大致分为两类:
    • 研究如何有效地收集随机数据
    • 研究如何有效地分析已获得的随机数据

总体与样本

总体

  • 研究对象的全体称为总体(通常具体指研究对象的某项数量指标),总体中每一个成员称为个体
  • 如果一个总体包含的个体有限,那么就称为有限总体;反之,称为无限总体
  • 数理统计中,我们用随机变量 X X X或分布函数 F ( x ) F(x) F(x)描述一个总体(或者说,该总体的某种特征或数量指标;因为我们真正关心的并不是总体本身,而是其某一数字特征)

样本

  • 为了对总体 X X X进行研究,通常从总体中随机抽取一些个体,这些个体称为样本,这种随机抽得样本的过程称为随机抽样或简称为抽样。样本中个体的数量称为样本容量

  • 假设对总体进行了 n n n次观测,得到一组数据 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),称为样本观测值样本值,统计学的工作就是利用样本值来对总体分布中的未知成分进行推断。

    • 样本值具有二重性
      • 一次抽样获得的样本值 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)是一组完全确定的数值
      • 受各种随机因素的影响,不同抽样中获得的样本值可能会发生变化
    • 所以我们将样本看作一组随机变量 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn),具体某次观测时,获得其数值为 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)
    • 样本 ( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)的所有可能取值的全体称为样本空间,记为 Ω \Omega Ω,一个样本值就是其中的一个样本点
  • 为了使样本能很好地反映总体的特征,对随机抽样提出如下两个要求:

    • 代表性:样本能够代表总体,也就是要样本的每个分量 X i X_i Xi和总体 X X X具有相同分布
    • 独立性:样本的所有分量 X i X_i Xi相互独立
      • 满足上述两个要求的样本称为简单随机样本,也简称为样本

设总体的分布函数为 F ( x ) F(x) F(x),则

  • 样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的分布函数为
    F ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n F ( x i ) F(x_1,x_2,...,x_n)=\prod_{i=1}^nF(x_i) F(x1,x2,...,xn)=i=1nF(xi)

  • 若总体是连续型随机变量,其概率密度函数为 p ( x ) p(x) p(x),则样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的密度函数为
    p ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n p ( x i ) p(x_1,x_2,...,x_n)=\prod_{i=1}^np(x_i) p(x1,x2,...,xn)=i=1np(xi)

统计量与抽样分布

在获得样本之后,就要对总体的未知成分进行推断,这需要对样本进行加工整理,从中提取有用信息。而统计量是对样本中信息的提取和抽象,从数学角度来说,统计量是样本的函数。

  • 统计量

    • 定义:若样本的函数 f ( X 1 , X 2 , . . . X n ) f(X_1,X_2,...X_n) f(X1,X2,...Xn)不含任何未知参数,则称其为一个统计量,称 f ( x 1 , x 2 , . . . , x n ) f(x_1,x_2,...,x_n) f(x1,x2,...,xn)为统计量的一个观测值
    • 统计量中不含任何未知量,也就是说一旦有了样本,就可以计算出统计量。
    • 有定义可知,统计量是一个随机变量,完全由样本确定

常用统计量

( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)为总体 X X X中抽取的一个样本

  • 样本均值 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i X=n1i=1nXi.
  • 样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ‾ 2 ) S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\overline{X}^2) S2=n11i=1n(XiX)2=n11(i=1nXi2nX2)
  • 样本标准差 S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2} S=S2 =n11i=1n(XiX)2
  • 样本 k k k阶原点矩 A k = 1 n ∑ i = 1 n X i k A_k=\frac{1}{n}\sum_{i=1}^nX_i^k Ak=n1i=1nXik
  • 样本 k k k阶中心矩 B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k Bk=n1i=1n(XiX)k
  • 经验分布函数 : 用 S ( x ) S(x) S(x)表示样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn中不大于 x x x的随机变量个数,定义经验分布函数为 F n ( x ) = 1 n S ( x ) F_n(x)=\frac1nS(x) Fn(x)=n1S(x)

上面提到,样本具有二重性,则统计量作为样本的函数 同样具有二重性。

  • 具体观察时,统计量是具体的观测值

  • 脱离具体观测时,统计量可以被看作随机变量

  • 统计量的分布称为抽样分布。通常确定一个统计量的精确分布非常困难,只有在正态总体的情况下有比较好的结论

正态总体

首先将介绍数理统计学中的三大分布: χ 2 分布、 t 分布和 F 分布 \chi^2分布、t分布和F分布 χ2分布、t分布和F分布

χ 2 \chi^2 χ2分布

  • 设随机变量 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn独立同分布且每个 X i ~ N ( 0 , 1 ) X_i~N(0,1) XiN(0,1),则称随机变量
    χ 2 = ∑ i = 1 n X i 2 \chi^2=\sum_{i=1}^{n}X_i^2 χ2=i=1nXi2
    服从自由度为 n n n χ 2 \chi^2 χ2分布,记为 χ 2 ~ χ 2 ( n ) \chi^2~\chi^2(n) χ2χ2(n).

    这里的自由度是指和式中独立随机变量的个数,可以证明 χ 2 ( n ) \chi^2(n) χ2(n)的分布密度为
    p ( x ) = { 1 2 n 2 T ( n 2 ) x n 2 − 1 e − x 2 , x > 0 , 0 , x ≤ 0 , p(x)=\begin{cases} \frac{1}{2^{\frac{n}{2}}\Tau(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x>0,\\ 0,&x\leq0, \end{cases} p(x)={22nT(2n)1x2n1e2x,0,x>0,x0,

  • 分位点

    α \alpha α分位点的定义:随机变量 X X X,对给定的数 α \alpha α,满足 P ( X > λ α ) = α P(X>\lambda_{\alpha})=\alpha P(X>λα)=α的实数 λ α \lambda_{\alpha} λα X X X的上 α \alpha α分位点 ( λ α > 0 ) (\lambda_{\alpha}>0) (λα>0)

    而当 X ∼ χ 2 ( n ) X\sim \chi^2(n) Xχ2(n)时, λ α \lambda_{\alpha} λα记为 χ α 2 ( n ) \chi^2_{\alpha}(n) χα2(n),也就是上图中阴影部分的横坐标左边界

    P ( X > λ α ) = α P(X>\lambda_{\alpha})=\alpha P(X>λα)=α也就是上图中阴影部分面积为 α \alpha α

  • 性质

    • 分布可加性 若 X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1),Y\sim \chi^2(n_2) Xχ2(n1),Yχ2(n2),且 X , Y X,Y X,Y独立,则 X + Y ∼ χ 2 ( n 1 + n 2 ) X+Y\sim \chi^2(n_1+n_2) X+Yχ2(n1+n2)
    • 期望与方差 若 X ∼ χ 2 ( n ) X\sim \chi^2(n) Xχ2(n),则 E ( X ) = n , D ( X ) = 2 n E(X)=n,D(X)=2n E(X)=n,D(X)=2n

t t t分布

  • 构造 X ~ N ( 0 , 1 ) , Y ~ χ 2 ( n ) ) X~N(0,1),Y~\chi^2(n)) XN(0,1),Yχ2(n)),且 X X X Y Y Y相互独立,则称随机变量
    T = X Y / n T=\frac{X}{\sqrt{Y/n}} T=Y/n X
    服从自由度为 n n n t t t分布,记为 T ~ t ( n ) T~t(n) Tt(n).

  • t ( n ) t(n) t(n)概率密度为
    p ( x ) = T ( n + 1 2 ) n π T ( n 2 ) ( 1 + x 2 n ) − n + 1 2 p(x)=\frac{\Tau(\frac{n+1}{2})}{\sqrt{n\pi}\Tau(\frac n2)}(1+\frac{x^2}{n})^{-\frac{n+1}{2}} p(x)= T(2n)T(2n+1)(1+nx2)2n+1

  • 基本性质

    • p ( x ) p(x) p(x)关于纵轴对称

    • p ( x ) p(x) p(x)的极限为 N ( 0 , 1 ) N(0,1) N(0,1)的密度函数,即
      lim ⁡ n → ∞ p ( x ) = ϕ ( x ) = 1 2 π e − t 2 2 , − ∞ < x < + ∞ \lim_{n\rightarrow\infin}p(x)=\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}},-\infin<x<+\infin nlimp(x)=ϕ(x)=2π 1e2t2,<x<+

  • t t t分布的上 α \alpha α分位点记为 t α ( n ) t_{\alpha}(n) tα(n)

    • 可以发现, t 1 − α ( n ) = − t α ( n ) t_{1-\alpha}(n)=-t_{\alpha}(n) t1α(n)=tα(n)

F F F分布

  • 构造 X ~ χ 2 ( n 1 ) , Y   χ 2 ( n 2 ) X~\chi^2(n_1),Y~\chi^2(n_2) Xχ2(n1),Y χ2(n2),且 X 、 Y X、Y XY相互独立,则称随机变量
    F = X / n 1 Y / n 2 F=\frac{X/n_1}{Y/n_2} F=Y/n2X/n1
    服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2) F F F分布,记为 F ~ F ( n 1 , n 2 ) F~F(n_1,n_2) FF(n1,n2),其中 n 1 n_1 n1称为第一自由度, n 2 n_2 n2称为第二自由度。

  • 概率密度
    p ( x ) = { T ( n 1 + n 2 2 ) T ( n 1 2 ) T ( n 2 2 ) ( n 1 n 2 ) n 1 2 x n 1 2 − 1 ( 1 + n 1 n 2 x ) − n 1 + n 2 2 , x > 0 0 , x ⩽ 0 p(x)= \begin{cases}\frac{\Tau(\frac{n_1+n_2}{2})}{\Tau(\frac{n_1}{2})\Tau(\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}x^{\frac{n_1}{2}-1}(1+\frac{n_1}{n_2}x)^{-\frac{n_1+n_2}{2}},&x>0\\ 0,&x\leqslant 0 \end{cases} p(x)={T(2n1)T(2n2)T(2n1+n2)(n2n1)2n1x2n11(1+n2n1x)2n1+n2,0,x>0x0

  • 分位点

    • F F F分布的上 α \alpha α分位点记为 F α ( n 1 , n 2 ) F_{\alpha}(n_1,n_2) Fα(n1,n2)

    • 性质: F 1 − α ( n 1 , n 2 ) = 1 F α ( n 2 , n 1 ) F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)} F1α(n1,n2)=Fα(n2,n1)1

      证明:

      F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) FF(n1,n2) 1 F ∼ F ( n 2 , n 1 ) \frac1F\sim F(n_2,n_1) F1F(n2,n1)

      那么 P ( F > F 1 − α ( n 1 , n 2 ) ) = 1 − α , P ( 1 F > F α ( n 2 , n 1 ) ) = α P(F>F_{1-\alpha}(n_1,n_2))=1-\alpha,P(\frac1F>{F_{\alpha}(n_2,n_1)})=\alpha P(F>F1α(n1,n2))=1α,P(F1>Fα(n2,n1))=α

      P ( 1 F < 1 F 1 − α ( n 1 , n 2 ) ) = 1 − α P(\frac1F<\frac{1}{F_{1-\alpha}(n_1,n_2)})=1-\alpha P(F1<F1α(n1,n2)1)=1α

      P ( 1 F > 1 F 1 − α ( n 1 , n 2 ) ) = α P(\frac1F>\frac{1}{F_{1-\alpha}(n_1,n_2)})=\alpha P(F1>F1α(n1,n2)1)=α

抽样分布的样本均值和样本方差的分布

  • X 1 , . . . , X n X_1,...,X_n X1,...,Xn独立同分布且均服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则

    • U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) U=\frac{\overline X-\mu}{\sigma /\sqrt{n}}\sim N(0,1) U=σ/n XμN(0,1)

      证明:

      x ‾ = 1 n ∑ i = 1 n X i , E ( X ‾ ) = 1 n ∑ i = 1 n E ( X i ) = μ D ( X ‾ ) = 1 n 2 ∑ i = 1 n D ( X i ) = σ 2 n \overline x=\frac1n\sum_{i=1}^nX_i,\\ E(\overline X)=\frac1n\sum_{i=1}^nE(X_i)=\mu \\D(\overline X)=\frac{1}{n^2}\sum_{i=1}^nD(X_i)=\frac{\sigma^2}{n} x=n1i=1nXi,E(X)=n1i=1nE(Xi)=μD(X)=n21i=1nD(Xi)=nσ2

      所以 X ‾ ∼ N ( μ , σ 2 n ) \overline X\sim N(\mu,\frac{\sigma^2}{n}) XN(μ,nσ2),即 X ‾ − μ σ / n ∼ N ( 0 , 1 ) \frac{\overline X-\mu}{\sigma /\sqrt{n}}\sim N(0,1) σ/n XμN(0,1)

    • X ‾ \overline X X S 2 S^2 S2相互独立 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ‾ 2 ) S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\overline{X}^2) S2=n11i=1n(XiX)2=n11(i=1nXi2nX2)

    • χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) χ2=σ2(n1)S2χ2(n1)

    • T = X ‾ − μ S / n ∼ t ( n − 1 ) T=\frac{\overline X-\mu}{S/\sqrt{n}}\sim t(n-1) T=S/n Xμt(n1)

  • X 1 , . . . , X n 1 X_1,...,X_{n_1} X1,...,Xn1独立同分布且均服从 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12) Y 1 , . . . , Y n 2 Y_1,...,Y_{n_2} Y1,...,Yn2独立同分布且均服从 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N(μ2,σ22),且两样本独立,则

    • F = S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) F=S22/σ22S12/σ12F(n11,n21)

      证明:由上面第三条, ( n 1 − 1 ) S 1 2 σ 1 2 ∼ χ 2 ( n 1 − 1 ) ,   ( n 2 − 1 ) S 2 2 σ 2 2 ∼ χ 2 ( n 2 − 1 ) \frac{(n_1-1)S_1^2}{\sigma_1^2}\sim\chi^2(n_1-1),\ \frac{(n_2-1)S_2^2}{\sigma_2^2}\sim\chi^2(n_2-1) σ12(n11)S12χ2(n11), σ22(n21)S22χ2(n21)

      S 1 2 , S 2 2 S_1^2,S_2^2 S12,S22相互独立,则由 F F F分布的定义可知
      ( n 1 − 1 ) S 1 2 σ 1 2 / ( n 1 − 1 ) ( n 2 − 1 ) S 2 2 σ 2 2 / ( n 2 − 1 ) = S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}/(n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma_2^2}/(n_2-1)}=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) σ22(n21)S22/(n21)σ12(n11)S12/(n11)=S22/σ22S12/σ12F(n11,n21)

  • 进一步,假定 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22,就有
    T = X ‾ − Y ‾ − ( μ 1 − μ 2 ) S w 1 / n 1 + 1 / n 2 ∼ t ( n 1 − 1 + n 2 − 1 ) , 其中 S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 称为混合样本方差 T=\frac{\overline X-\overline Y-(\mu_1-\mu_2)}{S_w\sqrt{1/n_1+1/n_2}}\sim t(n_1-1+n_2-1),其中\\ S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}称为混合样本方差 T=Sw1/n1+1/n2 XY(μ1μ2)t(n11+n21),其中Sw2=n1+n22(n11)S12+(n21)S22称为混合样本方差

相关文章:

  • 工作中整理的常用的Linux命令
  • Vue2和Vue3的区别——实例创建、响应式数据代理、v-for和v-if优先级、生命周期
  • 跑步装备推荐:2022年跑步装备选购清单
  • 多线程(进阶)
  • 如何学习HTML5 需要掌握哪些技能
  • Dinky,让 Flink SQL 纵享丝滑
  • Docker | docker容器导出以及常见问题的处理
  • 【云原生之Docker实战】使用Docker部署Pichome个人相册系统
  • JavaScript 33. Promise
  • 探究MYSQL之索引
  • 创邻科技入选Gartner全球《图数据库管理系统市场指南》代表厂商
  • WEB自动化测试(5)—— Cypress-元素交互
  • 怎么入门网络安全,学这两类证书就够了NISP或CISP
  • iOS 16 SwiftUI 4.0 列表(List)项分隔线变短的原因及解决
  • MySQL-存储过程-函数-触发器-游标
  • 智能驾驶 车牌检测和识别(一)《CCPD车牌数据集》
  • 【c语言进阶】动态内存管理知识大全(下)
  • 前端实现水印的两种方式(DOM和Canvas)
  • Linux——进程
  • 【看表情包学Linux】冯诺依曼架构 | 理解操作系统 | 基于 Pintos 实现新的用户级程序的系统调用
  • 单链表——简单的增删查改
  • 电子技术——MOS放大器基础
  • 嵌入式 学习
  • 【Linux】vim编辑器的使用
  • 强化学习笔记:基于策略的学习之策略迭代(python实现)
  • $.ajax()方法详解
  • 百万级报警平台的架构设计与实现
  • 读书笔记-认识新朋友发展人际关系
  • FreeRTOS消息队列 传递结构体指针和结构体异同
  • HTML meta 标签
  • C# 实现Remoting双向通信
  • 读书笔记-建立大量的弱关系
  • 函数指针与状态机的用法
  • 前途命运
  • jdbc连接oracle时sid问题