机器学习基础:统计量与抽样分布
机器学习必备基础知识,力求以最简洁的语言,描述最完整的内容。
很多知识没有深入剖析,也没必要深入剖析。大致了解知识框架之后,即可开始学习机器学习,有不懂的再回过头再仔细研究,驱动式学习才是最高效的学习。
统计量与抽样分布
概述
数理统计是对随机现象进行统计规律归纳,它与概率论在研究方法上恰好相反。具体而言,我们在概率论中总是假设一个随机变量的分布已知,而在现实里,我们可能很难知道一个随机事件服从的分布,或者知道了对应的分布,但不确定其中参数的取值。在这些场景中,我们需要用到数理统计的知识和方法。也就是说,进入了从理论到实际应用的阶段
比如说服装厂为了确定各种尺码的生产比例,调查人们身长的分布,从成年男性中随机抽取100人,得到他们的身长数据
1、通过身长数据推断男性成人身长 X X X的概率密度——有数据,不知道分布
2、若已知 X X X服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),要估计参数 μ , σ \mu,\sigma μ,σ的值 ——有数据有分布,不知道参数——参数统计
- 数理统计的内容大致分为两类:
- 研究如何有效地收集随机数据
- 研究如何有效地分析已获得的随机数据
总体与样本
总体
- 研究对象的全体称为总体(通常具体指研究对象的某项数量指标),总体中每一个成员称为个体
- 如果一个总体包含的个体有限,那么就称为有限总体;反之,称为无限总体
- 数理统计中,我们用随机变量 X X X或分布函数 F ( x ) F(x) F(x)描述一个总体(或者说,该总体的某种特征或数量指标;因为我们真正关心的并不是总体本身,而是其某一数字特征)
样本
-
为了对总体 X X X进行研究,通常从总体中随机抽取一些个体,这些个体称为样本,这种随机抽得样本的过程称为随机抽样或简称为抽样。样本中个体的数量称为样本容量
-
假设对总体进行了 n n n次观测,得到一组数据 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),称为样本观测值或样本值,统计学的工作就是利用样本值来对总体分布中的未知成分进行推断。
- 样本值具有二重性
- 一次抽样获得的样本值 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)是一组完全确定的数值
- 受各种随机因素的影响,不同抽样中获得的样本值可能会发生变化
- 所以我们将样本看作一组随机变量 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn),具体某次观测时,获得其数值为 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn)
- 样本 ( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)的所有可能取值的全体称为样本空间,记为 Ω \Omega Ω,一个样本值就是其中的一个样本点
- 样本值具有二重性
-
为了使样本能很好地反映总体的特征,对随机抽样提出如下两个要求:
- 代表性:样本能够代表总体,也就是要样本的每个分量 X i X_i Xi和总体 X X X具有相同分布
- 独立性:样本的所有分量
X
i
X_i
Xi相互独立
- 满足上述两个要求的样本称为简单随机样本,也简称为样本
设总体的分布函数为 F ( x ) F(x) F(x),则
-
样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的分布函数为
F ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n F ( x i ) F(x_1,x_2,...,x_n)=\prod_{i=1}^nF(x_i) F(x1,x2,...,xn)=i=1∏nF(xi) -
若总体是连续型随机变量,其概率密度函数为 p ( x ) p(x) p(x),则样本 ( X 1 , X 2 , . . . , X n ) (X_1,X_2,...,X_n) (X1,X2,...,Xn)的密度函数为
p ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n p ( x i ) p(x_1,x_2,...,x_n)=\prod_{i=1}^np(x_i) p(x1,x2,...,xn)=i=1∏np(xi)
统计量与抽样分布
在获得样本之后,就要对总体的未知成分进行推断,这需要对样本进行加工整理,从中提取有用信息。而统计量是对样本中信息的提取和抽象,从数学角度来说,统计量是样本的函数。
-
统计量
- 定义:若样本的函数 f ( X 1 , X 2 , . . . X n ) f(X_1,X_2,...X_n) f(X1,X2,...Xn)不含任何未知参数,则称其为一个统计量,称 f ( x 1 , x 2 , . . . , x n ) f(x_1,x_2,...,x_n) f(x1,x2,...,xn)为统计量的一个观测值
- 统计量中不含任何未知量,也就是说一旦有了样本,就可以计算出统计量。
- 有定义可知,统计量是一个随机变量,完全由样本确定
常用统计量
设 ( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)为总体 X X X中抽取的一个样本
- 样本均值 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i X=n1∑i=1nXi.
- 样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ‾ 2 ) S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\overline{X}^2) S2=n−11∑i=1n(Xi−X)2=n−11(∑i=1nXi2−nX2)
- 样本标准差 S = S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2} S=S2=n−11∑i=1n(Xi−X)2
- 样本 k k k阶原点矩 A k = 1 n ∑ i = 1 n X i k A_k=\frac{1}{n}\sum_{i=1}^nX_i^k Ak=n1∑i=1nXik
- 样本 k k k阶中心矩 B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k Bk=n1∑i=1n(Xi−X)k
- 经验分布函数 : 用 S ( x ) S(x) S(x)表示样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn中不大于 x x x的随机变量个数,定义经验分布函数为 F n ( x ) = 1 n S ( x ) F_n(x)=\frac1nS(x) Fn(x)=n1S(x)
上面提到,样本具有二重性,则统计量作为样本的函数 同样具有二重性。
-
具体观察时,统计量是具体的观测值
-
脱离具体观测时,统计量可以被看作随机变量
-
统计量的分布称为抽样分布。通常确定一个统计量的精确分布非常困难,只有在正态总体的情况下有比较好的结论
正态总体
首先将介绍数理统计学中的三大分布: χ 2 分布、 t 分布和 F 分布 \chi^2分布、t分布和F分布 χ2分布、t分布和F分布
χ 2 \chi^2 χ2分布
-
设随机变量 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn独立同分布且每个 X i ~ N ( 0 , 1 ) X_i~N(0,1) Xi~N(0,1),则称随机变量
χ 2 = ∑ i = 1 n X i 2 \chi^2=\sum_{i=1}^{n}X_i^2 χ2=i=1∑nXi2
服从自由度为 n n n的 χ 2 \chi^2 χ2分布,记为 χ 2 ~ χ 2 ( n ) \chi^2~\chi^2(n) χ2~χ2(n).这里的自由度是指和式中独立随机变量的个数,可以证明 χ 2 ( n ) \chi^2(n) χ2(n)的分布密度为
p ( x ) = { 1 2 n 2 T ( n 2 ) x n 2 − 1 e − x 2 , x > 0 , 0 , x ≤ 0 , p(x)=\begin{cases} \frac{1}{2^{\frac{n}{2}}\Tau(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x>0,\\ 0,&x\leq0, \end{cases} p(x)={22nT(2n)1x2n−1e−2x,0,x>0,x≤0, -
分位点
上 α \alpha α分位点的定义:随机变量 X X X,对给定的数 α \alpha α,满足 P ( X > λ α ) = α P(X>\lambda_{\alpha})=\alpha P(X>λα)=α的实数 λ α \lambda_{\alpha} λα为 X X X的上 α \alpha α分位点 ( λ α > 0 ) (\lambda_{\alpha}>0) (λα>0)
而当 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n)时, λ α \lambda_{\alpha} λα记为 χ α 2 ( n ) \chi^2_{\alpha}(n) χα2(n),也就是上图中阴影部分的横坐标左边界
P ( X > λ α ) = α P(X>\lambda_{\alpha})=\alpha P(X>λα)=α也就是上图中阴影部分面积为 α \alpha α
-
性质
- 分布可加性 若 X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1),Y\sim \chi^2(n_2) X∼χ2(n1),Y∼χ2(n2),且 X , Y X,Y X,Y独立,则 X + Y ∼ χ 2 ( n 1 + n 2 ) X+Y\sim \chi^2(n_1+n_2) X+Y∼χ2(n1+n2)
- 期望与方差 若 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n),则 E ( X ) = n , D ( X ) = 2 n E(X)=n,D(X)=2n E(X)=n,D(X)=2n
t t t分布
-
构造 X ~ N ( 0 , 1 ) , Y ~ χ 2 ( n ) ) X~N(0,1),Y~\chi^2(n)) X~N(0,1),Y~χ2(n)),且 X X X与 Y Y Y相互独立,则称随机变量
T = X Y / n T=\frac{X}{\sqrt{Y/n}} T=Y/nX
服从自由度为 n n n的 t t t分布,记为 T ~ t ( n ) T~t(n) T~t(n). -
t ( n ) t(n) t(n)概率密度为
p ( x ) = T ( n + 1 2 ) n π T ( n 2 ) ( 1 + x 2 n ) − n + 1 2 p(x)=\frac{\Tau(\frac{n+1}{2})}{\sqrt{n\pi}\Tau(\frac n2)}(1+\frac{x^2}{n})^{-\frac{n+1}{2}} p(x)=nπT(2n)T(2n+1)(1+nx2)−2n+1 -
基本性质
-
p ( x ) p(x) p(x)关于纵轴对称
-
p ( x ) p(x) p(x)的极限为 N ( 0 , 1 ) N(0,1) N(0,1)的密度函数,即
lim n → ∞ p ( x ) = ϕ ( x ) = 1 2 π e − t 2 2 , − ∞ < x < + ∞ \lim_{n\rightarrow\infin}p(x)=\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}},-\infin<x<+\infin n→∞limp(x)=ϕ(x)=2π1e−2t2,−∞<x<+∞
-
-
t t t分布的上 α \alpha α分位点记为 t α ( n ) t_{\alpha}(n) tα(n)
- 可以发现, t 1 − α ( n ) = − t α ( n ) t_{1-\alpha}(n)=-t_{\alpha}(n) t1−α(n)=−tα(n)
F F F分布
-
构造 X ~ χ 2 ( n 1 ) , Y χ 2 ( n 2 ) X~\chi^2(n_1),Y~\chi^2(n_2) X~χ2(n1),Y χ2(n2),且 X 、 Y X、Y X、Y相互独立,则称随机变量
F = X / n 1 Y / n 2 F=\frac{X/n_1}{Y/n_2} F=Y/n2X/n1
服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2)的 F F F分布,记为 F ~ F ( n 1 , n 2 ) F~F(n_1,n_2) F~F(n1,n2),其中 n 1 n_1 n1称为第一自由度, n 2 n_2 n2称为第二自由度。 -
概率密度
p ( x ) = { T ( n 1 + n 2 2 ) T ( n 1 2 ) T ( n 2 2 ) ( n 1 n 2 ) n 1 2 x n 1 2 − 1 ( 1 + n 1 n 2 x ) − n 1 + n 2 2 , x > 0 0 , x ⩽ 0 p(x)= \begin{cases}\frac{\Tau(\frac{n_1+n_2}{2})}{\Tau(\frac{n_1}{2})\Tau(\frac{n_2}{2})}(\frac{n_1}{n_2})^{\frac{n_1}{2}}x^{\frac{n_1}{2}-1}(1+\frac{n_1}{n_2}x)^{-\frac{n_1+n_2}{2}},&x>0\\ 0,&x\leqslant 0 \end{cases} p(x)={T(2n1)T(2n2)T(2n1+n2)(n2n1)2n1x2n1−1(1+n2n1x)−2n1+n2,0,x>0x⩽0 -
分位点
-
F F F分布的上 α \alpha α分位点记为 F α ( n 1 , n 2 ) F_{\alpha}(n_1,n_2) Fα(n1,n2)
-
性质: F 1 − α ( n 1 , n 2 ) = 1 F α ( n 2 , n 1 ) F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)} F1−α(n1,n2)=Fα(n2,n1)1
证明:
若 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)则 1 F ∼ F ( n 2 , n 1 ) \frac1F\sim F(n_2,n_1) F1∼F(n2,n1)
那么 P ( F > F 1 − α ( n 1 , n 2 ) ) = 1 − α , P ( 1 F > F α ( n 2 , n 1 ) ) = α P(F>F_{1-\alpha}(n_1,n_2))=1-\alpha,P(\frac1F>{F_{\alpha}(n_2,n_1)})=\alpha P(F>F1−α(n1,n2))=1−α,P(F1>Fα(n2,n1))=α
有 P ( 1 F < 1 F 1 − α ( n 1 , n 2 ) ) = 1 − α P(\frac1F<\frac{1}{F_{1-\alpha}(n_1,n_2)})=1-\alpha P(F1<F1−α(n1,n2)1)=1−α
故 P ( 1 F > 1 F 1 − α ( n 1 , n 2 ) ) = α P(\frac1F>\frac{1}{F_{1-\alpha}(n_1,n_2)})=\alpha P(F1>F1−α(n1,n2)1)=α
-
抽样分布的样本均值和样本方差的分布
-
若 X 1 , . . . , X n X_1,...,X_n X1,...,Xn独立同分布且均服从 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则
-
U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) U=\frac{\overline X-\mu}{\sigma /\sqrt{n}}\sim N(0,1) U=σ/nX−μ∼N(0,1)
证明:
有 x ‾ = 1 n ∑ i = 1 n X i , E ( X ‾ ) = 1 n ∑ i = 1 n E ( X i ) = μ D ( X ‾ ) = 1 n 2 ∑ i = 1 n D ( X i ) = σ 2 n \overline x=\frac1n\sum_{i=1}^nX_i,\\ E(\overline X)=\frac1n\sum_{i=1}^nE(X_i)=\mu \\D(\overline X)=\frac{1}{n^2}\sum_{i=1}^nD(X_i)=\frac{\sigma^2}{n} x=n1∑i=1nXi,E(X)=n1∑i=1nE(Xi)=μD(X)=n21∑i=1nD(Xi)=nσ2
所以 X ‾ ∼ N ( μ , σ 2 n ) \overline X\sim N(\mu,\frac{\sigma^2}{n}) X∼N(μ,nσ2),即 X ‾ − μ σ / n ∼ N ( 0 , 1 ) \frac{\overline X-\mu}{\sigma /\sqrt{n}}\sim N(0,1) σ/nX−μ∼N(0,1)
-
X ‾ \overline X X与 S 2 S^2 S2相互独立 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ‾ 2 ) S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\overline{X}^2) S2=n−11∑i=1n(Xi−X)2=n−11(∑i=1nXi2−nX2)
-
χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) χ2=σ2(n−1)S2∼χ2(n−1)
-
T = X ‾ − μ S / n ∼ t ( n − 1 ) T=\frac{\overline X-\mu}{S/\sqrt{n}}\sim t(n-1) T=S/nX−μ∼t(n−1)
-
-
若 X 1 , . . . , X n 1 X_1,...,X_{n_1} X1,...,Xn1独立同分布且均服从 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12), Y 1 , . . . , Y n 2 Y_1,...,Y_{n_2} Y1,...,Yn2独立同分布且均服从 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N(μ2,σ22),且两样本独立,则
-
F = S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) F=S22/σ22S12/σ12∼F(n1−1,n2−1)
证明:由上面第三条, ( n 1 − 1 ) S 1 2 σ 1 2 ∼ χ 2 ( n 1 − 1 ) , ( n 2 − 1 ) S 2 2 σ 2 2 ∼ χ 2 ( n 2 − 1 ) \frac{(n_1-1)S_1^2}{\sigma_1^2}\sim\chi^2(n_1-1),\ \frac{(n_2-1)S_2^2}{\sigma_2^2}\sim\chi^2(n_2-1) σ12(n1−1)S12∼χ2(n1−1), σ22(n2−1)S22∼χ2(n2−1)
S 1 2 , S 2 2 S_1^2,S_2^2 S12,S22相互独立,则由 F F F分布的定义可知
( n 1 − 1 ) S 1 2 σ 1 2 / ( n 1 − 1 ) ( n 2 − 1 ) S 2 2 σ 2 2 / ( n 2 − 1 ) = S 1 2 / σ 1 2 S 2 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}/(n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma_2^2}/(n_2-1)}=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) σ22(n2−1)S22/(n2−1)σ12(n1−1)S12/(n1−1)=S22/σ22S12/σ12∼F(n1−1,n2−1)
-
-
进一步,假定 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22,就有
T = X ‾ − Y ‾ − ( μ 1 − μ 2 ) S w 1 / n 1 + 1 / n 2 ∼ t ( n 1 − 1 + n 2 − 1 ) , 其中 S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 称为混合样本方差 T=\frac{\overline X-\overline Y-(\mu_1-\mu_2)}{S_w\sqrt{1/n_1+1/n_2}}\sim t(n_1-1+n_2-1),其中\\ S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}称为混合样本方差 T=Sw1/n1+1/n2X−Y−(μ1−μ2)∼t(n1−1+n2−1),其中Sw2=n1+n2−2(n1−1)S12+(n2−1)S22称为混合样本方差