跳到主要内容

统计

统计学是在资料分析的基础上,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确信息的科学。

参考资料

统计量

假设有一组样本容量为 nn 的样本 x1,x2,,xnx_1,x_2,\dots,x_n

平均数

统计学中的 平均数 一般指 算术平均数,即样本的总和除以样本的数量,通常记作 xˉ\bar{x}

xˉ=1ni=1nxi\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i

中位数

样本的 中位数 就是排序后最中间的数,通常记作 Q12Q_{\frac{1}{2}}

如果样本容量 nn 为奇数,取最中间的一个数:

Q12=xn+12Q_{\frac{1}{2}}=x_{\frac{n+1}{2}}

如果样本容量 nn 为偶数,通常取最中间的两个数的平均值:

Q12=xn2+xn2+12Q_{\frac{1}{2}}=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}

众数

样本的 众数 指样本中出现次数最多的数据,可能不唯一,通常记作 MM

极差

极差 指样本中最大元素和最小元素的差值,通常记作 RR

R=max{xi}min{xi}R=\max{\set{x_i}}-\min{\set{x_i}}

方差

方差 是衡量样本数据离散程度的指标,通常记作 s2s^2

s2=1ni=1n(xixˉ)2=x2ˉxˉ2s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2=\bar{x^2}-\bar{x}^2

方差分为 总体方差样本方差,但在高中阶段通常只使用 总体方差

项目总体方差(σ2\sigma^2样本方差(s2s^2
目的描述整个总体的真实离散程度用样本 无偏估计 总体方差
公式σ2=1Ni=1N(xiμ)2\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
均值μ\mu:总体均值(固定且已知)xˉ\bar{x}:样本均值(由样本计算得到)
分母NN:所有数据点都是独立的n1n-1:引入 xˉ\bar{x} 后损失 11 个自由度
性质一个固定的参数一个随机变量

标准差

方差 的量纲(单位)是 原始数据 的平方,导致不方便比较。

为了使量纲(单位)一致,我们可以将 方差 开平方,得到 标准差,通常记作 ss

s=1ni=1n(xixˉ)2s=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}

抽样

简单随机抽样:从总体中随机地抽取样本,使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。在统计学的不同技术中需要使用随机数,例如在从统计总体中抽取有代表性的样本的时候,或者在将实验动物分配到不同的试验组的过程中,或者在进行蒙特卡罗模拟法计算的时候等等。

等距抽样(也称系统抽样):将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。

分层抽样:分层抽样是从统计总体抽取样本方法,将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。当总体内的子总体之间的差异较大,对每个子总体分别进行分层抽样调查,会令统计调查结果更为准确。子总体的分层必须为互斥,即每个总体的成员均只能属于一个分层。之后,可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。

整群抽样(又称群集抽样):将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差。

简单随机抽样

简单随机抽样 是最基本的抽样方法,要求每一个样本被抽中的概率 相等且独立。常见实现方式:

  • 抽签法:将总体中的每个个体编号并写在签上,搅匀后逐个抽取,不放回。
  • 随机数法:利用随机数表或计算器生成的随机数对应编号,重复者舍去。

适用条件:总体容量较小、个体之间差异不大。

等距抽样

假设从容量为 NN(很大)的总体中抽取容量为 nn 的样本,我们可以按下列步骤进行系统抽样:

  1. 先将总体的 NN 个个体编号。

  2. 确定分段间隔 kk,对编号进行分段。

    • Nn\frac{N}{n} 是整数时,取 k=Nnk=\frac{N}{n}
    • Nn\frac{N}{n} 不是整数时,假设余数为 rr0<r<n0<r<n),可随机地从 NN 个个体中剔除余数 rr 个个体,此时取 k=Nrnk=\frac{N-r}{n}
  3. 在第一段用简单随机抽样确定第 11 个个体的编号 \ellk\ell\le k)。

  4. 将编号为 ,+k,+2k,,+(n1)k\ell, \ell+k, \ell+2k, \dots, \ell+(n-1)k 的个体抽出。

我们知道 ,+k,+2k,,+(n1)k\ell, \ell + k, \ell + 2k, \dots, \ell + (n - 1)k 是以 \ell 为首项、以 kk 为公差的等差数列,设第 nn 段抽到的编号为 ana_n,则 an=+(n1)ka_n = \ell + (n - 1)k。故系统抽样也叫等距抽样。

分层抽样

当总体是由差异明显的几部分(层)构成时,如果我们用简单随机抽样或系统抽样,有可能抽取的数据全部来自同一部分(层)。为了避免这种情况发生,我们可以按各层所占的比例一层一层抽,即为分层抽样。

分层抽样的步骤:

  1. 分层:将总体分成互不交叉的层。
  2. 确定抽样比:总体 NN,样本容量 nn,则抽样比例为 nN\frac{n}{N}
  3. 分层抽样:在各层中按抽样比例 nN\frac{n}{N} 独立地进行简单随机抽样。
  4. 汇合样本:将各层抽取的样本合并为最终样本。

例如:第一层 XXnn 个元素,第二层 YYmm 个元素。

容易得出:

aˉ=nXˉ+mYˉn+m\bar a=\frac{n\bar X+m\bar Y}{n+m}

对于方差会麻烦一点:

D(a)=E(a2)(Ea)2=nE(X2)+mE(Y2)n+m(nE(X)+mE(Y)n+m)2=nD(X)+mD(Y)n+m+nm(EXEY)2(n+m)2\begin{aligned} D(a)&=E(a^2)-(Ea)^2\\ &=\frac{nE(X^2)+mE(Y^2)}{n+m}-\left(\frac{nE(X)+mE(Y)}{n+m}\right)^2\\ &=\frac{nD(X)+mD(Y)}{n+m}+\frac{nm(EX-EY)^2}{(n+m)^2} \end{aligned}

分析

相关性

两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 相关关系

  • 当一个变量的值 增加 时,另一个变量的相应值呈现 增加 的趋势,则称这两个变量 正相关
  • 当一个变量的值 增加 时,另一个变量的相应值呈现 减少 的趋势,则称这两个变量 负相关

相关系数

为了 定量 衡量两个变量 X,YX,Y 的线性相关程度,引入 样本相关系数 rr(也称 Pearson 相关系数):

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}

性质:

  • r[1,1]r\in[-1,1]
  • r>0r>0:正相关;r<0r<0:负相关;r=0r=0:不存在线性相关。
  • r|r| 越接近 11,线性相关性 越强;越接近 00,越
  • r=1|r|=1 当且仅当所有样本点 严格 落在同一直线上。

一元线性回归

X,YX,Y 之间存在线性相关关系,可用 最小二乘法 拟合一条 回归直线 y^=b^x+a^\hat{y}=\hat{b}x+\hat{a},使得各样本点到该直线的 纵向偏差平方和 i=1n(yiy^i)2\sum_{i=1}^n(y_i-\hat{y}_i)^2 最小。

求解得 回归系数

b^=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2=i=1nxiyinxˉyˉi=1nxi2nxˉ2\hat{b}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}=\frac{\sum_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}}{\sum_{i=1}^{n}x_i^2-n\bar{x}^2} a^=yˉb^xˉ\hat{a}=\bar{y}-\hat{b}\bar{x}
提示

回归直线 y^=b^x+a^\hat{y}=\hat{b}x+\hat{a} 必定经过样本中心点 (xˉ,yˉ)(\bar{x},\bar{y})。这是检验计算的一个快速方法。

回归方程的 预测意义

  • xx 在样本范围内时,y^\hat{y}yy 的合理估计值。
  • xx 超出样本范围时,称为 外推,预测可靠性下降。
  • y^\hat{y} 是估计值而非真实值,二者之差 ei=yiy^ie_i=y_i-\hat{y}_i 称为 残差

决定系数

衡量回归方程 拟合效果 的指标是 决定系数

R2=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2=1-\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}

其中分子为 残差平方和,分母为 总偏差平方和

  • R2[0,1]R^2\in[0,1],越接近 11 表示拟合越好。
  • 一元线性回归中 R2=r2R^2=r^2,因此通过 r|r| 即可了解拟合优度。

列联表

我们将如下的表格称为 列联表

X/YX/YY=0Y=0Y=1Y=1合计
X=0X=0aabba+ba+b
X=1X=1ccddc+dc+d
合计a+ca+cb+db+dn=a+b+c+dn=a+b+c+d

独立性检验

我们希望判断事件 {X=1}\set{X=1}{Y=1}\set{Y=1} 是否有关联,相当于判断下面的假定关系是否成立:

H0:P(Y=1X=0)=P(Y=1X=1)H_0:P(Y=1|X=0)=P(Y=1|X=1)

H0H_0 为零假设或原假设。这里 P(Y=1X=0)P(Y=1|X=0) 表示从 {X=0}\set{X=0} 中随机选一个样本点,该样本点属于 {X=0,Y=1}\set{X=0,Y=1} 的概率。由条件概率,H0H_0 等价于 {X=1}\set{X=1}{Y=1}\set{Y=1} 相互独立,进一步等价于 XXYY 独立。

χ2=n(adbc)2(a+b)(c+d)(a+c)(b+d)\chi^2=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}

对小概率值 α\alpha 的检验规则:

χ2xα\chi^2\geq x_{\alpha} 时,就推断 H0H_0 不成立,XXYY 不独立。该推断犯错误的概率不超过 α\alpha.

χ2<xα\chi^2<x_{\alpha} 时,就推断 H0H_0 成立,认为 XXYY 独立。

常用小概率值和临界值:

α\alpha0.10.10.050.050.010.010.0050.0050.0010.001
xαx_\alpha2.7062.7063.8413.8416.6356.6357.8797.87910.82810.828