统计

统计学是在资料分析的基础上，研究测定、收集、整理、归纳和分析反映数据资料，以便给出正确信息的科学。

参考资料

统计量

假设有一组样本容量为 $n$ 的样本 $x_1,x_2,\dots,x_n$ 。

平均数

统计学中的 平均数 一般指 算术平均数，即样本的总和除以样本的数量，通常记作 $\bar{x}$ 。

\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i

中位数

样本的 中位数 就是排序后最中间的数，通常记作 $Q_{\frac{1}{2}}$ 。

如果样本容量 $n$ 为奇数，取最中间的一个数：

Q_{\frac{1}{2}}=x_{\frac{n+1}{2}}

如果样本容量 $n$ 为偶数，通常取最中间的两个数的平均值：

Q_{\frac{1}{2}}=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}

众数

样本的众数指样本中出现次数最多的数据，可能不唯一，通常记作 $M$ 。

极差

极差指样本中最大元素和最小元素的差值，通常记作 $R$ 。

R=\max{\set{x_i}}-\min{\set{x_i}}

方差

方差是衡量样本数据离散程度的指标，通常记作 $s^2$ 。

s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2=\bar{x^2}-\bar{x}^2

方差分为 总体方差 和 样本方差，但在高中阶段通常只使用 总体方差。

项目	总体方差（ $\sigma^2$ ）	样本方差（ $s^2$ ）
目的	描述整个总体的真实离散程度	用样本无偏估计总体方差
公式	$\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2$	$s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
均值	$\mu$ ：总体均值（固定且已知）	$\bar{x}$ ：样本均值（由样本计算得到）
分母	$N$ ：所有数据点都是独立的	$n-1$ ：引入 $\bar{x}$ 后损失 $1$ 个自由度
性质	一个固定的参数	一个随机变量

标准差

但方差的量纲（单位）是 原始数据 的平方，导致不方便比较。

为了使量纲（单位）一致，我们可以将方差开平方，得到 标准差，通常记作 $s$ 。

s=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}

抽样

简单随机抽样：从总体中随机地抽取样本，使得每一个容量为样本都有相同的概率被抽中。每个样本单位被抽中的概率相等，样本的每个单位完全独立，彼此间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时，才采用这种方法。在统计学的不同技术中需要使用随机数，例如在从统计总体中抽取有代表性的样本的时候，或者在将实验动物分配到不同的试验组的过程中，或者在进行蒙特卡罗模拟法计算的时候等等。

等距抽样（也称系统抽样）：将总体中的所有单位按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位。

分层抽样：分层抽样是从统计总体抽取样本方法，将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近，从而提高估计的精度。当总体内的子总体之间的差异较大，对每个子总体分别进行分层抽样调查，会令统计调查结果更为准确。子总体的分层必须为互斥，即每个总体的成员均只能属于一个分层。之后，可对每个子总体进行简单随机抽样或系统抽样。这样可令调查的代表性改善。

整群抽样（又称群集抽样）：将总体中若干个单位合并为组，抽样时直接抽取群，然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框，可简化工作量，缺点是估计的精度较差。

简单随机抽样

简单随机抽样 是最基本的抽样方法，要求每一个样本被抽中的概率 相等且独立。常见实现方式：

抽签法：将总体中的每个个体编号并写在签上，搅匀后逐个抽取，不放回。
随机数法：利用随机数表或计算器生成的随机数对应编号，重复者舍去。

适用条件：总体容量较小、个体之间差异不大。

等距抽样

假设从容量为 $N$ （很大）的总体中抽取容量为 $n$ 的样本，我们可以按下列步骤进行系统抽样：

先将总体的 $N$ 个个体编号。
确定分段间隔 $k$ ，对编号进行分段。
- 当 $\frac{N}{n}$ 是整数时，取 $k=\frac{N}{n}$ 。
- 当 $\frac{N}{n}$ 不是整数时，假设余数为 $r$ （ $0<r<n$ ），可随机地从 $N$ 个个体中剔除余数 $r$ 个个体，此时取 $k=\frac{N-r}{n}$ 。
在第一段用简单随机抽样确定第 $1$ 个个体的编号 $\ell$ （ $\ell\le k$ ）。
将编号为 $\ell, \ell+k, \ell+2k, \dots, \ell+(n-1)k$ 的个体抽出。

我们知道 $\ell, \ell + k, \ell + 2k, \dots, \ell + (n - 1)k$ 是以 $\ell$ 为首项、以 $k$ 为公差的等差数列，设第 $n$ 段抽到的编号为 $a_n$ ，则 $a_n = \ell + (n - 1)k$ 。故系统抽样也叫等距抽样。

分层抽样

当总体是由差异明显的几部分（层）构成时，如果我们用简单随机抽样或系统抽样，有可能抽取的数据全部来自同一部分（层）。为了避免这种情况发生，我们可以按各层所占的比例一层一层抽，即为分层抽样。

分层抽样的步骤：

分层：将总体分成互不交叉的层。
确定抽样比：总体 $N$ ，样本容量 $n$ ，则抽样比例为 $\frac{n}{N}$ 。
分层抽样：在各层中按抽样比例 $\frac{n}{N}$ 独立地进行简单随机抽样。
汇合样本：将各层抽取的样本合并为最终样本。

例如：第一层 $X$ 有 $n$ 个元素，第二层 $Y$ 有 $m$ 个元素。

容易得出：

\bar a=\frac{n\bar X+m\bar Y}{n+m}

对于方差会麻烦一点：

\begin{aligned} D(a)&=E(a^2)-(Ea)^2\\ &=\frac{nE(X^2)+mE(Y^2)}{n+m}-\left(\frac{nE(X)+mE(Y)}{n+m}\right)^2\\ &=\frac{nD(X)+mD(Y)}{n+m}+\frac{nm(EX-EY)^2}{(n+m)^2} \end{aligned}

分析

一元线性回归

若 $X,Y$ 之间存在线性相关关系，可用 最小二乘法 拟合一条 回归直线 $\hat{y}=\hat{b}x+\hat{a}$ ，使得各样本点到该直线的 纵向偏差平方和 $\sum_{i=1}^n(y_i-\hat{y}_i)^2$ 最小。

求解得 回归系数：

\hat{b}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}=\frac{\sum_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}}{\sum_{i=1}^{n}x_i^2-n\bar{x}^2}

\hat{a}=\bar{y}-\hat{b}\bar{x}

提示

回归直线 $\hat{y}=\hat{b}x+\hat{a}$ 必定经过样本中心点 $(\bar{x},\bar{y})$ 。这是检验计算的一个快速方法。

回归方程的 预测意义：

当 $x$ 在样本范围内时， $\hat{y}$ 是 $y$ 的合理估计值。
当 $x$ 超出样本范围时，称为外推，预测可靠性下降。
$\hat{y}$ 是估计值而非真实值，二者之差 $e_i=y_i-\hat{y}_i$ 称为残差。

决定系数

衡量回归方程 拟合效果 的指标是 决定系数：

R^2=1-\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}

其中分子为 残差平方和，分母为 总偏差平方和。

$R^2\in[0,1]$ ，越接近 $1$ 表示拟合越好。
一元线性回归中 $R^2=r^2$ ，因此通过 $|r|$ 即可了解拟合优度。

列联表

我们将如下的表格称为 列联表。

$X/Y$	$Y=0$	$Y=1$	合计
$X=0$	$a$	$b$	$a+b$
$X=1$	$c$	$d$	$c+d$
合计	$a+c$	$b+d$	$n=a+b+c+d$

独立性检验

我们希望判断事件 $\set{X=1}$ 和 $\set{Y=1}$ 是否有关联，相当于判断下面的假定关系是否成立：

H_0:P(Y=1|X=0)=P(Y=1|X=1)

称 $H_0$ 为零假设或原假设。这里 $P(Y=1|X=0)$ 表示从 $\set{X=0}$ 中随机选一个样本点，该样本点属于 $\set{X=0,Y=1}$ 的概率。由条件概率， $H_0$ 等价于 $\set{X=1}$ 和 $\set{Y=1}$ 相互独立，进一步等价于 $X$ 和 $Y$ 独立。

\chi^2=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}

对小概率值 $\alpha$ 的检验规则：

当 $\chi^2\geq x_{\alpha}$ 时，就推断 $H_0$ 不成立， $X$ 和 $Y$ 不独立。该推断犯错误的概率不超过 $\alpha$ .

当 $\chi^2<x_{\alpha}$ 时，就推断 $H_0$ 成立，认为 $X$ 和 $Y$ 独立。

常用小概率值和临界值：

$\alpha$	$0.1$	$0.05$	$0.01$	$0.005$	$0.001$
$x_\alpha$	$2.706$	$3.841$	$6.635$	$7.879$	$10.828$

统计

参考资料

统计量

平均数

中位数

众数

极差

方差

标准差

抽样

简单随机抽样

等距抽样

分层抽样

分析

相关性

相关系数

一元线性回归

决定系数

列联表

独立性检验

参考资料​

统计量​

平均数​

中位数​

众数​

极差​

方差​

标准差​

抽样​

简单随机抽样​

等距抽样​

分层抽样​

分析​

相关性​

相关系数​

一元线性回归​

决定系数​

列联表​

独立性检验​

参考资料

统计量

平均数

中位数

众数

极差

方差

标准差

抽样

简单随机抽样

等距抽样

分层抽样

分析

相关性

相关系数

一元线性回归

决定系数

列联表

独立性检验