分布

参考资料

概率分布 - 维基百科

随机变量

随机变量（Random Variable）是把随机试验的 每一个可能结果 都对应到一个实数的函数，通常用大写字母 $X,Y,Z$ 表示，其取值用对应的小写字母 $x,y,z$ 表示。

按取值的形式可分为 $2$ 类：

类型	定义	示例
离散型随机变量	取值可以一一列出（有限或可数无限）	掷骰子点数 $X\in\{1,2,\dots,6\}$
连续型随机变量	取值充满某个区间	测量身高、温度的值（实数区间）

提示

高中阶段重点学 离散型 随机变量及其分布列；连续型 主要在 正态分布 一节出现。

分布列

定义

设离散型随机变量 $X$ 所有可能取值为 $x_1,x_2,\dots,x_n$ ，对应的概率为 $p_i=P(X=x_i)$ 。下表称为 $X$ 的 分布列（也称 概率分布）：

$X$	$x_1$	$x_2$	$\cdots$	$x_n$
$P$	$p_1$	$p_2$	$\cdots$	$p_n$

基本性质

分布列必须满足两条性质：

非负性： $p_i\ge 0\ (i=1,2,\dots,n)$ 。
归一性： $\displaystyle\sum_{i=1}^{n}p_i=1$ 。

提示

「归一性」是检验分布列是否正确的最直接手段——所有概率之和必须等于 $1$ 。

Example

掷一枚均匀骰子，记朝上点数为 $X$ ，则其分布列为：

$X$	$1$	$2$	$3$	$4$	$5$	$6$
$P$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$

数字特征

期望

数学期望（Expectation）反映随机变量取值的 平均水平，记作 $E(X)$ 或 $\mu$ 。

对离散型随机变量：

E(X)=\sum_{i=1}^{n}x_ip_i

期望的性质（ $a,b$ 为常数， $X,Y$ 为随机变量）：

$E(c)=c$ （常数的期望是其本身）
$E(aX+b)=aE(X)+b$ （线性性）
$E(X+Y)=E(X)+E(Y)$ （可加性，无条件成立）
当 $X,Y$ 相互独立 时， $E(XY)=E(X)E(Y)$

方差

方差（Variance）反映随机变量取值的 离散程度，记作 $D(X)$ 或 $\sigma^2$ 。

D(X)=\sum_{i=1}^{n}(x_i-E(X))^2 p_i=E(X^2)-[E(X)]^2

标准差 记作 $\sigma(X)=\sqrt{D(X)}$ ，与原数据 同量纲。

方差的性质：

$D(c)=0$
$D(aX+b)=a^2 D(X)$ （注意是 $a^2$ 而不是 $a$ ，且常数 $b$ 不影响方差）
当 $X,Y$ 相互独立 时， $D(X\pm Y)=D(X)+D(Y)$ （注意是「加」不是「减」）

提示

「方差不变常数项，平方系数倍率」—— $D(aX+b)$ 与 $b$ 无关，只放大 $a^2$ 倍。

期望与方差是新高考概率大题的 得分核心，公式必须熟记。

常见分布的期望与方差

分布	记号	$E(X)$	$D(X)$
两点分布（伯努利）	$B(1,p)$	$p$	$p(1-p)$
二项分布	$B(n,p)$	$np$	$np(1-p)$
超几何分布	$H(N,K,n)$	$\dfrac{nK}{N}$	$\dfrac{nK(N-K)(N-n)}{N^2(N-1)}$
正态分布	$N(\mu,\sigma^2)$	$\mu$	$\sigma^2$

Example

设 $X\sim B(10,0.6)$ ，则 $E(X)=10\times 0.6=6$ ， $D(X)=10\times 0.6\times 0.4=2.4$ 。

二项分布

我们把只包含两个可能结果的试验叫做 伯努利试验，独立地重复进行 $n$ 次所组成的随机试验称为 $n$ 重伯努利试验。

在 $n$ 重伯努利试验中，设每次试验中事件 $A$ 发生的概率为 $p$ ，发生的次数为 $X$ ，则有：

P(X=k)=C_n^kp^k(1-p)^{n-k}

如果随机变量 $X$ 的分布列具有上式的形式，则称随机变量 $X$ 服从 二项分布，记作：

X\sim B(n,p)

由二项式定理，容易得到：

\sum_{k=0}^n P(X=k)=\sum_{k=0}^n C_n^kp^k(1-p)^{n-k}=\left[p+(1-p)\right]^n=1

超几何分布

超几何分布：假设一批产品共 $N$ 件，其中有 $M\leq N$ 件次品。从 $N$ 件产品中随机不放回抽取 $n\leq N$ 件，用 $X$ 表示抽取的次品数，则有：

P(X=k)=\frac{C_M^kC^{n-k}_{N-M}}{C_N^n}

E(X)=\frac{nM}{N},D(X)=\frac{nM(N-M)(N-n)}{N^2(N-1)}

与二项分布相比，超几何分布更集中在均值附近。

正态分布

正态分布（高斯分布）是一种连续的概率分布，可以看作二项分布的极限情况。

正态分布的解析式：

f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

其中 $\mu\in\mathbb{R},\sigma>0$ 为参数。对 $\forall x\in\mathbb{R},f(x)>0$ ，可以用积分证明 $x$ 轴与曲线之间的区域面积为 $1$ 。称 $f(x)$ 为正态密度函数，图像为正态（密度）曲线。 $X$ 服从正态分布，记为：

X\sim N(\mu,\sigma^2)

E(X)=\mu,D(X)=\sigma^2

特别地，当 $\mu=0,\sigma=1$ 时称 $X$ 服从标准正态分布。

正态分布的特点：

曲线是单峰的，关于 $x=\mu$ 对称；在 $x=\mu$ 达到峰值 $\frac{1}{\sigma\sqrt{2\pi}}$ 。
$\lim_{|x|\to\infty}f(x)=0$ 。
当 $\sigma$ 较小时，曲线瘦高，反之矮胖。

常用取值：

P(\mu-\sigma\leq X\leq \mu+\sigma)\approx 0.6827

P(\mu-1.96\sigma\leq X\leq \mu+1.96\sigma)=0.95

P(\mu-2\sigma\leq X\leq \mu+2\sigma)\approx 0.9545

P(\mu-2.58\sigma\leq X\leq \mu+2.58\sigma)=0.99

P(\mu-3\sigma\leq X\leq \mu+3\sigma)\approx 0.9973

$3\sigma$ 原则：服从于正态分布 $N(\mu,\sigma^2)$ 的随机变量通常只取 $[\mu-3\sigma,\mu+3\sigma]$ 之间的值。

参考资料​

随机变量​

分布列​

定义​

基本性质​

数字特征​

期望​

方差​

常见分布的期望与方差​

二项分布​

超几何分布​

正态分布​