跳到主要内容

分布

参考资料

随机变量

随机变量(Random Variable)是把随机试验的 每一个可能结果 都对应到一个 实数 的函数,通常用大写字母 X,Y,ZX,Y,Z 表示,其取值用对应的小写字母 x,y,zx,y,z 表示。

按取值的形式可分为 22 类:

类型定义示例
离散型随机变量取值可以 一一列出(有限或可数无限)掷骰子点数 X{1,2,,6}X\in\{1,2,\dots,6\}
连续型随机变量取值充满 某个区间测量身高、温度的值(实数区间)
提示

高中阶段重点学 离散型 随机变量及其分布列;连续型 主要在 正态分布 一节出现。

分布列

定义

设离散型随机变量 XX 所有可能取值为 x1,x2,,xnx_1,x_2,\dots,x_n,对应的概率为 pi=P(X=xi)p_i=P(X=x_i)。下表称为 XX分布列(也称 概率分布):

XXx1x_1x2x_2\cdotsxnx_n
PPp1p_1p2p_2\cdotspnp_n

基本性质

分布列必须满足两条性质:

  1. 非负性pi0 (i=1,2,,n)p_i\ge 0\ (i=1,2,\dots,n)
  2. 归一性i=1npi=1\displaystyle\sum_{i=1}^{n}p_i=1
提示

「归一性」是检验分布列是否正确的最直接手段——所有概率之和必须等于 11

Example

掷一枚均匀骰子,记朝上点数为 XX,则其分布列为:

XX112233445566
PP16\frac{1}{6}16\frac{1}{6}16\frac{1}{6}16\frac{1}{6}16\frac{1}{6}16\frac{1}{6}

数字特征

期望

数学期望(Expectation)反映随机变量取值的 平均水平,记作 E(X)E(X)μ\mu

对离散型随机变量:

E(X)=i=1nxipiE(X)=\sum_{i=1}^{n}x_ip_i

期望的性质a,ba,b 为常数,X,YX,Y 为随机变量):

  • E(c)=cE(c)=c(常数的期望是其本身)
  • E(aX+b)=aE(X)+bE(aX+b)=aE(X)+b(线性性)
  • E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)(可加性,无条件成立)
  • X,YX,Y 相互独立 时,E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)

方差

方差(Variance)反映随机变量取值的 离散程度,记作 D(X)D(X)σ2\sigma^2

D(X)=i=1n(xiE(X))2pi=E(X2)[E(X)]2D(X)=\sum_{i=1}^{n}(x_i-E(X))^2 p_i=E(X^2)-[E(X)]^2

标准差 记作 σ(X)=D(X)\sigma(X)=\sqrt{D(X)},与原数据 同量纲

方差的性质

  • D(c)=0D(c)=0
  • D(aX+b)=a2D(X)D(aX+b)=a^2 D(X)(注意是 a2a^2 而不是 aa,且常数 bb 不影响方差)
  • X,YX,Y 相互独立 时,D(X±Y)=D(X)+D(Y)D(X\pm Y)=D(X)+D(Y)(注意是「加」不是「减」)
提示

「方差不变常数项,平方系数倍率」——D(aX+b)D(aX+b)bb 无关,只放大 a2a^2 倍。

期望与方差是新高考概率大题的 得分核心,公式必须熟记。

常见分布的期望与方差

分布记号E(X)E(X)D(X)D(X)
两点分布(伯努利)B(1,p)B(1,p)ppp(1p)p(1-p)
二项分布B(n,p)B(n,p)npnpnp(1p)np(1-p)
超几何分布H(N,K,n)H(N,K,n)nKN\dfrac{nK}{N}nK(NK)(Nn)N2(N1)\dfrac{nK(N-K)(N-n)}{N^2(N-1)}
正态分布N(μ,σ2)N(\mu,\sigma^2)μ\muσ2\sigma^2
Example

XB(10,0.6)X\sim B(10,0.6),则 E(X)=10×0.6=6E(X)=10\times 0.6=6D(X)=10×0.6×0.4=2.4D(X)=10\times 0.6\times 0.4=2.4

二项分布

我们把只包含 两个 可能结果的试验叫做 伯努利试验,独立地重复进行 nn 次所组成的随机试验称为 nn 重伯努利试验

nn 重伯努利试验中,设每次试验中事件 AA 发生的概率为 pp,发生的次数为 XX,则有:

P(X=k)=Cnkpk(1p)nkP(X=k)=C_n^kp^k(1-p)^{n-k}

如果随机变量 XX 的分布列具有上式的形式,则称随机变量 XX 服从 二项分布,记作:

XB(n,p)X\sim B(n,p)

二项式定理,容易得到:

k=0nP(X=k)=k=0nCnkpk(1p)nk=[p+(1p)]n=1\sum_{k=0}^n P(X=k)=\sum_{k=0}^n C_n^kp^k(1-p)^{n-k}=\left[p+(1-p)\right]^n=1

超几何分布

超几何分布:假设一批产品共 NN 件,其中有 MNM\leq N 件次品。从 NN 件产品中随机不放回抽取 nNn\leq N 件,用 XX 表示抽取的次品数,则有:

P(X=k)=CMkCNMnkCNnP(X=k)=\frac{C_M^kC^{n-k}_{N-M}}{C_N^n} E(X)=nMN,D(X)=nM(NM)(Nn)N2(N1)E(X)=\frac{nM}{N},D(X)=\frac{nM(N-M)(N-n)}{N^2(N-1)}

与二项分布相比,超几何分布更集中在均值附近。

正态分布

正态分布(高斯分布)是一种 连续 的概率分布,可以看作二项分布的极限情况。

正态分布的解析式:

f(x)=1σ2πe(xμ)22σ2f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

其中 μR,σ>0\mu\in\mathbb{R},\sigma>0 为参数。对 xR,f(x)>0\forall x\in\mathbb{R},f(x)>0,可以用积分证明 xx 轴与曲线之间的区域面积为 11。称 f(x)f(x) 为正态密度函数,图像为正态(密度)曲线。XX 服从正态分布,记为:

XN(μ,σ2)X\sim N(\mu,\sigma^2) E(X)=μ,D(X)=σ2E(X)=\mu,D(X)=\sigma^2

特别地,当 μ=0,σ=1\mu=0,\sigma=1 时称 XX 服从标准正态分布。

正态分布的特点:

  • 曲线是单峰的,关于 x=μx=\mu 对称;在 x=μx=\mu 达到峰值 1σ2π\frac{1}{\sigma\sqrt{2\pi}}
  • limxf(x)=0\lim_{|x|\to\infty}f(x)=0
  • σ\sigma 较小时,曲线瘦高,反之矮胖。

常用取值:

P(μσXμ+σ)0.6827P(\mu-\sigma\leq X\leq \mu+\sigma)\approx 0.6827 P(μ1.96σXμ+1.96σ)=0.95P(\mu-1.96\sigma\leq X\leq \mu+1.96\sigma)=0.95 P(μ2σXμ+2σ)0.9545P(\mu-2\sigma\leq X\leq \mu+2\sigma)\approx 0.9545 P(μ2.58σXμ+2.58σ)=0.99P(\mu-2.58\sigma\leq X\leq \mu+2.58\sigma)=0.99 P(μ3σXμ+3σ)0.9973P(\mu-3\sigma\leq X\leq \mu+3\sigma)\approx 0.9973

3σ3\sigma 原则:服从于正态分布 N(μ,σ2)N(\mu,\sigma^2) 的随机变量通常只取 [μ3σ,μ+3σ][\mu-3\sigma,\mu+3\sigma] 之间的值。