跳转至

随机变量的概率分布

阅读信息

1368 个字  5 分钟  本页总访问量:加载中...

随机变量

随机变量分为离散型和连续型。

\(X\) 为离散型随机变量,

\[P\{X=x_k\}=p_k\]

称为 \(X\)概率分布率或概率分布律或概率分布列。

离散型随机变量的概率分布

0-1 分布

X 只有 0 和 1 两种取值,且 1 的概率为 p,称 X 服从参数为 p 的 0-1 分布,也称两点分布,记为 \(X\sim 0-1(p)\)\(X\sim B(1,p)\)

二项分布

二项分布的概率分布律为:

\[P\{X=k\}=C_n^k p^k (1-p)^{n-k},\, k=1,2,\cdots ,n.\]

n 重伯努利试验中,每次 A 发生的概率为 p。设 X 为 n 次试验中 A 发生的次数,则称 X 服从给参数为 (n,p) 的二项分布,记为 \(X\sim B(n,p)\)

二项分布的条件:独立试验,即各次试验不相互影响。
从很大数量的样本中取样,可认为是独立试验。

概率相同、试验次数增大,最可能的出现次数增大、最大概率减小。

试验次数很大时,可将二项分布视为正态分布。

泊松分布

泊松分布的概率分布律为:

\[P\{X=k\}=\frac{e^{-\lambda}\lambda ^k}{k!},\, k=1,2,\cdots ,n.\]

称为 X 服从参数为 \(\lambda\) 的泊松分布,记为 \(X\sim P(\lambda)\)

当 n 足够大、p 充分小时,且 np 保持适当大小时,参数为 (n,p) 的二项分布可近似为泊松分布

二项分布近似为泊松分布

\(X\sim B(n,p)\),且 \(np=\lambda\),则

\[ \begin{align*} P(X = k) &= \binom{n}{k} p^k (1 - p)^{n - k} \\ &= \frac{n(n-1)\cdots(n - k + 1)}{k!}\cdot \left(\frac{\lambda}{n}\right)^k \left(1 - \frac{\lambda}{n}\right)^{n - k} \\ &= \frac{n(n-1)\cdots(n - k + 1)}{n^k} \cdot \frac{\lambda^k}{k!} \cdot \left(1 - \frac{\lambda}{n}\right)^n \cdot \left(1 - \frac{\lambda}{n}\right)^{-k} \end{align*} \]

\(n \to \infty\)\(p \to 0\) 时,

\[\frac{n(n-1)\cdots(n - k + 1)}{n^k}\approx 1,\,\left(1 - \frac{\lambda}{n}\right)^n\approx e^{-\lambda},\, \left(1 - \frac{\lambda}{n}\right)^{k}\approx 1\]

故有

\[P\{X=k\}=\frac{e^{-\lambda}\lambda ^k}{k!},\, k=1,2,\cdots ,n.\]

泊松分布的场景

  • 一大批样本中的发生次数
  • 一段时间内的发生次数

超几何分布

超几何分布的概率分布律为:

\[ P\{X = k\} = \frac{C_M^k \, C_{N-M}^{\,n-k}}{C_N^n}, \quad k = \max(0, n - (N - M)), \dotsc, \min(n, M). \]

设有 \(N\) 个物品,其中 \(M\) 个为“成功”类(如次品、红球等),\(N - M\) 个为“失败”类。
从中不放回地随机抽取 \(n\) 个物品,设 \(X\) 为抽到的“成功”类物品的个数,则称 \(X\) 服从参数为 \((N, M, n)\) 的超几何分布,记为 \(X \sim H(N, M, n)\)

示例 超几何分布

袋子中有 N 个球,a 个白球 b 个红球 (a+b=N),从中无放回取 n 个球,设每次取到各种球的概率相等。若其中有 X 个白球,求 X 的分布列。

超几何分布的条件:有限总体、不放回抽样。
与二项分布不同,超几何分布的各次抽取不独立,因为每次抽取会改变总体组成。

当总体容量 \(N\) 很大,而抽样数量 \(n\) 相对较小时(通常 \(n/N \leq 0.05\)),不放回抽样对概率影响微弱,此时超几何分布可用二项分布近似,即

\[ X \sim H(N, M, n) \approx B\!\left(n, \, p = \frac{M}{N}\right). \]

超几何分布的期望与方差分别为:

\[ \mathbb{E}[X] = n \frac{M}{N}, \qquad \mathrm{Var}(X) = n \frac{M}{N} \left(1 - \frac{M}{N}\right) \frac{N - n}{N - 1}. \]

其中 \(\frac{N - n}{N - 1}\) 称为有限总体校正因子,体现了不放回抽样对方差的减小作用。

几何分布

几何分布的概率分布律为:

\[ P\{X = k\} = (1 - p)^{k - 1} p, \quad k = 1, 2, 3, \dotsc \]

进行一系列独立重复的伯努利试验,每次试验中事件 \(A\)(“成功”)发生的概率为 \(p\)\(0 < p \leq 1\))。
设随机变量 \(X\) 表示首次出现成功所需的试验次数,则称 \(X\) 服从参数为 \(p\) 的几何分布,记为 \(X \sim G(p)\)

示例 几何分布

独立重复试验中每次试验有两个结果:\(A, \overline{A}\),且每次试验中 A 出现的概率不变,记为 p。设直至 A 首次发生时所需的试验次数为 X,求 X 的分布列。

几何分布的条件

  • 各次试验相互独立;
  • 每次试验只有“成功”或“失败”两种结果;
  • 成功概率 \(p\) 恒定不变;
  • 关注的是第一次成功发生在第几次试验。

几何分布具有无记忆性(memoryless property):

\[ P(X > m + n \mid X > m) = P(X > n), \quad \forall\, m, n \in \mathbb{N}. \]

这意味着,无论已经失败了多少次,未来仍需等待的试验次数的分布与初始情况相同。

几何分布的期望与方差分别为:

\[ \mathbb{E}[X] = \frac{1}{p}, \qquad \mathrm{Var}(X) = \frac{1 - p}{p^2}. \]

帕斯卡分布(负二项分布)

帕斯卡分布又称为负二项分布(Negative Binomial Distribution),是几何分布的推广形式。

帕斯卡分布的概率分布律为:

\[ P\{X = k\} = \binom{k - 1}{r - 1} p^r (1 - p)^{k - r}, \quad k = r, r + 1, r + 2, \dotsc \]

其中:

  • \(p\) 为每次试验成功的概率(\(0 < p \le 1\));
  • \(r\) 为希望成功的总次数(正整数);
  • \(X\) 表示获得第 \(r\) 次成功所需的试验次数。

进行一系列相互独立且成功概率为 \(p\) 的伯努利试验,设随机变量 \(X\) 表示第 \(r\) 次成功发生时的试验次数,则 \(X\) 服从参数为 \((r, p)\) 的帕斯卡分布,记作\(X \sim \mathrm{Pascal}(r, p)\)\(X \sim \mathrm{NB}(r, p)\)

示例 帕斯卡分布

独立重复试验中每次试验有两个结果:\(A, \overline{A}\),且每次试验中 A 出现的概率不变,记为 p。设直至 A 发生 r 次时所需的试验次数为 X,求 X 的分布列。

帕斯卡分布的期望与方差分别为:

\[ \mathbb{E}[X] = \frac{r}{p}, \qquad \mathrm{Var}(X) = \frac{r(1 - p)}{p^2}. \]

可以理解为:获得 \(r\) 次成功所需的平均试验次数是 \(r\) 倍的几何分布期望(因为每次成功平均需 \(1/p\) 次试验)。

帕斯卡分布与几何分布

\(r = 1\) 时,帕斯卡分布退化为几何分布:

\[ \mathrm{NB}(1, p) = G(p) \]

因此,帕斯卡分布可以看作是“几何分布的多次成功推广”。

帕斯卡分布与二项分布

分布 固定什么? 随机什么?
二项分布 \(B(n, p)\) 试验总次数 \(n\) 成功次数 \(X\)
负二项分布 \(\text{NB}(r, p)\) 成功次数 \(r\) 试验总次数 \(X\)

二者互为“对偶”:一个固定试验次数看成功数,一个固定成功次数看试验数。

随机变量的概率分布函数

\(X\) 为随机变量,\(x\) 为任意实数,函数

\[F(x)=P\{X\le x\}\]

称为随机变量 \(X\)概率分布函数, 简称分布函数 (distribution function)。

有分布函数求事件发生的概率

对任意实数 \(x_1, x_2\),有

\[P\{x_1\le X\le x_2\}=F(x_2)-F(x_1)\]

这说明 \(X\) 落在区间 \((x_1, x_2]\) 的概率为两端点处分布函数值之差。也就是说, 如果 \(X\) 的分布函数 \(F(x)\) 已知, 就可以求出事件 \(\{X \in (x_1, x_2]\}\) 的概率。

可以证明

\[P\{X=x_0\}=F(x_0+0)-F(x_0-0)\]

\(P\{X=x_0\}\) 点的概率为概率分布函数的右极限减左极限。如果 \(X\) 的分布函数 \(F(x)\) 已知, 就可以求出每一点的概率。

\(X\)离散型随机变量时, 设 \(X\) 的概率分布律为 \(P\{X = x_i\} = p_i, i = 1, 2, \cdots\), 则 \(X\) 的分布函数为

\[ F(x) = P\{X \leq x\} = \sum_{x_i \leq x} P\{X = x_i\}, \]

\(F(x)\) 为满足 \(x_i \leq x\) 的一切 \(x_i\) 的相应的概率之和.

分布函数的性质:

  • \(F(x)\) 单调不减
  • \(0 \leq F(x) \leq 1\), 且有 \(\lim_{a \to -\infty} F(a) = 0\), \(\lim_{b \to +\infty} F(b) = 1\), 简记为 \(F(-\infty) = 0\), \(F(+\infty) = 1\)
  • \(F(x+0) = F(x)\), 即 \(F(x)\) 是右连续函数

连续性随机变量

对于随机变量 \(X\), 其分布函数为 \(F(x)\), 若存在一个非负的实值函数 \(f(x)\), \(-\infty < x < +\infty\), 使得对任意实数 \(x\), 有

\[ F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t, \]

则称 \(X\)连续型随机变量, 称 \(f(x)\)\(X\)概率密度函数 (probability density function), 简称密度函数.

密度函数的性质:

  • \(f(x) \geq 0\).
  • \(\int_{-\infty}^{+\infty} f(x) \mathrm{d}x = 1\).
  • 对任意实数 \(x_1, x_2\) (\(x_1 < x_2\)),\(P\{x_1 < X \leq x_2\} = F(x_2) - F(x_1) = \int_{x_1}^{x_2} f(t) \mathrm{d}t\)