Chap 2 一维随机变量

阅读信息

1359 字 6 分钟本页总访问量加载中...

随机变量

随机变量分为离散型和连续型。

设 \(X\) 为离散型随机变量，

\[P\{X=x_k\}=p_k\]

称为 \(X\) 的概率分布率或概率分布律或概率分布列。

几种离散型的概率分布

0-1 分布

X 只有 0 和 1 两种取值，且 1 的概率为 p，称 X 服从参数为 p 的 0-1 分布，也称两点分布，记为 \(X\sim 0-1(p)\) 或 \(X\sim B(1,p)\)。

二项分布

二项分布的概率分布律为：

\[P\{X=k\}=C_n^k p^k (1-p)^{n-k},\, k=1,2,\cdots ,n.\]

n 重伯努利试验中，每次 A 发生的概率为 p。设 X 为 n 次试验中 A 发生的次数，则称 X 服从给参数为 (n,p) 的二项分布，记为 \(X\sim B(n,p)\)。

二项分布的条件：独立试验，即各次试验不相互影响。
从很大数量的样本中取样，可认为是独立试验。

概率相同、试验次数增大，最可能的出现次数增大、最大概率减小。

试验次数很大时，可将二项分布视为正态分布。

泊松分布

泊松分布的概率分布律为：

\[P\{X=k\}=\frac{e^{-\lambda}\lambda ^k}{k!},\, k=1,2,\cdots ,n.\]

称为 X 服从参数为 \(\lambda\) 的泊松分布，记为 \(X\sim P(\lambda)\)。

当 n 足够大、p 充分小时，且 np 保持适当大小时，参数为 (n,p) 的二项分布可近似为泊松分布。

二项分布近似为泊松分布

设 \(X\sim B(n,p)\)，且 \(np=\lambda\)，则

\[ \begin{align*} P(X = k) &= \binom{n}{k} p^k (1 - p)^{n - k} \\ &= \frac{n(n-1)\cdots(n - k + 1)}{k!}\cdot \left(\frac{\lambda}{n}\right)^k \left(1 - \frac{\lambda}{n}\right)^{n - k} \\ &= \frac{n(n-1)\cdots(n - k + 1)}{n^k} \cdot \frac{\lambda^k}{k!} \cdot \left(1 - \frac{\lambda}{n}\right)^n \cdot \left(1 - \frac{\lambda}{n}\right)^{-k} \end{align*} \]

当 \(n \to \infty\) 且 \(p \to 0\) 时，

\[\frac{n(n-1)\cdots(n - k + 1)}{n^k}\approx 1,\,\left(1 - \frac{\lambda}{n}\right)^n\approx e^{-\lambda},\, \left(1 - \frac{\lambda}{n}\right)^{k}\approx 1\]

故有

\[P\{X=k\}=\frac{e^{-\lambda}\lambda ^k}{k!},\, k=1,2,\cdots ,n.\]

泊松分布的场景：

一大批样本中的发生次数
一段时间内的发生次数

超几何分布

超几何分布的概率分布律为：

\[ P\{X = k\} = \frac{C_M^k \, C_{N-M}^{\,n-k}}{C_N^n}, \quad k = \max(0, n - (N - M)), \dotsc, \min(n, M). \]

设有 \(N\) 个物品，其中 \(M\) 个为“成功”类（如次品、红球等），\(N - M\) 个为“失败”类。
从中不放回地随机抽取 \(n\) 个物品，设 \(X\) 为抽到的“成功”类物品的个数，则称 \(X\) 服从参数为 \((N, M, n)\) 的超几何分布，记为 \(X \sim H(N, M, n)\)。

示例超几何分布

袋子中有 N 个球，a 个白球 b 个红球 (a+b=N)，从中无放回取 n 个球，设每次取到各种球的概率相等。若其中有 X 个白球，求 X 的分布列。

超几何分布的条件：有限总体、不放回抽样。
与二项分布不同，超几何分布的各次抽取不独立，因为每次抽取会改变总体组成。

当总体容量 \(N\) 很大，而抽样数量 \(n\) 相对较小时（通常 \(n/N \leq 0.05\)），不放回抽样对概率影响微弱，此时超几何分布可用二项分布近似，即

\[ X \sim H(N, M, n) \approx B\!\left(n, \, p = \frac{M}{N}\right). \]

超几何分布的期望与方差分别为：

\[ \mathbb{E}[X] = n \frac{M}{N}, \qquad \mathrm{Var}(X) = n \frac{M}{N} \left(1 - \frac{M}{N}\right) \frac{N - n}{N - 1}. \]

其中 \(\frac{N - n}{N - 1}\) 称为有限总体校正因子，体现了不放回抽样对方差的减小作用。

几何分布

几何分布的概率分布律为：

\[ P\{X = k\} = (1 - p)^{k - 1} p, \quad k = 1, 2, 3, \dotsc \]

进行一系列独立重复的伯努利试验，每次试验中事件 \(A\)（“成功”）发生的概率为 \(p\)（\(0 < p \leq 1\)）。
设随机变量 \(X\) 表示首次出现成功所需的试验次数，则称 \(X\) 服从参数为 \(p\) 的几何分布，记为 \(X \sim G(p)\)。

示例几何分布

独立重复试验中每次试验有两个结果：\(A, \overline{A}\)，且每次试验中 A 出现的概率不变，记为 p。设直至 A 首次发生时所需的试验次数为 X，求 X 的分布列。

几何分布的条件：

各次试验相互独立；
每次试验只有“成功”或“失败”两种结果；
成功概率 \(p\) 恒定不变；
关注的是第一次成功发生在第几次试验。

几何分布具有无记忆性（memoryless property）：

\[ P(X > m + n \mid X > m) = P(X > n), \quad \forall\, m, n \in \mathbb{N}. \]

这意味着，无论已经失败了多少次，未来仍需等待的试验次数的分布与初始情况相同。

几何分布的期望与方差分别为：

\[ \mathbb{E}[X] = \frac{1}{p}, \qquad \mathrm{Var}(X) = \frac{1 - p}{p^2}. \]

帕斯卡分布（负二项分布）

帕斯卡分布又称为负二项分布（Negative Binomial Distribution），是几何分布的推广形式。

帕斯卡分布的概率分布律为：

\[ P\{X = k\} = \binom{k - 1}{r - 1} p^r (1 - p)^{k - r}, \quad k = r, r + 1, r + 2, \dotsc \]

其中：

\(p\) 为每次试验成功的概率（\(0 < p \le 1\)）；
\(r\) 为希望成功的总次数（正整数）；
\(X\) 表示获得第 \(r\) 次成功所需的试验次数。

进行一系列相互独立且成功概率为 \(p\) 的伯努利试验，设随机变量 \(X\) 表示第 \(r\) 次成功发生时的试验次数，则 \(X\) 服从参数为 \((r, p)\) 的帕斯卡分布，记作\(X \sim \mathrm{Pascal}(r, p)\) 或 \(X \sim \mathrm{NB}(r, p)\)。

示例帕斯卡分布

独立重复试验中每次试验有两个结果：\(A, \overline{A}\)，且每次试验中 A 出现的概率不变，记为 p。设直至 A 发生 r 次时所需的试验次数为 X，求 X 的分布列。

帕斯卡分布的期望与方差分别为：

\[ \mathbb{E}[X] = \frac{r}{p}, \qquad \mathrm{Var}(X) = \frac{r(1 - p)}{p^2}. \]

可以理解为：获得 \(r\) 次成功所需的平均试验次数是 \(r\) 倍的几何分布期望（因为每次成功平均需 \(1/p\) 次试验）。

帕斯卡分布与几何分布

当 \(r = 1\) 时，帕斯卡分布退化为几何分布：

\[ \mathrm{NB}(1, p) = G(p) \]

因此，帕斯卡分布可以看作是“几何分布的多次成功推广”。

帕斯卡分布与二项分布

分布	固定什么？	随机什么？
二项分布 \(B(n, p)\)	试验总次数 \(n\)	成功次数 \(X\)
负二项分布 \(\text{NB}(r, p)\)	成功次数 \(r\)	试验总次数 \(X\)

二者互为“对偶”：一个固定试验次数看成功数，一个固定成功次数看试验数。

随机变量的概率分布函数

\(X\) 为随机变量，\(x\) 为任意实数，函数

\[F(x)=P\{X\le x\}\]

称为随机变量 \(X\) 的概率分布函数, 简称分布函数 (distribution function)。

有分布函数求事件发生的概率：

对任意实数 \(x_1, x_2\)，有

\[P\{x_1\le X\le x_2\}=F(x_2)-F(x_1)\]

这说明 \(X\) 落在区间 \((x_1, x_2]\) 的概率为两端点处分布函数值之差。也就是说, 如果 \(X\) 的分布函数 \(F(x)\) 已知, 就可以求出事件 \(\{X \in (x_1, x_2]\}\) 的概率。

可以证明

\[P\{X=x_0\}=F(x_0+0)-F(x_0-0)\]

即 \(P\{X=x_0\}\) 点的概率为概率分布函数的右极限减左极限。如果 \(X\) 的分布函数 \(F(x)\) 已知, 就可以求出每一点的概率。

当 \(X\) 为离散型随机变量时, 设 \(X\) 的概率分布律为 \(P\{X = x_i\} = p_i, i = 1, 2, \cdots\), 则 \(X\) 的分布函数为

\[ F(x) = P\{X \leq x\} = \sum_{x_i \leq x} P\{X = x_i\}, \]

即 \(F(x)\) 为满足 \(x_i \leq x\) 的一切 \(x_i\) 的相应的概率之和.

分布函数的性质:

\(F(x)\) 单调不减
\(0 \leq F(x) \leq 1\), 且有 \(\lim_{a \to -\infty} F(a) = 0\), \(\lim_{b \to +\infty} F(b) = 1\), 简记为 \(F(-\infty) = 0\), \(F(+\infty) = 1\)
\(F(x+0) = F(x)\), 即 \(F(x)\) 是右连续函数

连续性随机变量

对于随机变量 \(X\), 其分布函数为 \(F(x)\), 若存在一个非负的实值函数 \(f(x)\), \(-\infty < x < +\infty\), 使得对任意实数 \(x\), 有

\[ F(x) = \int_{-\infty}^{x} f(t) \mathrm{d}t, \]

则称 \(X\) 为连续型随机变量, 称 \(f(x)\) 为 \(X\) 的概率密度函数 (probability density function), 简称密度函数.

密度函数的性质:

\(f(x) \geq 0\).
\(\int_{-\infty}^{+\infty} f(x) \mathrm{d}x = 1\).
对任意实数 \(x_1, x_2\) (\(x_1 < x_2\)),\(P\{x_1 < X \leq x_2\} = F(x_2) - F(x_1) = \int_{x_1}^{x_2} f(t) \mathrm{d}t\)

几点注意：

对连续随机变量，有限个点的概率为零，故大于等价于大于等于、小于等价于小于等于。
考虑随机变量的分布，如果是离散型，则求分布列；如果是连续型，则求分布函数。
连续性变量的约束条件：
\(F(+\infty)=1\)
\(\int_{-\infty}^{+\infty}f(x)\mathrm{d}x=1\)

均匀分布

均匀分布的概率密度函数：

\[ f(x)=\begin{cases} \frac{1}{b-a},& x\in (a,b) \\ 0,& \text{Other} \end{cases} \]

若 X 在 \((a,b)\) 或 \([a,b]\) 上均匀分布，记为 \(X\sim U(a,b)\) 或 \(X\sim U[a,b]\)。

落在均匀分布区间内的子区间，概率与起始位置无关，只与长度有关。即：

\[a<s<s+L<b \Rightarrow P(s<X<x+L)=\frac{L}{b-a}\]

指数分布

指数分布的概率密度函数：

\[ f(x)=\begin{cases} \lambda e^{-\lambda x},& x>0\\ 0,&x\le 0 \end{cases} \]

记为 \(X\sim E(\lambda)\)。

指数分布的分布函数：

\[ F(x)=\begin{cases} 1- e^{-\lambda x},& x>0\\ 0,&x\le 0 \end{cases} \]

指数分布的无记忆性：一个事件在未来某个时间段内发生的概率，与它已经等待了多久无关。即已经发生的不影响未来发生的。即：

\[ P(X > s + t \mid X > s) = P(X > t) \]

证明：利用条件概率公式，

\[ P(X > s + t \mid X > s) = \frac{P(X > s + t)}{P(X > s)} \]

由于 \( P(X > x) = e^{-\lambda x} \)（由分布函数可得），代入得：

\[ \frac{e^{-\lambda (s + t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X > t) \]

指数分布的应用：寿命，等待时间……

为什么只有指数分布有这个性质？

可以证明：在所有连续型非负随机变量中，只有指数分布满足无记忆性。

简要思路：设 \( X \geq 0 \) 连续，且满足 \( P(X > s+t \mid X > s) = P(X > t) \) 对所有 \( s,t \geq 0 \) 成立。令 \( g(t) = P(X > t) \)，则有函数方程：

\[ g(s + t) = g(s) g(t) \]

在连续性条件下，唯一解为 \( g(t) = e^{-\lambda t} \)，即指数分布的生存函数。

指数分布与几何分布的关系

几何分布是离散型中唯一具有无记忆性的分布（描述首次成功所需的试验次数）。
指数分布可看作几何分布在时间连续化后的极限形式。

正态分布

正态分布的概率密度函数：

\[f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

记为 \(X\sim N(\mu, \sigma^2)\)。其中 \(\mu\) 为位置参数，表示峰值位置；\(\sigma\) 为尺度参数，表示离散程度。\(\sigma\) 越大，离散程度越大，密度函数图像越低矮。

正态分布的性质：

关于 \(x=\mu\) 对称
最大值为 \(\frac{1}{\sqrt{2\pi}\sigma}\)，在 \(x=\mu\) 处取到
\(\mu\pm\sigma\) 是密度函数的拐点

标准正态分布

当 \(\mu=0,\, \sigma=1\) 时，称 \(X\) 服从标准正态分布 \(X\sim N(0,1)\)。

记标准正态分布的概率密度函数为 \(\phi(x)\) ：

\[\phi(x)=\frac{1}{\sqrt{2\pi}}\cdot e^{-x^2/2}\]

记分布函数为 \(\Phi(x)\) ：

\[\Phi(x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-t^2/2}\mathrm{d}t\]

标准正态分布的性质：

\(\phi(x)=\phi(-x)\)
\(\Phi(x)+\Phi(-x)=1\)

标准正态分布的概率可用查表得到。标准正态分布表中，x 从 0 开始，概率从 0.5 开始。

查表分为正向查表和反向查表。正向查表中，左侧栏表示小数点后两位，上方第一行表示小数点后第三位；反向查表中，如果概率介于两者之间则取中值，如果要查的概率小于 0.5，先转化为 0.5~1 范围。

CASIO 计算器中查询标准正态分布概率分布的方法（fx-991CN X 为例）：设置 → 6（统计）→ AC → OPTN → 向下翻页 → 4（正态分布） → 1（P 表示概率分布）→ 输入数值 → =.

一般正态分布

计算一般正态分布的概率：

\[F(x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm{d}t\]

令 \(\frac{t-\mu}{\sigma}=z\)，则上式转化为：

\[F(x)=\int_{-\infty}^{\frac{x-\mu}{\sigma}}\frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}\cdot\mathrm{d}z\]

即：

\[F(x)=\Phi(\frac{x-\mu}{\sigma})\]

示例，求 \(P(|x-\mu|<k\sigma)\)：

\[ \begin{align*} P(|x-\mu|<k\sigma)&=P(\mu-k\sigma<X<\mu+k\sigma) \\ &\triangleq P(a<X<b) \\ &=\Phi(\frac{a-\mu}{\sigma})-\Phi(\frac{b-\mu}{\sigma}) \\ &=2\Phi(k)-1 \end{align*} \]

不同随机变量的关系

已知 \(X\) 的分布，\(Y=g(X)\)，求 \(Y\) 的分布：先看 \(Y\) 概率非零的范围，在范围内将 \(Y\) 转化为 \(X\) 计算。目标为用 \(X\) 的函数表示 \(Y\)。

求概率密度函数：分布函数求导

正态分布的随机变量，线性变换后正态性不变。

示例 Y=F(X)

先根据 f(x)求 F(x)，再将 Y 的分布函数用定义转化为 X 的分布函数，代入 Y=F(X)得到 F(Y)和 Y 的关系。

假设 X 服从指数分布 \(X\sim E(\lambda)\)，\(Y=F(X)\)，证明 \(Y\sim U(0,1)\)。

求 X 的分布函数

\[ F_X(X)=\begin{cases} 1-e^{-\lambda x},&x>0 \\ 0,&x\le 0 \end{cases} \]

判断 Y 非零的区域，求 Y 的分布函数

\(y\le 0\) 时，\(F_Y(y)=0\)

\(y\ge 0\) 时，\(F_Y(y)=1\)

\(0<y<1\) 时：

\[ \begin{align*} F_Y(y)&=P\{Y\le y\}=P\{1-e^{-\lambda x}\le y\} \\ &=P\{x\le -\frac{1}{\lambda}\ln (1-y)\} \\ &=F_X(-\frac{1}{\lambda}\ln (1-y)) \\ &=1-e^{-\lambda (-\frac{1}{\lambda}\ln (1-y))} \\ &=y \end{align*} \]

QED.

若 \(Y=F(X)\)，且 F 单调，则 Y 服从 0-1 分布。

若 \(X\sim f_X(x)\)，\(Y=g(X)\)，且 \(g(x)\) 单调、反函数为 \(X=h(Y)\)，则：

\[ f_Y(y)=\begin{cases} f_X(h(y))\cdot |h'(y)|, &\alpha <y<\beta \\ 0,&\text{other.} \end{cases} \]

其中 \(\alpha=g(-\infty)\)，\(\beta=g(+\infty)\)。