欢迎来到连续分布的世界!
在你之前的统计学课程(S1)中,你已经学习过离散随机变量(Discrete Random Variables)——即那些可以数出来的数值,例如掷硬币时出现正面的次数,或是比赛中的入球数。在统计学 2 (S2) 的这一章中,我们将进入连续随机变量(Continuous Random Variables)的“平滑”世界。这些变量是我们测量而非数出来的数值,例如时间、身高或是一包糖的精确重量。别担心,如果刚开始觉得有些抽象,我们会运用一些简单的微积分和清晰的类比来帮助你理解!
1. 连续随机变量的概念
连续随机变量可以在给定的范围内取任何数值。与离散变量(你会从 1 跳到 2)不同,连续变量可以是 1.5、1.55 或 1.5555...
类比:想象一个只显示分钟的数字钟(离散),对比一个可以精确测量到无限小数位的秒表(连续)。
关键特性:
1. 变量取特定确切数值的概率永远为零:\(P(X = x) = 0\)。这是因为可能的数值有无穷多个。相反,我们计算的是变量落在某个范围内的概率(例如:灯泡寿命在 100 到 200 小时之间的概率)。
2. 我们使用概率密度函数 (PDF),记作 \(f(x)\),来描述该分布。\(f(x)\) 图形下的面积代表概率。
快速复习:对于任何 PDF 而言,曲线下的总面积必须等于 1,因为所有可能结果的总概率是 100%。
2. 概率密度函数 (PDF)
PDF 即 \(f(x)\),告诉我们在任何点 \(x\) 的概率“密度”是多少。要找出 \(X\) 落在两个数值 \(a\) 和 \(b\) 之间的概率,我们需利用积分计算曲线下的面积:
\(P(a < X \le b) = \int_{a}^{b} f(x) dx\)
有效 PDF 的规则:
- 对于所有 \(x\),\(f(x) \ge 0\)(概率密度不可能是负的!)。
- \(\int_{-\infty}^{\infty} f(x) dx = 1\)。
常见错误提醒:学生常会忘记 \(f(x)\) 是图形的高度,而非概率本身。只有面积才是概率!
3. 累积分布函数 (CDF)
累积分布函数,记作 \(F(x)\),代表随机变量小于或等于某个特定数值 \(x\) 的概率。
\(F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx\)
PDF 与 CDF 之间的关系:
你可以把 PDF 看作是 CDF 的“变化率”。
- 从 PDF 到 CDF:进行积分。
- 从 CDF 到 PDF:进行微分。
\(f(x) = \frac{dF(x)}{dx}\)
重点提示:\(F(x)\) 的数值永远从 0 开始,并以 1 结束。如果你在计算 CDF 时得出大于 1 的数值,请检查你的积分常数!
4. 平均数、方差与四分位数
正如离散变量,连续变量也有平均值和离散程度。我们使用以下公式:
平均数(期望值):
\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
方差:
\(Var(X) = E(X^2) - [E(X)]^2\),其中 \(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)
中位数与四分位数:
中位数 (m) 是指左侧面积恰好为 0.5 的数值。要找到它,请解方程:
\(F(m) = 0.5\)
同理,对于下四分位数 (\(Q_1\)),解 \(F(Q_1) = 0.25\);对于上四分位数 (\(Q_3\)),解 \(F(Q_3) = 0.75\)。
众数:
众数是使 \(f(x)\) 达到最大值的 \(x\) 值。你通常可以通过观察图形,或利用微分找出驻点(stationary point)来求得。
你知道吗?在一个完全对称的分布中,平均数、中位数和众数会是同一个值!
5. 连续均匀(矩形)分布
这是最简单的连续分布。当范围 \([a, b]\) 内的每个数值出现的可能性都相同时,就会出现这种分布。其 PDF 图形看起来像一个矩形。
\(X \sim U(a, b)\) 的关键公式:
- PDF: \(f(x) = \frac{1}{b-a}\),适用于 \(a \le x \le b\)。
- 平均数: \(E(X) = \frac{a+b}{2}\)(正好在中间)。
- 方差: \(Var(X) = \frac{(b-a)^2}{12}\)。
- CDF: \(F(x) = \frac{x-a}{b-a}\),适用于 \(a \le x \le b\)。
记忆小贴士:想象一条长度为 \(b-a\) 的巧克力棒。如果你想找咬下一口的平均位置,那一定是在这条棒的中间!
6. 正态近似与连续性修正
有时,当数值变得非常大时,我们会使用正态分布 (Normal Distribution) 来近似离散分布(二项分布或泊松分布)。然而,因为我们是从“区块”(离散)过渡到“平滑曲线”(连续),我们必须使用连续性修正 (Continuity Correction)。
何时进行近似:
- 二项分布 \(B(n, p)\):当 \(n\) 很大且 \(p\) 接近 0.5 时(具体来说是 \(np > 5\) 且 \(n(1-p) > 5\)),可使用正态分布。
- 泊松分布 \(Po(\lambda)\):当 \(\lambda\) 很大时(通常 \(\lambda > 10\)),可使用正态分布。
如何使用连续性修正:
由于正态分布是连续的,像“10”这样的离散值会由 9.5 到 10.5 之间的区间来代表。
- \(P(X = 10)\) 变为 \(P(9.5 < Y < 10.5\)
- \(P(X \ge 10)\) 变为 \(P(Y > 9.5\)
- \(P(X > 10)\) 变为 \(P(Y > 10.5\)
快速复习盒:
1. 确认近似是否有效。
2. 计算 \(\mu\) 和 \(\sigma^2\)。
3. 进行连续性修正 (\(\pm 0.5\))。
4. 使用 \(Z = \frac{X - \mu}{\sigma}\) 进行标准化,并查表得出结果。
总结重点
连续分布让我们能够对现实世界进行建模,因为现实中的测量值不仅仅是整数。通过对 PDF 使用积分以及对 CDF 使用微分,你可以求出概率、平均数和中位数。注意你的积分上下限,并时刻记住总面积必须为 1。你一定能搞定的!