Continuous distributions - Further Mathematics (XFM01) - Pearson Edexcel International AS Level

欢迎来到连续分布的世界！

在你之前的统计学课程（S1）中，你已经学习过离散随机变量（Discrete Random Variables）——即那些可以数出来的数值，例如掷硬币时出现正面的次数，或是比赛中的入球数。在统计学 2 (S2) 的这一章中，我们将进入连续随机变量（Continuous Random Variables）的“平滑”世界。这些变量是我们测量而非数出来的数值，例如时间、身高或是一包糖的精确重量。别担心，如果刚开始觉得有些抽象，我们会运用一些简单的微积分和清晰的类比来帮助你理解！

1. 连续随机变量的概念

连续随机变量可以在给定的范围内取任何数值。与离散变量（你会从 1 跳到 2）不同，连续变量可以是 1.5、1.55 或 1.5555...
类比：想象一个只显示分钟的数字钟（离散），对比一个可以精确测量到无限小数位的秒表（连续）。

关键特性：

1. 变量取特定确切数值的概率永远为零：\(P(X = x) = 0\)。这是因为可能的数值有无穷多个。相反，我们计算的是变量落在某个范围内的概率（例如：灯泡寿命在 100 到 200 小时之间的概率）。
2. 我们使用概率密度函数 (PDF)，记作 \(f(x)\)，来描述该分布。\(f(x)\) 图形下的面积代表概率。

快速复习：对于任何 PDF 而言，曲线下的总面积必须等于 1，因为所有可能结果的总概率是 100%。

2. 概率密度函数 (PDF)

PDF 即 \(f(x)\)，告诉我们在任何点 \(x\) 的概率“密度”是多少。要找出 \(X\) 落在两个数值 \(a\) 和 \(b\) 之间的概率，我们需利用积分计算曲线下的面积：

\(P(a < X \le b) = \int_{a}^{b} f(x) dx\)

有效 PDF 的规则：

- 对于所有 \(x\)，\(f(x) \ge 0\)（概率密度不可能是负的！）。
- \(\int_{-\infty}^{\infty} f(x) dx = 1\)。

常见错误提醒：学生常会忘记 \(f(x)\) 是图形的高度，而非概率本身。只有面积才是概率！

3. 累积分布函数 (CDF)

累积分布函数，记作 \(F(x)\)，代表随机变量小于或等于某个特定数值 \(x\) 的概率。
\(F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx\)

PDF 与 CDF 之间的关系：

你可以把 PDF 看作是 CDF 的“变化率”。
- 从 PDF 到 CDF：进行积分。
- 从 CDF 到 PDF：进行微分。
\(f(x) = \frac{dF(x)}{dx}\)

重点提示：\(F(x)\) 的数值永远从 0 开始，并以 1 结束。如果你在计算 CDF 时得出大于 1 的数值，请检查你的积分常数！

4. 平均数、方差与四分位数

正如离散变量，连续变量也有平均值和离散程度。我们使用以下公式：

平均数（期望值）：

\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)

方差：

\(Var(X) = E(X^2) - [E(X)]^2\)，其中 \(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)

中位数与四分位数：

中位数 (m) 是指左侧面积恰好为 0.5 的数值。要找到它，请解方程：
\(F(m) = 0.5\)
同理，对于下四分位数 (\(Q_1\))，解 \(F(Q_1) = 0.25\)；对于上四分位数 (\(Q_3\))，解 \(F(Q_3) = 0.75\)。

众数：

众数是使 \(f(x)\) 达到最大值的 \(x\) 值。你通常可以通过观察图形，或利用微分找出驻点（stationary point）来求得。

你知道吗？在一个完全对称的分布中，平均数、中位数和众数会是同一个值！

5. 连续均匀（矩形）分布

这是最简单的连续分布。当范围 \([a, b]\) 内的每个数值出现的可能性都相同时，就会出现这种分布。其 PDF 图形看起来像一个矩形。

\(X \sim U(a, b)\) 的关键公式：

- PDF: \(f(x) = \frac{1}{b-a}\)，适用于 \(a \le x \le b\)。
- 平均数: \(E(X) = \frac{a+b}{2}\)（正好在中间）。
- 方差: \(Var(X) = \frac{(b-a)^2}{12}\)。
- CDF: \(F(x) = \frac{x-a}{b-a}\)，适用于 \(a \le x \le b\)。

记忆小贴士：想象一条长度为 \(b-a\) 的巧克力棒。如果你想找咬下一口的平均位置，那一定是在这条棒的中间！

6. 正态近似与连续性修正

有时，当数值变得非常大时，我们会使用正态分布 (Normal Distribution) 来近似离散分布（二项分布或泊松分布）。然而，因为我们是从“区块”（离散）过渡到“平滑曲线”（连续），我们必须使用连续性修正 (Continuity Correction)。

何时进行近似：

- 二项分布 \(B(n, p)\)：当 \(n\) 很大且 \(p\) 接近 0.5 时（具体来说是 \(np > 5\) 且 \(n(1-p) > 5\)），可使用正态分布。
- 泊松分布 \(Po(\lambda)\)：当 \(\lambda\) 很大时（通常 \(\lambda > 10\)），可使用正态分布。

如何使用连续性修正：

由于正态分布是连续的，像“10”这样的离散值会由 9.5 到 10.5 之间的区间来代表。
- \(P(X = 10)\) 变为 \(P(9.5 < Y < 10.5\)
- \(P(X \ge 10)\) 变为 \(P(Y > 9.5\)
- \(P(X > 10)\) 变为 \(P(Y > 10.5\)

快速复习盒：
1. 确认近似是否有效。
2. 计算 \(\mu\) 和 \(\sigma^2\)。
3. 进行连续性修正 (\(\pm 0.5\))。
4. 使用 \(Z = \frac{X - \mu}{\sigma}\) 进行标准化，并查表得出结果。

总结重点

连续分布让我们能够对现实世界进行建模，因为现实中的测量值不仅仅是整数。通过对 PDF 使用积分以及对 CDF 使用微分，你可以求出概率、平均数和中位数。注意你的积分上下限，并时刻记住总面积必须为 1。你一定能搞定的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。