Continuous random variables - Mathematics (XMA01) - Pearson Edexcel International AS Level

欢迎来到连续随机变量的世界！

你好！在统计学的学习旅程中，你已经认识了离散随机变量（Discrete Random Variables）（我们用来计数的，例如掷硬币时出现正面的次数）。现在，我们要进入一个更平滑的世界：连续随机变量（Continuous Random Variables）。

你可以这样理解两者的区别：离散变量就像楼梯，你不是站在这一级就是站在下一级；而连续变量就像斜坡，你可以站在任何高度！在本章中，我们将学习如何计算测量数据的概率，例如时间、重量或距离。如果这些数学看起来一开始有点“微积分重”，别担心；我们会把它拆解，一步一步来学习。

1. 什么是连续随机变量 (CRV)？

连续随机变量是指可以在特定范围内取任何数值的变量。由于可能的数值有无限多个（例如，你的身高可能是 175cm、175.2cm，或者 175.2341cm……），所以变量取刚好某个特定值的概率实际上是零！

类比：想象你向 0 到 1 之间的数线上扔一支极细的飞镖。你击中刚好 0.5000000...（有无穷多个零）的机率是多少？这是不可能的！相反，我们会问：“飞镖落在 0.4 和 0.6 之间的机率是多少？”

关键特性：
• 它代表测量所得的数据。
• 我们计算的是一个范围（range）的概率，而不是单一点的概率。
• 对于任何特定值 \(x\)，\(P(X = x) = 0\)。

2. 概率密度函数 (PDF)

在离散数学中，我们使用概率分布表。对于连续变量，我们使用一个称为概率密度函数（Probability Density Function）的公式，记作 \(f(x)\)。

在图表上，\(f(x)\) 会形成一条曲线。曲线下的面积就代表概率。

\(f(x)\) 的两大黄金法则：

1. 函数值永不为负：对于所有 \(x\)，\(f(x) \geq 0\)。（概率不可能为负！）
2. 曲线下的总面积必须等于 1：\(\int_{-\infty}^{\infty} f(x) dx = 1\)。

逐步教学：寻找概率
要找出 \(X\) 落在 \(a\) 和 \(b\) 之间的概率，你只需利用积分计算该两点之间曲线下的面积：
\(P(a < X < b) = \int_{a}^{b} f(x) dx\)

小贴士：因为 \(P(X=x)=0\)，所以使用 \(<\) 还是 \(\leq\) 其实没有差别。在这里它们的意思是一样的！

重点总结：概率 = 面积。要找到它，只需对你想要的范围内的 PDF 进行积分。

3. 累积分配函数 (CDF)

累积分配函数（Cumulative Distribution Function），记作 \(F(x)\)，就像概率的“累计总和”。它告诉你变量小于或等于某个特定值的概率。

\(F(x_0) = P(X \leq x_0) = \int_{-\infty}^{x_0} f(x) dx\)

如何在 \(f(x)\) 和 \(F(x)\) 之间转换：

从 PDF 到 CDF：对 \(f(x)\) 进行积分（Integrate）。
从 CDF 到 PDF：对 \(F(x)\) 进行微分（Differentiate）。

记忆法：将 \(F\) 想成“到目前为止的总量（Full amount）”（对应积分），而将 \(f\) 想成单一点上的“分数/细分（fraction）”（对应微分）。

快速复习：
• \(F(\text{下限}) = 0\)
• \(F(\text{上限}) = 1\)
• \(P(a < X < b) = F(b) - F(a)\)

4. 平均值、方差与标准差

就像离散变量一样，我们想知道平均值（Mean）和离散程度（Variance）。在 CRV 中，我们使用积分而不是求和符号 \(\Sigma\)。

平均值 (期望值)

平均值 \(E(X)\)（也称为 \(\mu\)）是分布的平衡点。
\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)

方差

方差 \(Var(X)\)（也称为 \(\sigma^2\)）衡量数据的分散程度。
\(Var(X) = E(X^2) - [E(X)]^2\)
要找到 \(E(X^2)\)，请使用：\(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)

标准差

\(\sigma = \sqrt{Var(X)}\)

避免常见错误：计算方差时，千万别忘了减去平均值的平方！一个非常常见的错误是算出了 \(E(X^2)\) 就停下来了。

5. 众数、中位数与四分位数

这些是寻找数据“中心”或特定位置的不同方法。

众数 (Mode)：这是 \(f(x)\) 达到最大值时的 \(x\) 值。
如何找到它：观察图像，或使用微分来找出 \(f(x)\) 的最高点。

中位数 (Median, \(m\))：这是将面积精确地分为两半的值（50% 在下方，50% 在上方）。
如何找到它：解方程 \(F(m) = 0.5\)。

四分位数：
• 下四分位数 (\(Q_1\))：解 \(F(Q_1) = 0.25\)
• 上四分位数 (\(Q_3\))：解 \(F(Q_3) = 0.75\)
• 四分位距 (IQR)： \(Q_3 - Q_1\)

重点总结：对于中位数和四分位数，请务必使用 CDF (\(F(x)\))，而不是 PDF。

6. 连续均匀分布 (Continuous Uniform Distribution)

有时也称为矩形分布（Rectangular Distribution），这是最简单的 CRV。它意味着概率在 \(a\) 到 \(b\) 的整个范围内是恒定（相同）的。

如果 \(X \sim U(a, b)\)：
• PDF：对于 \(a \leq x \leq b\)，\(f(x) = \frac{1}{b - a}\)。
• 平均值 \(E(X)\)： \(\frac{a + b}{2}\)（正好在中间！）
• 方差 \(Var(X)\)： \(\frac{(b - a)^2}{12}\)

你知道吗？方差公式中的 12 是一个数学常数，无论范围有多宽，它都会出现在均匀分布的公式中！

摘要清单

在开始做考试题目之前，请确保你能：
1. 证明一个函数是有效的 PDF（面积 = 1）。
2. 对 PDF 进行积分以求出 CDF。
3. 使用 CDF 求出中位数或四分位数。
4. 使用积分计算 \(E(X)\) 和 \(Var(X)\)。
5. 识别并使用均匀分布的快捷公式。

如果起初觉得这些很棘手，请别担心！积分需要练习，但一旦你意识到你只是在找曲线下的面积，一切就会豁然开朗。你可以做到的！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。