欢迎来到连续随机变量的世界!

你好!在统计学的学习旅程中,你已经认识了离散随机变量(Discrete Random Variables)(我们用来计数的,例如掷硬币时出现正面的次数)。现在,我们要进入一个更平滑的世界:连续随机变量(Continuous Random Variables)

你可以这样理解两者的区别:离散变量就像楼梯,你不是站在这一级就是站在下一级;而连续变量就像斜坡,你可以站在任何高度!在本章中,我们将学习如何计算测量数据的概率,例如时间、重量或距离。如果这些数学看起来一开始有点“微积分重”,别担心;我们会把它拆解,一步一步来学习。


1. 什么是连续随机变量 (CRV)?

连续随机变量是指可以在特定范围内取任何数值的变量。由于可能的数值有无限多个(例如,你的身高可能是 175cm、175.2cm,或者 175.2341cm……),所以变量取刚好某个特定值的概率实际上是零!

类比:想象你向 0 到 1 之间的数线上扔一支极细的飞镖。你击中刚好 0.5000000...(有无穷多个零)的机率是多少?这是不可能的!相反,我们会问:“飞镖落在 0.4 和 0.6 之间的机率是多少?”

关键特性:
• 它代表测量所得的数据。
• 我们计算的是一个范围(range)的概率,而不是单一点的概率。
• 对于任何特定值 \(x\),\(P(X = x) = 0\)


2. 概率密度函数 (PDF)

在离散数学中,我们使用概率分布表。对于连续变量,我们使用一个称为概率密度函数(Probability Density Function)的公式,记作 \(f(x)\)

在图表上,\(f(x)\) 会形成一条曲线。曲线下的面积就代表概率。

\(f(x)\) 的两大黄金法则:

1. 函数值永不为负:对于所有 \(x\),\(f(x) \geq 0\)。(概率不可能为负!)
2. 曲线下的总面积必须等于 1:\(\int_{-\infty}^{\infty} f(x) dx = 1\)

逐步教学:寻找概率
要找出 \(X\) 落在 \(a\) 和 \(b\) 之间的概率,你只需利用积分计算该两点之间曲线下的面积:
\(P(a < X < b) = \int_{a}^{b} f(x) dx\)

小贴士:因为 \(P(X=x)=0\),所以使用 \(<\) 还是 \(\leq\) 其实没有差别。在这里它们的意思是一样的!

重点总结:概率 = 面积。要找到它,只需对你想要的范围内的 PDF 进行积分。


3. 累积分配函数 (CDF)

累积分配函数(Cumulative Distribution Function),记作 \(F(x)\),就像概率的“累计总和”。它告诉你变量小于或等于某个特定值的概率。

\(F(x_0) = P(X \leq x_0) = \int_{-\infty}^{x_0} f(x) dx\)

如何在 \(f(x)\) 和 \(F(x)\) 之间转换:

  • PDF 到 CDF:对 \(f(x)\) 进行积分(Integrate)
  • CDF 到 PDF:对 \(F(x)\) 进行微分(Differentiate)

记忆法:\(F\) 想成“到目前为止的总量(Full amount)”(对应积分),而将 \(f\) 想成单一点上的“分数/细分(fraction)”(对应微分)。

快速复习:
• \(F(\text{下限}) = 0\)
• \(F(\text{上限}) = 1\)
• \(P(a < X < b) = F(b) - F(a)\)


4. 平均值、方差与标准差

就像离散变量一样,我们想知道平均值(Mean)和离散程度(Variance)。在 CRV 中,我们使用积分而不是求和符号 \(\Sigma\)。

平均值 (期望值)

平均值 \(E(X)\)(也称为 \(\mu\))是分布的平衡点。
\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)

方差

方差 \(Var(X)\)(也称为 \(\sigma^2\))衡量数据的分散程度。
\(Var(X) = E(X^2) - [E(X)]^2\)
要找到 \(E(X^2)\),请使用:\(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)

标准差

\(\sigma = \sqrt{Var(X)}\)

避免常见错误:计算方差时,千万别忘了减去平均值的平方!一个非常常见的错误是算出了 \(E(X^2)\) 就停下来了。


5. 众数、中位数与四分位数

这些是寻找数据“中心”或特定位置的不同方法。

众数 (Mode):这是 \(f(x)\) 达到最大值时的 \(x\) 值。
如何找到它:观察图像,或使用微分来找出 \(f(x)\) 的最高点。

中位数 (Median, \(m\)):这是将面积精确地分为两半的值(50% 在下方,50% 在上方)。
如何找到它:解方程 \(F(m) = 0.5\)

四分位数:
下四分位数 (\(Q_1\)):解 \(F(Q_1) = 0.25\)
上四分位数 (\(Q_3\)):解 \(F(Q_3) = 0.75\)
四分位距 (IQR): \(Q_3 - Q_1\)

重点总结:对于中位数和四分位数,请务必使用 CDF (\(F(x)\)),而不是 PDF。


6. 连续均匀分布 (Continuous Uniform Distribution)

有时也称为矩形分布(Rectangular Distribution),这是最简单的 CRV。它意味着概率在 \(a\) 到 \(b\) 的整个范围内是恒定(相同)的。

如果 \(X \sim U(a, b)\):
PDF:对于 \(a \leq x \leq b\),\(f(x) = \frac{1}{b - a}\)。
平均值 \(E(X)\): \(\frac{a + b}{2}\)(正好在中间!)
方差 \(Var(X)\): \(\frac{(b - a)^2}{12}\)

你知道吗?方差公式中的 12 是一个数学常数,无论范围有多宽,它都会出现在均匀分布的公式中!


摘要清单

在开始做考试题目之前,请确保你能:
1. 证明一个函数是有效的 PDF(面积 = 1)。
2. 对 PDF 进行积分以求出 CDF。
3. 使用 CDF 求出中位数或四分位数。
4. 使用积分计算 \(E(X)\) 和 \(Var(X)\)。
5. 识别并使用均匀分布的快捷公式。

如果起初觉得这些很棘手,请别担心!积分需要练习,但一旦你意识到你只是在找曲线下的面积,一切就会豁然开朗。你可以做到的!