Introduction to probability distributions - Statistics (9ST0) - Pearson Edexcel A Level

概率分布导论

欢迎！在本章中，我们将连接基本概率与科学家、企业及研究人员所使用的高级统计模型。你可以将概率分布（Probability Distribution）想象成一张“地图”，它告诉我们随机实验中不同结果出现的可能性。无论你是要预测一支球队可能会进多少球，还是在计算一包糖的精确重量，你都在使用这些分布。如果初看之下觉得有点抽象，不用担心——我们会一步一步为你拆解！

1. 随机变量：构建统计学的基石

在绘制分布图之前，我们需要了解我们正在测量的是什么。我们称之为随机变量（Random Variable），通常用大写字母（例如 \(X\)）来表示。

离散 vs. 连续

这是本章你必须掌握的最重要区别：

离散随机变量（Discrete Random Variables）：这些变量取特定的、独立的值。你可以用手指头数出来。
例子：掷 10 次硬币出现人头的次数，或是班级中的学生人数。你不可能有 20.5 个学生！

连续随机变量（Continuous Random Variables）：这些变量可以在某个范围内取任何值。通常是我们测量出来的数据。
例子：跑完马拉松所需的时间，或是树木的高度。一棵树的高度可能是 15 米、15.1 米，或者 15.1234... 米。

独立与相依

独立变量（Independent Variables）：一个结果的出现不会影响另一个结果。就像掷两颗骰子，第一颗骰子出的点数与第二颗无关。
相依变量（Dependent Variables）：一个结果的出现会影响另一个结果的可能性。就像从一副牌中抽两张牌，且第一张不放回去。

快速复习：
- 离散 = 可数的（例如：1, 2, 3）
- 连续 = 可测量的（例如：1.527...）
- 随机变量 = 对实验结果的数值化描述。

2. 离散概率分布

对于离散变量，我们通常会将概率列在表格中，或使用一个公式（称为概率函数 probability function）。

黄金法则

对于任何离散概率分布：
1. 每个个别的概率必须介于 0 和 1 之间：\(0 \le P(X=x) \le 1\)。
2. 所有概率的总和必须恰好等于 1：\(\sum P(X=x) = 1\)。
如果你的概率总和是 1.1 或 0.9，那肯定出错了！

计算期望值 \(E(X)\)

期望值（Expected Value）其实就是“长期平均值”的华丽说法。如果你进行几千次实验，平均结果会是多少？
公式为：\(E(X) = \sum x P(X=x)\)

逐步示例：
想象一个游戏，你赢得 £1 的概率是 0.6，赢得 £5 的概率是 0.4。
1. 将每个值乘以其概率：\((1 \times 0.6) = 0.6\) 且 \((5 \times 0.4) = 2.0\)。
2. 将它们相加：\(0.6 + 2.0 = 2.6\)。
期望值 \(E(X)\) 为 £2.60。

计算方差与标准差

方差（Variance）衡量的是结果偏离平均值的“散布程度”。
公式为：\(Var(X) = E(X^2) - [E(X)]^2\)

记忆小撇步：“平方值的平均减去平均值的平方”。
要得到标准差（Standard Deviation，\(\sigma\)），只需对方差取平方根即可：\(\sigma = \sqrt{Var(X)}\)。

常见错误：许多学生在方差公式结尾时会忘记将 \(E(X)\) 平方。请永远记住：\(E(X^2)\) 并不等于 \([E(X)]^2\)！

本节总结：
- 使用表格来整理 \(x\) 和 \(P(X=x)\)。
- 期望值是平均结果。
- 方差是结果的散布范围。

3. 连续分布与均匀分布

对于连续变量，我们无法列出每一个可能的值（因为有无穷多个值！）。相反，我们使用图形，其中曲线下的总面积等于 1。

连续均匀分布（Continuous Uniform Distribution）

这是最简单的连续分布。它通常被称为矩形分布（Rectangular Distribution），因为在某个范围内每个结果出现的可能性都相等，在图形上形成一个完美的矩形。

关键特性：
- 矩形的高度是固定的。
- 概率是透过面积来计算的。
- \(P(X = \text{刚好某个特定数值}) = 0\)。(因为单一点的“宽度”为零，所以面积为零！)

类比：想象一辆巴士每隔 10 分钟准时抵达一次。如果你在随机时间出现，你的等待时间就是一个介于 0 到 10 分钟之间的均匀分布。等待时间介于 2 到 4 分钟之间的概率，就是矩形中那一小块切片的面积。

解读图形

观察连续分布图时：
- 平坦的线（直线）表示均匀分布。
- 线下方的总面积必须为 1。
- 要找到两个点之间的概率，只需找出该两点之间矩形的面积：\(\text{面积} = \text{宽} \times \text{高}\)。

你知道吗？
在从 \(a\) 到 \(b\) 的均匀分布中，矩形的高度永远是 \(\frac{1}{b-a}\)。这确保了总面积（\(\text{宽} \times \text{高}\)）为 \((b-a) \times \frac{1}{b-a} = 1\)。

4. 为现实世界的情况建模

统计学的核心就是为任务挑选合适的“工具”（分布）。

- 离散模型：用于计算事项，例如一批货物中瑕疵品的数量，或经过闸门的红色车辆数量。
- 连续模型：用于测量，例如物理测量的误差，或灯泡坏掉前持续的时间。

鼓励语：如果现在觉得选择正确的分布像是在猜谜，请不用担心。当你进入后面的章节（二项分布、正态分布及泊松分布）时，你将学会特定的“线索”，告诉你该使用哪一个！

Paper 1 考试重点摘要：

1. 变量类型：确保 100% 判断出数据是离散还是连续。
2. 概率总和：永远检查 \(\sum P(X=x) = 1\)。
3. 期望值：将其视为分布的“平衡点”。
4. 方差：使用“平方值的平均减去平均值的平方”这个技巧。
5. 连续型：记住概率就是面积，对于均匀分布，该面积就是一个矩形。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。