Hypothesis tests - Further Mathematics (XFM01) - Pearson Edexcel International AS Level

欢迎来到假设检验！

你有没有想过科学家是如何判定一种新药是否真正有效，或是工厂如何检查机器填装麦片盒是否准确？他们用的就是假设检验 (Hypothesis Testing)。在本章中，我们将从单纯的描述数据转向根据数据作出重大决策。这本质上就像是数学版的法庭审判：我们假设“未经证明有罪前，均视为无罪”。如果一开始觉得有很多生词，别担心——一旦你看出了规律，这就会成为统计学 2 (Statistics 2) 中最符合逻辑的部分之一！

1. 母体、普查与样本

在我们进行任何测试之前，必须先知道数据来自何处。

关键术语：

母体 (Population)： 我们感兴趣的所有项目的总集合（例如：你学校里的每一位学生）。
普查 (Census)： 当你测量或观察母体中每一个成员时。
样本 (Sample)： 从母体中挑选出来的个别成员或项目的选择。
抽样单位 (Sampling Unit)： 母体中可以被抽样的单个个体（例如：一位学生）。
抽样框 (Sampling Frame)： 所有抽样单位的完整列表（例如：学校的学生名册）。

优缺点：

普查：
+ 优点： 100% 准确；能提供真实的代表性。
- 缺点： 极度耗时、昂贵且处理困难。此外，如果测试涉及破坏性（例如测试灯泡寿命！），你就无法使用普查。

样本：
+ 优点： 快速、经济且易于管理。
- 缺点： 可能无法完全代表母体；总是有“抽样误差 (sampling error)”的可能性。

快速回顾： 想象一锅汤。普查就是把整锅汤喝光来确认咸度。样本则是舀起一汤匙。抽样单位就是那一汤匙，而抽样框就是锅里所有食材的食谱清单！

2. 假设检验的语言

为了进行测试，我们需要设定“审判”的规则。

什么是统计量？

统计量 (Statistic) 是仅从样本数据计算出的数值。它不能包含任何未知的参数（例如母体平均数 \(\mu\) 或概率 \(p\)）。
统计量的抽样分布 (Sampling Distribution) 是指该统计量在所有可能的固定大小样本中，所能取得的所有可能值之概率分布。

假设

每个测试都有两个相互竞争的声明：
1. 零假设 \(H_0\) (Null Hypothesis)： “平淡无奇”的假设。我们假设情况没有改变，或者主张是正确的。（例如：“硬币是公平的，\(p = 0.5\)”）。
2. 备择假设 \(H_1\) (Alternative Hypothesis)： 我们正在调查的“令人兴奋”的主张。只有在反对 \(H_0\) 的证据非常强烈时，我们才会相信它。（例如：“硬币有偏差，\(p > 0.5\)”）。

检验统计量与拒绝域

检验统计量 (Test Statistic) 是我们从样本中获得的具体结果（例如：“我抛了 10 次硬币，出现了 9 次正面”）。
拒绝域 (Critical Region) 是检验统计量的数值范围，如果结果落在此范围内，代表它极不可能偶然发生，因此我们拒绝 \(H_0\)。
显著性水平 (Significance Level)（通常为 5% 或 1%）是判定结果必须多“不可能”发生的“门槛”。如果在 \(H_0\) 成立的情况下，结果发生的概率小于 5%，我们就拒绝 \(H_0\)。

核心观念： 如果你的样本结果落在拒绝域内，你就可以对 \(H_0\) 说“再见”，并拥抱 \(H_1\)。

3. 单尾与双尾检验

这取决于问题的要求。

单尾检验 (One-Tailed Test)： 你正在寻找特定方向的改变。
范例： “成功的概率是否增加了？”
\(H_1: p > \text{数值}\) 或 \(H_1: p < \text{数值}\)。
显著性水平（例如 5%）完全位于分布的一端。

双尾检验 (Two-Tailed Test)： 你正在寻找任何改变，无论是上升还是下降。
范例： “概率是否改变了？”
\(H_1: p \neq \text{数值}\)。
重要： 你必须将显著性水平一分为二！对于 5% 的测试，你需要寻找最高端 2.5% 以及最低端 2.5% 的极端数值。

常见错误： 在双尾检验中忘记将显著性水平减半。一定要检查题目问的是“改变”（双尾）还是“增加/减少”（单尾）。

4. 二项分布参数 \(p\) 的检验

当我们有固定次数的试验 \(n\)，且要检验成功概率 \(p\) 时，就会用到这个方法。

步骤流程：

1. 陈述 \(H_0\)（例如 \(H_0: p = 0.4\)）和 \(H_1\)（例如 \(H_1: p > 0.4\)）。
2. 陈述零假设下的分布：\(X \sim B(n, p)\)。
3. 确定显著性水平（例如 5%）。
4. 计算观察到的结果或更极端结果的概率。对于 \(H_1: p > k\)，计算 \(P(X \geq \text{observed})\)。
5. 结论： 如果概率小于显著性水平，则拒绝 \(H_0\)。否则，不要拒绝 \(H_0\)。

使用正态近似：

如果 \(n\) 很大且 \(p\) 接近 0.5，你可以使用正态分布来近似二项分布。只要记住连续性修正 (Continuity Correction) 即可！
若 \(X \sim B(n, p)\)，则 \(X \approx N(np, np(1-p))\)。
小撇步： 二项分布中的 \(P(X \geq 10)\) 变为正态分布中的 \(P(Y > 9.5)\)。

5. 泊松平均数 \(\lambda\) 的检验

当我们在检验一段区间内的发生率时，会使用此方法。

范例：

一家店每小时通常有 10 位顾客 (\(\lambda = 10\))。他们投放广告后想看看速率是否增加。他们计算出某一小时内有 15 位顾客。
\(H_0: \lambda = 10\)
\(H_1: \lambda > 10\)
使用 \(\lambda = 10\) 的泊松分布表找出 \(P(X \geq 15)\)。如果这个概率非常小（小于你的显著性水平），广告就有效！

你知道吗？ 假设检验并不能“证明”任何事情是 100% 确定的。它只是告诉我们证据是否“强大到足以令人信服”。这就是为什么我们总是使用诸如“有足够的证据显示……”之类的说法。

总结清单

- 定义变量： 明确说明 \(X\) 代表什么。
- 写出假设： 使用符号（\(p\) 或 \(\lambda\)）。
- 找出概率： 使用统计表或计算器找出“p 值”（即在 \(H_0\) 成立前提下，出现该结果的概率）。
- 比较： 将 p 值与显著性水平进行比较。
- 情境结论： 务必以题目原本的情境写出最终答案（例如：“有证据显示机器故障了”）。

如果一开始觉得很棘手，别担心！练习写步骤的次数越多，这就会变得越自然。留意那些“尾端”，并务必仔细阅读题目！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。