欢迎来到假设检验!

你有没有想过科学家是如何判定一种新药是否真正有效,或是工厂如何检查机器填装麦片盒是否准确?他们用的就是假设检验 (Hypothesis Testing)。在本章中,我们将从单纯的描述数据转向根据数据作出重大决策。这本质上就像是数学版的法庭审判:我们假设“未经证明有罪前,均视为无罪”。如果一开始觉得有很多生词,别担心——一旦你看出了规律,这就会成为统计学 2 (Statistics 2) 中最符合逻辑的部分之一!

1. 母体、普查与样本

在我们进行任何测试之前,必须先知道数据来自何处。

关键术语:

母体 (Population): 我们感兴趣的所有项目的总集合(例如:你学校里的每一位学生)。
普查 (Census): 当你测量或观察母体中每一个成员时。
样本 (Sample): 从母体中挑选出来的个别成员或项目的选择。
抽样单位 (Sampling Unit): 母体中可以被抽样的单个个体(例如:一位学生)。
抽样框 (Sampling Frame): 所有抽样单位的完整列表(例如:学校的学生名册)。

优缺点:

普查:
+ 优点: 100% 准确;能提供真实的代表性。
- 缺点: 极度耗时、昂贵且处理困难。此外,如果测试涉及破坏性(例如测试灯泡寿命!),你就无法使用普查。

样本:
+ 优点: 快速、经济且易于管理。
- 缺点: 可能无法完全代表母体;总是有“抽样误差 (sampling error)”的可能性。

快速回顾: 想象一锅汤。普查就是把整锅汤喝光来确认咸度。样本则是舀起一汤匙。抽样单位就是那一汤匙,而抽样框就是锅里所有食材的食谱清单!

2. 假设检验的语言

为了进行测试,我们需要设定“审判”的规则。

什么是统计量?

统计量 (Statistic) 是仅从样本数据计算出的数值。它不能包含任何未知的参数(例如母体平均数 \(\mu\) 或概率 \(p\))。
统计量的抽样分布 (Sampling Distribution) 是指该统计量在所有可能的固定大小样本中,所能取得的所有可能值之概率分布。

假设

每个测试都有两个相互竞争的声明:
1. 零假设 \(H_0\) (Null Hypothesis): “平淡无奇”的假设。我们假设情况没有改变,或者主张是正确的。(例如:“硬币是公平的,\(p = 0.5\)”)。
2. 备择假设 \(H_1\) (Alternative Hypothesis): 我们正在调查的“令人兴奋”的主张。只有在反对 \(H_0\) 的证据非常强烈时,我们才会相信它。(例如:“硬币有偏差,\(p > 0.5\)”)。

检验统计量与拒绝域

检验统计量 (Test Statistic) 是我们从样本中获得的具体结果(例如:“我抛了 10 次硬币,出现了 9 次正面”)。
拒绝域 (Critical Region) 是检验统计量的数值范围,如果结果落在此范围内,代表它极不可能偶然发生,因此我们拒绝 \(H_0\)。
显著性水平 (Significance Level)(通常为 5% 或 1%)是判定结果必须多“不可能”发生的“门槛”。如果在 \(H_0\) 成立的情况下,结果发生的概率小于 5%,我们就拒绝 \(H_0\)。

核心观念: 如果你的样本结果落在拒绝域内,你就可以对 \(H_0\) 说“再见”,并拥抱 \(H_1\)。

3. 单尾与双尾检验

这取决于问题的要求。

单尾检验 (One-Tailed Test): 你正在寻找特定方向的改变。
范例: “成功的概率是否增加了?”
\(H_1: p > \text{数值}\) 或 \(H_1: p < \text{数值}\)。
显著性水平(例如 5%)完全位于分布的一端。

双尾检验 (Two-Tailed Test): 你正在寻找任何改变,无论是上升还是下降。
范例: “概率是否改变了?”
\(H_1: p \neq \text{数值}\)。
重要: 你必须将显著性水平一分为二!对于 5% 的测试,你需要寻找最高端 2.5% 以及最低端 2.5% 的极端数值。

常见错误: 在双尾检验中忘记将显著性水平减半。一定要检查题目问的是“改变”(双尾)还是“增加/减少”(单尾)。

4. 二项分布参数 \(p\) 的检验

当我们有固定次数的试验 \(n\),且要检验成功概率 \(p\) 时,就会用到这个方法。

步骤流程:

1. 陈述 \(H_0\)(例如 \(H_0: p = 0.4\))和 \(H_1\)(例如 \(H_1: p > 0.4\))。
2. 陈述零假设下的分布:\(X \sim B(n, p)\)。
3. 确定显著性水平(例如 5%)。
4. 计算观察到的结果或更极端结果的概率。对于 \(H_1: p > k\),计算 \(P(X \geq \text{observed})\)。
5. 结论: 如果概率小于显著性水平,则拒绝 \(H_0\)。否则,不要拒绝 \(H_0\)。

使用正态近似:

如果 \(n\) 很大且 \(p\) 接近 0.5,你可以使用正态分布来近似二项分布。只要记住连续性修正 (Continuity Correction) 即可!
若 \(X \sim B(n, p)\),则 \(X \approx N(np, np(1-p))\)。
小撇步: 二项分布中的 \(P(X \geq 10)\) 变为正态分布中的 \(P(Y > 9.5)\)。

5. 泊松平均数 \(\lambda\) 的检验

当我们在检验一段区间内的发生率时,会使用此方法。

范例:

一家店每小时通常有 10 位顾客 (\(\lambda = 10\))。他们投放广告后想看看速率是否增加。他们计算出某一小时内有 15 位顾客。
\(H_0: \lambda = 10\)
\(H_1: \lambda > 10\)
使用 \(\lambda = 10\) 的泊松分布表找出 \(P(X \geq 15)\)。如果这个概率非常小(小于你的显著性水平),广告就有效!

你知道吗? 假设检验并不能“证明”任何事情是 100% 确定的。它只是告诉我们证据是否“强大到足以令人信服”。这就是为什么我们总是使用诸如“有足够的证据显示……”之类的说法。

总结清单

- 定义变量: 明确说明 \(X\) 代表什么。
- 写出假设: 使用符号(\(p\) 或 \(\lambda\))。
- 找出概率: 使用统计表或计算器找出“p 值”(即在 \(H_0\) 成立前提下,出现该结果的概率)。
- 比较: 将 p 值与显著性水平进行比较。
- 情境结论: 务必以题目原本的情境写出最终答案(例如:“有证据显示机器故障了”)。

如果一开始觉得很棘手,别担心!练习写步骤的次数越多,这就会变得越自然。留意那些“尾端”,并务必仔细阅读题目!