欢迎来到抽样的世界!

你好!今天我们要深入探讨你的 Unit S3: Statistics 3 (统计学 3) 课程中最实用的章节之一:抽样 (Sampling)。你有没有想过,电视台是如何计算收视率的?或者科学家如何在不询问全国每一个人的情况下预测选举结果?他们运用的就是抽样!

在本章中,我们将学习如何挑选一小群人(称为样本,sample)来准确地代表更庞大的群体(称为总体,population)。如果统计学现在听起来有点抽象,别担心,我们将运用大量的现实生活例子,让你轻松理解!

1. 基本概念:总体与抽样框

在我们研究“怎么做”之前,先来弄清楚“是什么”。

总体 (Population): 这是你想研究的整个群体。它可能是你学校里的每一位学生、工厂里的每一个灯泡,或是世界上的每一个人。

抽样单位 (Sampling Unit): 这是总体中可以被选中的单个成员。例如,如果你正在研究你的学校,那么每一位学生就是一个抽样单位。

抽样框 (Sampling Frame): 这是总体中所有抽样单位的清单。你可以把它想象成一本巨大的名册或电话簿,记录了所有可能被选中的对象。

你知道吗? 有时你无法取得抽样框。例如,如果你想研究海洋里的鱼,你无法列出每一条鱼的清单!在这种情况下,某些抽样方法就无法派上用场。

快速复习:关键术语

总体 (Population): 整个群体。
抽样单位 (Sampling Unit): 群体中的个别成员。
抽样框 (Sampling Frame): 所有单位的总清单。

2. 简单随机抽样 (Simple Random Sampling, SRS)

这是抽样中的“黄金标准”。在简单随机抽样中,总体的每一位成员都有相等的概率被选中。

如何操作:
1. 为抽样框中的每一项分配一个唯一的编号。
2. 使用随机数生成器(例如你的计算器)或随机数表来选取样本。

类比: 想象把每个人的名字写在纸条上放入大帽子里,摇匀后蒙着眼睛抽签。

优点:
不偏不倚 (Unbiased),因为每个人被选中的机会均等。
• 若总体较小,操作起来非常简单。

缺点:
必须要有完整的抽样框(清单)。
• 如果总体分布在广大的区域,成本会很高且耗时。

3. 系统抽样 (Systematic Sampling)

如果你追求效率和节奏,系统抽样会是你的好帮手。与其为每个人挑选随机号码,不如每隔\( k \)个人挑选一个。

操作过程:
1. 计算间隔 \( k \) :\( k = \frac{\text{总体大小 (N)}}{\text{样本大小 (n)}} \)。
2. 在 1 到 \( k \) 之间选择一个随机起点。
3. 从该点开始,每隔 \( k \) 个人选择一个对象。

例子: 你有 100 位学生,想要抽取 20 人的样本。\( k = 100 / 20 = 5 \)。在 1 到 5 之间选一个随机数(假设选 3)。那么你会选出第 3、8、13、18 位学生,以此类推。

优点:
• 非常简单快捷。
• 样本均匀地分布在整个清单中。

缺点:
• 如果清单中存在隐藏的规律(周期性),且刚好与你的间隔 \( k \) 吻合,样本就会产生偏差。别担心,这种情况在考题中很少见,但了解一下总没错!

4. 分层抽样 (Stratified Sampling)

有时候,你的总体中包含不同的特征群体,例如不同的年龄层或性别。为了确保样本能准确反映这些群体,我们使用分层抽样

策略:
1. 将总体分成不同的组别,称为层 (strata)(例如:中五、中六、中七)。
2. 使用以下公式计算每一层应抽取的数量:
\( \text{样本层人数} = \frac{\text{该层总人数}}{\text{总体总人数}} \times \text{样本总数} \)
3. 在每一层内部使用简单随机抽样来决定具体人选。

优点:
• 这是最具代表性 (representative) 的方法,因为它确保所有群体都按比例纳入。

缺点:
• 你必须事先知道每一层的确切人数。
• 总体必须能明确划分(不能同时属于两个组别!)。

5. 配额抽样 (Quota Sampling)

这跟前面的方法有点不同,它是非随机的 (non-random)。市场调查员在街头进行访问时经常使用这种方式。

如何运作:
访问员会收到指令,例如要访问 20 名男性和 20 名女性。他们会主动找人交谈,直到填满他们的“配额”为止。如果某人拒绝回答,他们就找下一个人。

类比: 就像夜店门口的保安,接到的指令是必须让 50 个穿蓝衬衫和 50 个穿红衬衫的人进场。

优点:
• 不需要抽样框(如果没有名单时非常有用!)。
• 非常便宜且快速。

缺点:
选择偏差 (Selection bias): 访问员可能只挑选那些看起来和蔼可亲或容易交谈的对象。
• 因为不是随机抽样,你无法准确计算“标准误差”或运用大部分的统计检验。

抽样方法总结

重点摘要表:

简单随机: 每个人机会均等。需要清单。
系统抽样: 每隔 \( k \) 个人取样。快速且简单。
分层抽样: 按比例分组。最具代表性。
配额抽样: 非随机。不需要清单。速度快但有偏差。

常见避雷指南

1. 混淆分层抽样与配额抽样: 请记住,分层抽样在分组后是进行随机选取的,而配额抽样则取决于访问员的个人选择

2. 忘记 \( k \) 的公式: 务必记得是用总体人数除以样本大小,千万不要反过来!

3. 抽样框与总体: 在考试中,如果题目问及简单随机抽样 (SRS) 的缺点,一定要检查是否真的存在该总体的清单。如果没有清单,SRS 是根本无法进行的!

继续加油! 你已经掌握了 S3 抽样的基础知识。这些方法是本单元其余内容的基石。深呼吸一下——你绝对没问题的!