欢迎来到数据表示的世界!
你有没有想过 Netflix 或 Spotify 这些公司是如何了解你的喜好的?答案就是数据!在 剑桥国际 AS Level 数学 (9709) 课程的这个章节中,我们将学习如何将杂乱无章的数据转化为清晰、美观的图表。这不仅仅是为了画图,而是要让数据“说话”,让我们理解它们背后隐含的意义。如果数字让你感到不知所措,请别担心,我们会循序渐进地学习!
1. 茎叶图 (Stem-and-Leaf Diagrams)
想象一下你有 20 位学生的考试成绩,随意列出来会让人眼花缭乱。茎叶图可以将这些数据整理好,同时保留原始数值。
运作原理:
“茎”代表首位数字,“叶”代表末位数字。
例子: 数字 45,茎为 4,叶为 5。
背对背茎叶图 (Back-to-Back Stem-and-Leaf Diagrams):
当你想要比较两组数据(例如 A 班对比 B 班)时,你可以将“茎”放在中间,一组的“叶”放在左侧,另一组则放在右侧。
关键规则:一定要包含键值 (Key)!没有键值(例如 \(4|5\) 代表 45),你的图表就只是一堆令人困惑的数字。
重点总结:茎叶图的优点在于它显示了每一项数据,并且能轻松找出中位数 (median) 和众数 (mode)。
2. 箱形图 (Box-and-Whisker Plots)
如果你想要一份数据的“摘要”而不是查看每个点,请使用箱形图。该图表将你的数据分为四个等份(四分位数)。
“五数摘要”:
要绘制箱形图,你需要五个数值:
1. 最小值(左侧须线的末端)
2. 下四分位数 (\(Q_1\))(箱子的左侧)
3. 中位数 (\(Q_2\))(箱子内的线)
4. 上四分位数 (\(Q_3\))(箱子的右侧)
5. 最大值(右侧须线的末端)
记忆小撇步:把“箱子”想象成数据的“中间 50%”,而“须线”则显示极值延伸的范围。
3. 直方图 (Histograms)
直方图看起来像条形图,但它们截然不同!在条形图中,高度代表数值;但在直方图中,长方形的面积才代表频率。
重要点:我们使用直方图处理连续数据(如身高、体重或时间),这些数据通常会分组。
频率密度 (Frequency Density) 的秘诀:
如果各组的宽度(组距)不同,你不能直接在纵轴绘制频率。你必须计算频率密度 (FD):
\(FD = \frac{\text{频率}}{\text{组距}}\)
直方图绘制步骤:
1. 检查组别是否有空隙(例如 10-14, 15-19)。若有,请使用组界(9.5-14.5, 14.5-19.5)。
2. 计算每一组的组距。
3. 计算每一组的频率密度。
4. 在 y 轴绘制频率密度,在 x 轴绘制数据区间。
类比:把频率密度想象成“拥挤程度”。如果一个小房间挤了 10 个人,密度很高;但如果 10 个人在一个大会堂里,密度就很低。
4. 累积频率图 (Cumulative Frequency Graphs)
这是一种“累积总数”的图表。曲线通常会向上延伸,并形成一个平滑的“S”型。
如何使用:
1. 找出中位数:在 y 轴找到总频率的一半处,向右移至曲线,再向下对应 x 轴数值。
2. 找出四分位数:\(Q_1\) 在总频率的 25% 处;\(Q_3\) 在 75% 处。
3. 百分位数:你可以用同样的方法找到任何百分位数(例如第 90 百分位数)。
常见错误:务必将累积频率绘制在该组的上组界 (upper class boundary),而不是组中点!
5. 集中趋势度量(“中间”的位置)
这些指标告诉我们数据的“中心”在哪里。
- 平均值 (\(\bar{x}\)):所有数据加总后除以个数。\(\bar{x} = \frac{\sum x}{n}\)
- 中位数:将数据排序后处于中间的值。
- 众数:出现频率最高的值。
你知道吗?平均值容易受“离群值 (outliers)”影响。如果比尔盖茨走进一间教室,房间内的“平均”财富会飙升,但“中位数”财富几乎不变!
6. 离散程度度量(“分散”的程度)
只知道中间值是不够的,我们还需要知道数据的分散程度。
- 全距 (Range):最大值减最小值。(简单,但易受离群值影响)。
- 四分位距 (IQR):\(Q_3 - Q_1\)。这代表中间 50% 数据的分散程度,能排除极值的干扰。
- 标准差 (\(\sigma\)):衡量离散程度的“黄金标准”。它代表每个数据点与平均值的平均距离。
数学部分(别慌!):
标准差公式:
\(\sigma = \sqrt{\frac{\sum x^2}{n} - (\frac{\sum x}{n})^2}\)
或者使用平均值:\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)
复习小方块:
- 标准差大 = 数据非常分散。
- 标准差小 = 数据很集中,且接近平均值。
7. 数据编码 (Coded Data)
有时候数字很大(例如 1001, 1005, 1008)。为了简化,我们通过减去一个常数来“编码”(例如减去 1000,变成 1, 5, 8)。
技巧:
1. 如果你对每个数值加/减一个数:平均值会改变,但标准差保持不变!
类比:如果全班同学都站上一个 10 厘米的箱子,平均身高会增加 10 厘米,但最高和最矮同学之间的身高差依然相同。
2. 如果你对每个数值乘/除一个数:平均值和标准差都会同时乘/除该数。
关键总结:编码只是一种简化计算的捷径,它不会改变数据分布的“形状”。
给你的成功秘诀
- 读准刻度:在直方图和累积频率图中,考官很喜欢设计复杂的刻度。务必检查一个小格代表多少!
- 标注清楚:坐标轴、单位和键值都是很容易拿到的分数,千万别丢失。
- 分组数据:计算分组数据的平均值时,请使用每一组的组中点 (midpoint) 作为 \(x\) 值。
你可以做到的!数据表示的核心就是找规律。多练习绘图,你很快就能对数据分析驾轻就熟。