欢迎来到数据表示的世界!

你有没有想过 Netflix 或 Spotify 这些公司是如何了解你的喜好的?答案就是数据!在 剑桥国际 AS Level 数学 (9709) 课程的这个章节中,我们将学习如何将杂乱无章的数据转化为清晰、美观的图表。这不仅仅是为了画图,而是要让数据“说话”,让我们理解它们背后隐含的意义。如果数字让你感到不知所措,请别担心,我们会循序渐进地学习!

1. 茎叶图 (Stem-and-Leaf Diagrams)

想象一下你有 20 位学生的考试成绩,随意列出来会让人眼花缭乱。茎叶图可以将这些数据整理好,同时保留原始数值。

运作原理:

“茎”代表首位数字,“叶”代表末位数字。
例子: 数字 45,茎为 4,叶为 5。

背对背茎叶图 (Back-to-Back Stem-and-Leaf Diagrams):

当你想要比较两组数据(例如 A 班对比 B 班)时,你可以将“茎”放在中间,一组的“叶”放在左侧,另一组则放在右侧。

关键规则:一定要包含键值 (Key)!没有键值(例如 \(4|5\) 代表 45),你的图表就只是一堆令人困惑的数字。

重点总结:茎叶图的优点在于它显示了每一项数据,并且能轻松找出中位数 (median)众数 (mode)

2. 箱形图 (Box-and-Whisker Plots)

如果你想要一份数据的“摘要”而不是查看每个点,请使用箱形图。该图表将你的数据分为四个等份(四分位数)。

“五数摘要”:

要绘制箱形图,你需要五个数值:
1. 最小值(左侧须线的末端)
2. 下四分位数 (\(Q_1\))(箱子的左侧)
3. 中位数 (\(Q_2\))(箱子内的线)
4. 上四分位数 (\(Q_3\))(箱子的右侧)
5. 最大值(右侧须线的末端)

记忆小撇步:把“箱子”想象成数据的“中间 50%”,而“须线”则显示极值延伸的范围。

3. 直方图 (Histograms)

直方图看起来像条形图,但它们截然不同!在条形图中,高度代表数值;但在直方图中,长方形的面积才代表频率。

重要点:我们使用直方图处理连续数据(如身高、体重或时间),这些数据通常会分组。

频率密度 (Frequency Density) 的秘诀:

如果各组的宽度(组距)不同,你不能直接在纵轴绘制频率。你必须计算频率密度 (FD)
\(FD = \frac{\text{频率}}{\text{组距}}\)

直方图绘制步骤:
1. 检查组别是否有空隙(例如 10-14, 15-19)。若有,请使用组界(9.5-14.5, 14.5-19.5)。
2. 计算每一组的组距
3. 计算每一组的频率密度
4. 在 y 轴绘制频率密度,在 x 轴绘制数据区间。

类比:把频率密度想象成“拥挤程度”。如果一个小房间挤了 10 个人,密度很高;但如果 10 个人在一个大会堂里,密度就很低。

4. 累积频率图 (Cumulative Frequency Graphs)

这是一种“累积总数”的图表。曲线通常会向上延伸,并形成一个平滑的“S”型。

如何使用:

1. 找出中位数:在 y 轴找到总频率的一半处,向右移至曲线,再向下对应 x 轴数值。
2. 找出四分位数:\(Q_1\) 在总频率的 25% 处;\(Q_3\) 在 75% 处。
3. 百分位数:你可以用同样的方法找到任何百分位数(例如第 90 百分位数)。

常见错误:务必将累积频率绘制在该组的上组界 (upper class boundary),而不是组中点!

5. 集中趋势度量(“中间”的位置)

这些指标告诉我们数据的“中心”在哪里。

  • 平均值 (\(\bar{x}\)):所有数据加总后除以个数。\(\bar{x} = \frac{\sum x}{n}\)
  • 中位数:将数据排序后处于中间的值。
  • 众数:出现频率最高的值。

你知道吗?平均值容易受“离群值 (outliers)”影响。如果比尔盖茨走进一间教室,房间内的“平均”财富会飙升,但“中位数”财富几乎不变!

6. 离散程度度量(“分散”的程度)

只知道中间值是不够的,我们还需要知道数据的分散程度。

  • 全距 (Range):最大值减最小值。(简单,但易受离群值影响)。
  • 四分位距 (IQR):\(Q_3 - Q_1\)。这代表中间 50% 数据的分散程度,能排除极值的干扰。
  • 标准差 (\(\sigma\)):衡量离散程度的“黄金标准”。它代表每个数据点与平均值的平均距离。

数学部分(别慌!):

标准差公式:
\(\sigma = \sqrt{\frac{\sum x^2}{n} - (\frac{\sum x}{n})^2}\)
或者使用平均值:\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

复习小方块:
- 标准差大 = 数据非常分散。
- 标准差小 = 数据很集中,且接近平均值。

7. 数据编码 (Coded Data)

有时候数字很大(例如 1001, 1005, 1008)。为了简化,我们通过减去一个常数来“编码”(例如减去 1000,变成 1, 5, 8)。

技巧:

1. 如果你对每个数值加/减一个数:平均值会改变,但标准差保持不变!
类比:如果全班同学都站上一个 10 厘米的箱子,平均身高会增加 10 厘米,但最高和最矮同学之间的身高差依然相同。
2. 如果你对每个数值乘/除一个数:平均值标准差都会同时乘/除该数。

关键总结:编码只是一种简化计算的捷径,它不会改变数据分布的“形状”。

给你的成功秘诀

- 读准刻度:在直方图和累积频率图中,考官很喜欢设计复杂的刻度。务必检查一个小格代表多少!
- 标注清楚:坐标轴、单位和键值都是很容易拿到的分数,千万别丢失。
- 分组数据:计算分组数据的平均值时,请使用每一组的组中点 (midpoint) 作为 \(x\) 值。

你可以做到的!数据表示的核心就是找规律。多练习绘图,你很快就能对数据分析驾轻就熟。