欢迎来到相关系数与回归分析!

在本章中,我们将探讨两组不同的数据之间可能存在怎样的关联。例如,花更多时间温习是否会带来更高的考试成绩?或者室外温度是否会影响雪糕的销量?相关系数 (Correlation) 帮助我们衡量这些关系的强弱,而回归分析 (Regression) 则让我们在已知一个数值的情况下预测另一个数值。别担心这些术语听起来很深奥——读完这些笔记后,你就能像专家一样运用自如了!


1. 散点图与变量

在进行任何数学运算之前,我们通常会先把数据画成图表,这称为散点图 (Scatter Diagram)。它能帮助我们观察数据之间是否有规律。

解释变量与响应变量

要绘制散点图,我们需要决定哪个变量放在哪个轴上:

  • 解释变量 (Explanatory Variable)(自变量 Independent): 这是“解释”变化的变量。我们将其绘制在 \(x\) 轴上。你可以把它想象成“输入 (input)”。
  • 响应变量 (Response Variable)(因变量 Dependent): 这是“回应”变化的变量。我们将其绘制在 \(y\) 轴上。你可以把它想象成“输出 (output)”或结果。

例子:如果你正在调查“日照时数”如何影响“雪糕销量”,那么日照时数就是解释变量 (\(x\)),而销量就是响应变量 (\(y\))。

快速复习:记住这句口诀:“\(x\) 解释 \(y\)”,这样就能轻松记住变量该放在哪里了!


2. 相关系数:衡量关系

相关系数告诉我们两个变量之间线性关系的这两件事:方向 (direction)强度 (strength)

积动差相关系数 (PMCC)

PMCC 是一个数值,用字母 \(r\) 表示,它能精确告诉我们相关性有多强。考试中不需要你推导公式,但你需要知道如何解读结果。

  • \(r = +1\): 完全正相关(所有点都在一条向上的直线上)。
  • \(r = -1\): 完全负相关(所有点都在一条向下的直线上)。
  • \(r = 0\): 完全没有线性相关(点看起来像一团随机的云)。

你知道吗? PMCC 只衡量线性(直线)关系。如果你的数据呈现“U”型曲线,即便数据之间有明显的规律,PMCC 也可能接近 0!

解读强度

在考试中,你经常需要描述相关性。请使用这些“强度”词汇:

  • 0.7 到 1.0: 强正相关。
  • 0.3 到 0.7: 中等/弱正相关。
  • -0.3 到 -0.7: 中等/弱负相关。
  • -0.7 到 -1.0: 强负相关。

避免常见错误: 相关性不等于因果关系 (Correlation is NOT Causation)! 仅仅因为两件事相关,并不代表其中一件事导致了另一件事。例如,雪糕销量与鲨鱼袭击事件是相关的(因为两者在夏天都会增加),但吃雪糕并不会导致鲨鱼袭击!


3. 线性回归:最佳拟合线

如果存在线性相关,我们可以画出一条回归线 (Regression Line)。在统计学 1 (Statistics 1) 中,我们使用最小二乘回归线 (Least Squares Regression Line)。这条线能使所有数据点与线之间的总距离达到最小。

回归方程

方程写作:\(y = a + bx\)

  • \(b\): 斜率 (gradient)(表示 \(x\) 每增加 1 个单位时,\(y\) 的变化量)。
  • \(a\): 截距 (intercept)(线与 \(y\) 轴的交点)。

如何计算 \(a\) 和 \(b\)

你会用到公式手册中提供的总结统计量,如 \(S_{xx}\) 和 \(S_{xy}\)。计算步骤通常如下:

  1. 计算斜率:\(b = \frac{S_{xy}}{S_{xx}}\)
  2. 计算截距:\(a = \bar{y} - b\bar{x}\)(其中 \(\bar{x}\) 和 \(\bar{y}\) 分别是数据的平均值)。

关键点:回归线一定会通过平均点 \((\bar{x}, \bar{y})\)。这是一个检查你在散点图上画的线是否正确的好方法!


4. 使用回归线进行预测

得出方程 \(y = a + bx\) 的主要目的,是为了让我们在已知 \(x\) 的情况下预测 \(y\) 的值。

内插法与外推法

这是非常热门的考试题目!你需要知道你的预测是否可靠。

  • 内插法 (Interpolation): 在已有数据的范围之内进行预测。这通常是可靠的
  • 外推法 (Extrapolation): 在原始数据范围之外进行预测(例如,如果你的数据温度介于 10°C 到 20°C 之间,预测 40°C 的情况就是外推)。这通常是不可靠的,因为我们不知道趋势是否会持续。

比喻:想象你正在观察一株幼苗,它一周内每天长高 1 厘米。内插法是猜它在第 4 天有多高(安全)。外推法是猜它在 10 年后有多高(危险——它最终会停止生长!)。


5. 编码(变量转换)

有时候,数据会经过“编码”处理(例如减去一个常数或除以一个数)以方便运算。你需要知道这对结果有什么影响。

  • PMCC (\(r\)): 编码不会改变 PMCC。如果关系很强,无论单位如何,它依然很强!
  • 回归线: 编码确实会改变方程。如果你使用编码后的数据计算回归线,你必须将编码公式带回,才能得到原变量的最终关系。

总结摘要

1. 解释变量 (\(x\)) 是输入;响应变量 (\(y\)) 是输出。
2. PMCC (\(r\)) 衡量从 -1 到 +1 的线性关系强度。
3. 相关性不能证明一件事导致另一件事。
4. 回归线 \(y = a + bx\) 始终通过平均点 \((\bar{x}, \bar{y})\)。
5. 避免外推法 (Extrapolation)——在数据范围之外进行预测是危险且不可靠的!

如果 \(S_{xx}\) 和 \(S_{xy}\) 的计算看起来很吓人,别担心。大多数情况下,考试会提供这些数值,你只需要把它们代入 \(a\) 和 \(b\) 的公式即可!