歡迎來到連續隨機變數的世界!
你好!在統計學的學習旅程中,你已經認識了離散隨機變數(Discrete Random Variables)(我們用來數數的,例如擲硬幣時出現正面的次數)。現在,我們要進入一個更平滑的世界:連續隨機變數(Continuous Random Variables)。
你可以這樣理解兩者的區別:離散變數就像樓梯,你不是站在這一級就是站在下一級;而連續變數就像斜坡,你可以站在任何高度!在本章中,我們將學習如何計算測量數據的概率,例如時間、重量或距離。如果這些數學看起來一開始有點「微積分重」,別擔心;我們會把它拆解,一步一步來學習。
1. 什麼是連續隨機變數 (CRV)?
連續隨機變數是指可以在特定範圍內取任何數值的變數。由於可能的數值有無限多個(例如,你的身高可能是 175cm、175.2cm,或者 175.2341cm……),所以變數取剛好某個特定值的概率實際上是零!
類比:想像你向 0 到 1 之間的數線上扔一支極細的飛鏢。你擊中剛好 0.5000000...(有無窮多個零)的機率是多少?這是不可能的!相反,我們會問:「飛鏢落在 0.4 和 0.6 之間的機率是多少?」
關鍵特性:
• 它代表測量所得的數據。
• 我們計算的是一個範圍(range)的概率,而不是單一點的概率。
• 對於任何特定值 \(x\),\(P(X = x) = 0\)。
2. 概率密度函數 (PDF)
在離散數學中,我們使用概率分佈表。對於連續變數,我們使用一個稱為概率密度函數(Probability Density Function)的公式,記作 \(f(x)\)。
在圖表上,\(f(x)\) 會形成一條曲線。曲線下的面積就代表概率。
\(f(x)\) 的兩大黃金法則:
1. 函數值永不為負:對於所有 \(x\),\(f(x) \geq 0\)。(概率不可能為負!)
2. 曲線下的總面積必須等於 1:\(\int_{-\infty}^{\infty} f(x) dx = 1\)。
逐步教學:尋找概率
要找出 \(X\) 落在 \(a\) 和 \(b\) 之間的概率,你只需利用積分計算該兩點之間曲線下的面積:
\(P(a < X < b) = \int_{a}^{b} f(x) dx\)
小貼士:因為 \(P(X=x)=0\),所以使用 \(<\) 還是 \(\leq\) 其實沒有差別。在這裡它們的意思是一樣的!
重點總結:概率 = 面積。要找到它,只需對你想要的範圍內的 PDF 進行積分。
3. 累積分配函數 (CDF)
累積分配函數(Cumulative Distribution Function),記作 \(F(x)\),就像概率的「累計總和」。它告訴你變數小於或等於某個特定值的概率。
\(F(x_0) = P(X \leq x_0) = \int_{-\infty}^{x_0} f(x) dx\)
如何在 \(f(x)\) 和 \(F(x)\) 之間轉換:
- 從 PDF 到 CDF:對 \(f(x)\) 進行積分(Integrate)。
- 從 CDF 到 PDF:對 \(F(x)\) 進行微分(Differentiate)。
記憶法:將 \(F\) 想成「到目前為止的總量(Full amount)」(對應積分),而將 \(f\) 想成單一點上的「分數/細分(fraction)」(對應微分)。
快速複習:
• \(F(\text{下限}) = 0\)
• \(F(\text{上限}) = 1\)
• \(P(a < X < b) = F(b) - F(a)\)
4. 平均值、變異數與標準差
就像離散變數一樣,我們想知道平均值(Mean)和離散程度(Variance)。在 CRV 中,我們使用積分而不是求和符號 \(\Sigma\)。
平均值 (期望值)
平均值 \(E(X)\)(也稱為 \(\mu\))是分佈的平衡點。
\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
變異數
變異數 \(Var(X)\)(也稱為 \(\sigma^2\))衡量數據的分散程度。
\(Var(X) = E(X^2) - [E(X)]^2\)
要找到 \(E(X^2)\),請使用:\(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)
標準差
\(\sigma = \sqrt{Var(X)}\)
避免常見錯誤:計算變異數時,千萬別忘了減去平均值的平方!一個非常常見的錯誤是算出了 \(E(X^2)\) 就停下來了。
5. 眾數、中位數與四分位數
這些是尋找數據「中心」或特定位置的不同方法。
眾數 (Mode):這是 \(f(x)\) 達到最大值時的 \(x\) 值。
如何找到它:觀察圖像,或使用微分來找出 \(f(x)\) 的最高點。
中位數 (Median, \(m\)):這是將面積精確地分為兩半的值(50% 在下方,50% 在上方)。
如何找到它:解方程 \(F(m) = 0.5\)。
四分位數:
• 下四分位數 (\(Q_1\)):解 \(F(Q_1) = 0.25\)
• 上四分位數 (\(Q_3\)):解 \(F(Q_3) = 0.75\)
• 四分位距 (IQR): \(Q_3 - Q_1\)
重點總結:對於中位數和四分位數,請務必使用 CDF (\(F(x)\)),而不是 PDF。
6. 連續均勻分佈 (Continuous Uniform Distribution)
有時也稱為矩形分佈(Rectangular Distribution),這是最簡單的 CRV。它意味著概率在 \(a\) 到 \(b\) 的整個範圍內是恆定(相同)的。
如果 \(X \sim U(a, b)\):
• PDF:對於 \(a \leq x \leq b\),\(f(x) = \frac{1}{b - a}\)。
• 平均值 \(E(X)\): \(\frac{a + b}{2}\)(正好在中間!)
• 變異數 \(Var(X)\): \(\frac{(b - a)^2}{12}\)
你知道嗎?變異數公式中的 12 是一個數學常數,無論範圍有多寬,它都會出現在均勻分佈的公式中!
摘要清單
在開始做考試題目之前,請確保你能:
1. 證明一個函數是有效的 PDF(面積 = 1)。
2. 對 PDF 進行積分以求出 CDF。
3. 使用 CDF 求出中位數或四分位數。
4. 使用積分計算 \(E(X)\) 和 \(Var(X)\)。
5. 識別並使用均勻分佈的快捷公式。
如果起初覺得這些很棘手,請別擔心!積分需要練習,但一旦你意識到你只是在找曲線下的面積,一切就會豁然開朗。你可以做到的!