本筆記主要紀錄閱讀 ThinkBayes 一書內各章節的心得筆記,提供往後參考與複習。

Bayes's Theorem

Conditional probability (條件機率)

假定有兩個事件 A 與 B,給定一機率函數 \(P(A)\) 代表 A 事件的發生機率,而 \(P(A \mid B)\) 代表 B 事件發生後 A 事件的發生機率。此外 \(P(A \cap B)\) 代表 A 與 B 事件同時發生的機率,則當事件 A 與 B 是相互獨立時,\(P(A \cap B) = P(A)P(B)\)

Bayes's theorem

\(P(A \cap B) = P(B \cap A)\),所以可知 \(P(A)P(A \mid B) = P(B)P(B \mid A)\),因此

\[P(A \mid B) = \frac{P(A)P(B \mid A)}{P(B)}\]

上式可進一步一般化,也就是從觀測到的 Data $D$ 中,求出 Hypothesis $H$ 的機率。上面公式可轉化為

\[P(H \mid D) = \frac{P(H)P(D \mid H)}{P(D)}\]

該公式為 Bayes equation,其中

  • \(P(H)\): 觀察到資料之前 Hypothesis \(H\) 的機率,稱為 Prior (先驗機率)。

  • \(P(D \mid H)\): 在 Hypothesis \(H\) 下,Data \(D\) 的分佈機率,稱為 Likelihood

  • \(P(D)\) : 在所有 Hypothesis 下,Data \(D\) 出現的機率,稱為 Normalizing Constant

  • \(P(H \mid D)\): 觀察到資料 \(D\) 之後的出現 Hypothesis \(H\) 的機率,稱為 Posterior (後驗機率)。

Steps

當使用 Bayes's theorem 來解決問題時,可分為幾個主要步驟

  • 建立 Prior \(P(H)\) 的機率分佈。可假設為 uniform(即每個事件機率都相同)或依照歷史資料建立機率分佈。

  • 建立 Likelihood \(P(D \mid H)\) 的機率分佈。可依照資料或問題特性來建立 Likelihood 機率函數。

  • 計算 P(D) 數值。但因 \(P(D)\) 數值是常數,因此經常只計算 \(P(H)P(D \mid H)\) 的部分在將所有數值正規劃。

  • 使用 Bayes's equation 計算 Posterior \(P(H \mid D)\) 的數值。

現有兩袋餅乾分別為 Bowl 1 ( \(B_1\)) 與 Bowl 2 (\(B_2\)) ,口味有 vanilla 與 chocolate 兩種。Bowl 1 有 30 個 vanilla ( V ) 與 10 個 chocolate ( C ),而 Bow 2 則有 20 個 vanilla 與 20 個 chocolate。現在拿出一顆 vanilla 口味的餅乾,則最有可能是從哪一個袋子拿出來的?

根據 Bayes 思考方式,問題可轉化為當觀察到 vaniila 口味的 cookie 時,拿出的袋子為 Bowl 1 或 Bowl 2 的機率何者較大。也就是比較 \(P(H = B_1 \mid D = vaniila)\)\(P(H=B_2 \mid D = vanilla)\) 的數值大小。

Prior

先設定 Hypothesis 為拿出 Cookie 的袋子,包含 \(B_1\)\(B_2\) 兩者。我們假定 Hypothesis 的分布為 uniform distribution,則 Prior 為

\[P(B_1) = P(B_2) = 0.5\]

Likelihood

因問題敘述中已經告知每個袋子中包含的 Cookie 種類,即 Likelihood \(P(D \mid H)\) 的機率分布為

\[P(V \mid B_1)=3/4, P(C \mid B_1)=1/4\]

\[P(V \mid B_2)=1/2, P(C \mid B_2)=1/2\]

Normalizing Constant

正規化常數 $P(V) 可計算如下

\[P(V) = P(B_1)P(V \mid B_1) + P(B_2)P(V \mid B_2) = (1/2)(3/4)+(1/2)(1/2)=5/8\]

因 Prior * Likelihood 都會除以相同的 Normalizing Constant,因此時常可忽略不計算。

Posterior

當 Prior 與 Likelihood 都建立完成後,即可計算 Posterior \(P(H \mid D)\)

\[P(B_1 \mid V) = \frac{P(V)P(V \mid B_1)}{P(V)} = \frac{(1/2)(3/4)}{5/8} = \frac{3}{5}\]

\[P(B_2 \mid V) = \frac{P(V)P(V \mid B_2)}{P(V)} = \frac{(1/2)(1/2)}{5/8} = \frac{2}{5}\]

依照 Posterir 結果,我們可知 \(P(B_1 \mid V) > P(B_2 \mid V)\),因此當觀察到 Cookie 為 Vanilla 時,Bowl 1 為最有可能拿出的袋子。

之後作者以 M&M problem 與 Monty Hall problem (三門問題) 展示如何建模並求出結果,以及與為何 Bayes's theorem 有時會違反直覺的情況。詳細可自行參考 ThinkBayes 一書。

Reference