Chapter 5 在介紹 Ratio 形式的機率表示法,並轉換成 Bayes’s theorem 的形式,並以 Oliver’s Blood 為範例展示不需計算 Posterior 也能從 Likelihood Ratio 得出結果。此外也介紹了 Mixture Distribution 以及如何使用 Python 計算該分佈的方式。

ThinkBayes Note

Chapter 5 - Odds and Addends

Odds in favor and odds against

機率表示法除了一般 [0..1]百分比外,還有另一種 odds 表示法。如有人說 “the odds are three to one",這種稱呼法被稱為 odds in favor,代表發生機率不發生機率的比例 (Ratio)。假如玩一個遊戲有 80% 的勝率,代表玩五次可能贏四次輸一次,因此可說 “the odds are four to one”,並寫成 “4:1” 這樣的比例表示式,也可用 0.8/0.2 = 4 來代表 odds。

相對於 odds in favor,還有另一種表示法稱為 odds against 的表示法,在機率較小時常用。該方式就是 odds in favor 的相反,先寫不發生的機率再寫發生的機率。以前面 80% 勝率為例, odds against 可寫成 “1:4” 的格式。

Odds form of bayes’s theorem

假設在 Bayes’s Theorem 中,Hypothesis 只有 A 與 B 兩種,則 Posterior Probability 的比例為

$$P(A \mid D) : P(B \mid D)$$

Odds 形式為

$$\frac{P(A \mid D)}{P(B \mid D)}=\frac{P(A)P(D \mid A)}{P(B)P(D \mid B)}$$

若 A, B 為互斥事件,則可知

$$P(B) = 1 - P(A)$$

。設

$$o(A)$$

為 A 的 odds in favor 的 odds

$$o(A) = \frac{P(A)}{P(B)}$$

$$o(A \mid D) = o(A)\frac{P(D \mid A)}{P(D \mid B)}$$

可知 Posterior 的 odds 為 Prior 的 odds 乘上 Likelihood Ratio,上式也被是 Bayes’s theorem 的 odds form。該特性可以幫助我們更快的計算出結果。以之前 Cookie Problem 為例,因 Likelihood Ratio 為 (3/4):(1/2) = 3/2,因此 Posterior odds 為 3:2,機率為 3/(3+2) = 0.6。

Olivers’ blood

假設在命案現場有兩灘血跡,一灘為 O 型血而另一灘為 AB 型。在統計結果中, 0 型血人數約佔總人口 60%,而 AB 型則是 1%。假設嫌疑犯 Oliver 被檢驗出為 O 型血。則資料是否足夠證明為 Oliver 為其中一灘血跡的遺留人。

由先前的公式移項後可得

$$\frac{o(A|D)}{o(A)} = \frac{P(D|A)}{P(D|B)}$$

左項為 Posterior 與 Prior 的 odds,右項為 Likelihood Ratio,也被稱為 Bayes Factor。假設 Bayes Factor 大於 1,可知資料 D 更可能出現在 A 事件中。現考慮 Oliver 是否到達現場的情況

  • Oliver 有到現場,則兩灘血之中的 O 型必定由 Oliver 所留下,而另一灘 AB 型血則由另一人留下。而由先前的統計可知留下 AB 型血的機率為 1%,因此在 Oliver 有在現場時出現該狀況的機率為 1%。

  • Oliver 沒有到達現場,則會有另外兩人在現場。而兩灘血中一個為 O 型而另一為 AB 型,因此發生機率為第一人為 O 型且第二人為 AB 型的機率,與第一人為 AB 而第二人為 O 的機率的加總,即

$$0.6*0.1 + 0.1*0.6 = 1.2\%$$

若以 E 代表 Oliver 有到現場而 E’ 為沒有到現場的機率,從前面的 Bayes Factor 推斷可知 Likelihodd Ratio 為

$$P(D \mid E) = 0.01, P(D \mid E') = 0.012$$

Likelihood Ratio 為

$$\frac{P(D \mid E)}{P(D \mid E')} = \frac{0.01}{0.012} < 1$$

就算不計算 Posterior 

$$P(D \mid E)$$

的數值,也可從 Likelihood Ratio 得知 Oliver 沒有到達現場出現的該血跡狀況的機率較高。

結果似乎反直覺但並沒有錯。

Mixtures - Addends and Maxima

之前的機率很單純是由單一模型構成,但實際的機率模型可能是由多種機率分佈混合 (Mixtures) 合成,因此作者在城市中給出了另外兩種計算方式 - AddMaxima,並以遊戲 Dungeons & Dragons 擲骰子建立角色初始數值當範例。詳細內容可自行參照該書內容。

Reference