ThinkBayes 心得筆記 - Chapter 7

Chapter 7 介紹了如何使用 Bayes 預測比賽結果。作者以 2010-2011 NHL 的冠軍賽為範例,以 Poisson 分佈來計算 Boston Bruins 的比賽勝率,並進一步預測系列賽結果。

ThinkBayes Note

Chapter 7 - Prediction

The Boston Bruins problem

在 2010-11 年的 National Hockey League (NHL,國家冰球聯盟) 總決賽上,Boston Bruins (波士頓棕熊隊) 與 Vancouver Canucks (溫哥華加人隊)的比賽,Boston 先輸兩場 (0-1, 2-3) 後再贏兩場 (8-1, 4-0)。在目前狀況下,Boston 贏得一場的機率以及兩對贏得總冠軍的機率為何?

作者對上述該問題設定了一些假設

  1. 每場比賽的得分狀況為 Poisson Process
  2. 每場比賽平均得分為 λ

因此下列步驟計算 Bruins 的獲勝機率

  1. 統計先前所有比賽的平均得分與標準差以建立 Gaussian distribution 作為 Prior。

  2. 使用前四場比賽的得分得出兩隊的 λ。

  3. 使用 λ 的 Posterior 分佈去計算兩隊的得分分佈,分數差異分佈以及勝率分佈。

  4. 計算每個隊伍在系列賽獲勝的機率。

Poisson process

在統計上,Poisson Distribution 表示單位時間內隨機事件發生率的離散機率分佈。

\[P(X=k;\lambda)=e^{-\lambda}\frac{\lambda^k}{k!}\]

其中 λ 為單位時間(或範圍)內事件的平均發生次數k 為事件真正的發生次數。如 P(X=4;λ) 代表在單位時間內事件發生 4 次的機率,而 Poisson process 則代表一系列的 Poisson distribution 過程。因 Poisson 分佈很適合描述單位時間內的隨機事件發生機率,如公車站等車人數變化,顧客到達店鋪數量等(當然現實情況可能會由集中特性而不是任何時間都是相同機率),在此可用來表示冰球比賽得分的 的機率分佈。

球賽結果符合 Poisson proceess 的 model 已有相關研究,如此篇文章對足球比賽結果的研究也支持相同假設。

Estimation

對於 Prior distribution,作者從 NHL 官方網站上獲得所有隊伍在賽季中每場比賽的得分,得出平均得分為 2.8 而標準差為 0.3,可用此兩數值建立 Gaussian distribution 作為 Prior

之後假設 Poisson distribution 為比賽得分的 Likelihood function,其中平均得分 λ 為 Hypothesis 而冠軍賽前四場得分為 Data,其中 Bruins = [0, 2, 8, 4] 而 Canucks = [1, 3, 1, 0],則計算出來的 Posterior distribution 為即兩隊在總決賽的平均得分機率分佈。如下圖所示

posterior
Bruins 與 Canucks 兩隊的 λ 的 Posterior

其中兩隊最有可能的得分數值為

\[\lambda_{canucks}=2.6, \lambda_{bruins}=2.9\]

The distribution of goals

得出兩隊的平均得分機率分佈後,接下來使用 Posterior 的平均得分機率所形成機率分佈,來建立 Mixture of Poisson 並得出得分(Goals)的 Poisson 機率分佈。

\[Goals = Normalize(\sum_{\lambda}\sum_{k}P(\lambda)Poisson(k;\lambda))\]

其中 \(k = [1, 2, \dots, 10]\)\(Normalize()\) 為對結果機率分佈做正規化(使其加總為 1)。兩隊計算結果如下

goals
兩隊下一場比賽的得分機率分佈

k 的 UpperBound 設為 10,因每場比賽得超過 10 分的機率已經非常低了。

The probability of winning

得出兩隊得分的機率分佈後,接著可計算 Bruins 的獲勝機率。方法為將 Bruins 與 Canucks 的得分機率分佈相減得到差異結果,並計算差異為正(獲勝),負(失敗),零(平手)時的機率分佈

\[\text{Diff}_{Bruins} = Goal_{Bruins} - Goal_{Canucks}\]

後依照 Bruins 在該項目對應的機率加總後,可得到 Bruins 獲勝(Win),失敗(Loss)與平手(Tie)的機率為

\[P_{win} = 46\%, P_{lose}=37\%, P_{tie}=17\%\]

若兩方面平手則會進入驟死賽規則(先得分的隊伍獲勝),此情況不適用之前的 Poisson 分佈情形,需另外處理。

Sudden Death

因平手時會進入延長賽且先進球的隊伍會直接獲勝,因此需要計算兩隊先得分的機率。在此作者假設進球時間間隔分佈為 Exponential distribution,可計算出 Bruins 再延長賽先進球獲勝的機率為 52%,因此 Bruins 的整體勝率為

\[P_{win\_overall} = P_{win} + P_{tie}*P_{win\_in\_overtime}\]

可得出下一場比賽的勝率為 55%。

Win the Series

在前面以得出下一場比賽的勝率,而整個系列賽要獲勝必須連贏兩場,或是一勝一敗後贏得第三場。因此可計算連勝兩場的機率

\[P_{series}=P_{win} * P_{win}\]

並加上前兩場平手並在第三場獲勝的狀況

\[P_{series}+=2*p_{win}*(1-P_{win})*P_{win}\]

可算出 Bruins 贏的系列賽的機率為 57%。

Boston Bruins 在2011年也獲得了系列賽勝利。

Reference