【PRML】ベルヌーイ分布の共役事前分布と事後分布(ベータ分布)

2020年6月21日

パターン認識と機械学習、通称PRMLのベルヌーイ分布ベータ分布について、ざっくりとまとめてみました!

前提知識

ベイズ統計学では

\text{事後分布} \propto \text{尤度} \times \text{事前分布}

が成り立ちます。

ベルヌーイ分布とその尤度

ベルヌーイ分布とは

表の出る確率と裏の出る確率が異なる「いびつなコイン」をモデル化したものです。

表(x=1)が出る確率を\muとすると、裏(x=0)が出る確率は1-\muとなります。

確率分布で書くと、

\mathrm{Bern}(x|\mu) = \mu^x (1-\mu)^{1-x}

となります。

尤度を考える

N個のデータセット\mathcal{D} = { x_1, \dots , x_N}があるとき、表の出る確率を\muとおけば、

\text{尤度} = \prod_{n=1}^N \mu^{x_n} (1-\mu)^{1-x_n}

となります。\text{事後分布} \propto \text{尤度} \times \text{事前分布}

は、

\begin{aligned} \text{事後分布} & \propto \text{尤度} & \times \text{事前分布} \\ \text{事後分布} & \propto \prod_{n=1}^N \mu^{x_n} (1-\mu)^{1-x_n} & \times \text{事前分布} \end{aligned}

と書けます。

ベルヌーイ分布の共役事前分布(ベータ分布)

どんな形をしていると便利だろう?

事前分布が、\mu1-\muのかけ算

\mu^{●}(1-\mu)^{▲}

の形をしていれば、事後分布も同じような形になり、便利ですね。

\begin{aligned} \text{事後分布} & \propto \text{尤度} & \times & \text{事前分布} \\ \mu^{○}(1-\mu)^{△} & \propto \prod_{n=1}^N \mu^{x_n} (1-\mu)^{1-x_n}& \times& \mu^{●}(1-\mu)^{▲} \end{aligned}

事前分布、尤度ともに、\mu1-\muのかけ算だけで表されていれば、事後分布も\mu1-\muのかけ算だけで表すことができます。そこで、

\mu^{●}(1-\mu)^{▲}

のような形をしている確率分布(ベータ分布)を考えます。

※このような便利な形の分布を共役事前分布といいます。

ベータ分布の式

ベータ分布は次のような式をしています。

\mathrm{Beta}(\mu | a, b) = \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1}

\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}の部分は、確率分布の"合計"が1になるように「つじつまあわせ」をしているだけです。

別の言い方をすれば、\mu^{a-1} (1-\mu)^{b-1}で確率分布を作るには、\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}のつじつまあわせが必要だということです。

ベータ分布の更新

尤度を書き換える

ところで、尤度\prod_{n=1}^N \mu^{x_n} (1-\mu)^{1-x_n}は、表の出た回数を m 回、裏の出た回数を l 回とすれば、\mu^{m} (1-\mu)^{l}と表すことができます。

\text{尤度} = \prod_{n=1}^N \mu^{x_n} (1-\mu)^{1-x_n} = \mu^{m} (1-\mu)^{l}

すなわち、\text{事後分布} \propto \text{尤度} \times \text{事前分布}は、

\begin{aligned} \text{事後分布} &\propto \text{尤度} \times \text{事前分布} \\ & = \mu^{m} (1-\mu)^{l} \times \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} \\ & = \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} \mu^{a+m-1} (1-\mu)^{b+l-1} \end{aligned}

と書けます。

更新後の分布(事後分布)の式

事後分布は、\mu^{a+m-1} (1-\mu)^{b+l-1}を使って表すことになるので、つじつまあわせは\frac{\Gamma(a + m + b + l)}{\Gamma(a + m)\Gamma(b + l )}にすればいいわけです。

つまり、事後分布は

\text{事後分布} = \frac{\Gamma(a + m + b + l)}{\Gamma(a + m)\Gamma(b + l )} \mu^{a+m-1} (1-\mu)^{b+l-1}

と表すことができます。

まとめ

ベルヌーイ分布の共役事前分布と事後分布

ベルヌーイ分布 \mathrm{Bern}(x|\mu) = \mu^x (1-\mu)^{1-x} の共役事前分布は
ベータ分布

\mathrm{Beta}(\mu | a, b) = \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1}

である。

また、表(確率 \mu, x = 1)がm回、裏(確率 1 – \mu, x = 0)が n 回出たとき、ベータ分布 \mathrm{Beta}(\mu | a, b) を事前分布に使うと、\mu事後分布

\mathrm{Beta}(\mu | a + m, b + l) = \frac{\Gamma(a + m + b + l)}{\Gamma(a + m)\Gamma(b + l )} \mu^{a+m-1} (1-\mu)^{b+l-1}

となる。

事前分布 \mathrm{Beta}(\mu | a, b) → 事後分布 \mathrm{Beta}(\mu | a+m, b+l)に変化していることに注意しよう。

参考文献

Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag, Berlin, Heidelberg.