【徹底解説】ベイズ推定とは

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

ベイズ推定

ベイズ推定とは,分布の形状を定めるパラメータに確率的な揺らぎを仮定する推定方法である。点推定ではパラメータを一つの値に定めていたのに対し,ベイズ推定ではパラメータ自身に分布を仮定する。点推定では真の分布が多峰性の場合に片方ののピークの情報を完全に捨て去り過学習する恐れがあるのに対し,ベイズ推定ではある程度柔軟性を担保したうえでパラメータの分布を推定することが可能になる。

ベイズを説明するために用いられる王道の例は,コイントスです。私たちの目標は,コイントスを行った結果からコインの形状を推定することです。数学的に言えば,$n$回の試行のうち$k$回表が出たという結果からコインの形状を定める$\mu$を推定するという話です。ここで,コインの形状$\mu$というのはコイントス$1$回の試行を決める値,すなわちベルヌーイ分布のパラメータです。例えば,$\mu=0.7$であれば,表の出る確率が$0.7$であるような形状のコインを表しています。このパラメータ$\mu$は,複数回の試行が独立であると仮定した場合には,二項分布のパラメータと等価になります。

パラメータ推定の最も基本的な手法は,最尤推定です。これは「$n$回の試行のうち$k$回表が出た」という結果のみに着目して,パラメータ$\mu$を1つの値に決定する手法です。具体的には,コイントスを複数回行った結果を二項分布で表し,二項分布を定めるパラメータを変数とみて偏微分を用いて推定します。

さて,実際に偏微分を用いてコインの形状$\mu$を推定してみましょう。まず,$n$回の試行のうち$k$回表が出るようなコインの形状を$\mu$とおけば,二項分布は以下のように表されます。

\begin{align}
{}_n C_{k}\;\mu^{k} (1-\mu)^{n-k} \label{尤度関数}
\end{align}

式($\ref{尤度関数}$)は尤度関数と呼ばれます。最尤推定では,二項分布の尤度関数が最大となるようにパラメータ$\mu$を求めます。尤度関数($\ref{尤度関数}$)を$\mu$を変数とする関数$f(\mu)$とし,$f^{\prime}(\mu)=0$を満たすような$\mu$が$f(\mu)$を最大にする$\mu$の候補ですから,

\begin{align}
f'(\mu) &= \frac{d}{d\mu}\left\{\frac{n!}{k!(n-k)!}\mu^{k} (1-\mu)^{n-k} \right\}\\[0.7em]
&= \frac{n!}{k!(n-k)!}\left\{k\mu^{k-1}(1-\mu)^{n-k} - \mu^k (n-k)(1-\mu)^{n-k-1} \right\} \\[0.7em]
&= \frac{n!}{k!(n-k)!}\mu^{k-1}(1-\mu)^{n-k-1}\left\{k(1-\mu) - \mu (n-k)\right\} \\[0.7em]
&= 0
\end{align}

を満たす$\mu$を調べればよいです。実際に計算してみると,以下が得られます。

\begin{align}
\mu &= \frac{k}{n}
\end{align}

この結果は何を意味しているのでしょうか。試行回数における成功回数の割合がコインの形状を定めているということですね。直感にも合致します。例えば,$4$回の試行のうち$3$回表が出れば,$0.75$だけ表が出やすいコインを用いていると考えるのが「最も尤もらしい」ということです。

なお,対数関数は単調増加であり対数を取る前後は関数の増減が変わらないことから,最尤推定では計算簡略化のため対数尤度を最大化することが多いです。今回のケースは対数を取らなくてもそこまで複雑にならないため,尤度関数をそのまま用いて最尤解を求めました。

さて,ここからいよいよベイズの話に突入していきます。最尤推定では,コインの形状を決め打ちしてしまいました。しかし,先ほどの例でいえば,$4$回の試行のうち$4$回表が出れば,必ず表が出るコインを用いているということになります。

…本当でしょうか。この世にはたくさんの形状のコインが存在しますが,$100$%表が出るようなコインなど存在するのでしょうか。直感的にも,そのようなコインがこの世に存在することはほとんどあり得ないと誰しもが感じると思います。ベイズ推定では,得られた結果からコインの形状の「それっぽさ」を求めることができます。最尤推定では「表の出る確率が$100$%のコインを使っている」と断言していたのに対し,ベイズ推定では「たしかに表の出る確率が$100$%っぽいが,実際にはそれは$60$%くらいの確信度で,表の出る確率はもっと低いかもしれない。さすがに$4$回の試行だけで表の出る確率が$100$%とは言い切れない。」という推定を行います。

それっぽさというのは,確率分布を用いて表現することができます。つまり,ベイズ推定では,ある確率分布の形状を定めるパラメータを求めることが目標になります。これを数学的に表現すると,得られた結果に対して事前知識を導入することで,曖昧性を加味してパラメータの分布を求めることに相当します。この操作は,ベイズの定理によって数学的に正当性が裏付けられています。分かりやすい形で再掲しておきます。

\begin{align}
(\text{事後分布}) \propto (\text{尤度関数}) \times (\text{事前分布})
\end{align}

以上をまとめると,ベイズ推定とは得られた結果である尤度関数に対して,尤度関数のパラメータに関する予め持っている知識である事前分布を導入することで,確率的な揺らぎを加味したパラメータの事後分布を求めることができる手法のことを指します。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.

目次