【これなら分かる!】多項分布とは

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

多項分布

二項分布を複数のカテゴリに拡張した分布を多項分布と呼びます。ただし,毎回の試行で各カテゴリーの発生確率を$p_1,\cdots,p_K$とし,これらは

\begin{align}
p_1+\cdots+p_K &= 1
\end{align}

を満たします。この条件により,自由に定められる確率変数は$x_1,\ldots, x_{K-1}$の正整数$K-1$個になります。$K-1$個の確率が決まった時点で,あと$1$つの確率も決まってしまうからです。また,今までは確率母関数の$s$は$1$つでしたが,多項分布では$K-1$個の$x$を考えるため,$s$も$K-1$個用意しなくてはなりません。多項分布には再生性はありません。ロードマップ中では,多項分布は二項分布の多変量拡張に相当します。

\begin{align}
f_{\mX}(\vx) &= \frac{n!}{x_1!\cdots x_K!}~p_1^{x_1}\cdots p_K^{x_K} \\[0.7em]
G_{\mX}(\vs) &= (p_1s_1 + \cdots + p_{K-1}s_{K-1} + p_K)^n \\[0.7em]
E[X_i] &= np_i \\[0.7em]
V[X_i] &= np_i(1-p_i)
\end{align}

確率密度関数

二項分布を複数のカテゴリに拡張した分布が多項分布です。多項分布の確率密度関数は直感的に導くことが可能です。カテゴリ$i$が$x_i$回独立に起こるとすれば,考えられる組み合わせは$n!$で,全事象は$x_1!\cdots x_K!$です。確率部分は$p_1^{x_1}\cdots p_K^{x_K}$となり,たしかに以下のように確率密度関数が求められます。

\begin{align}
P(X = x) &= \frac{n!}{x_1!\cdots x_K!}~p_1^{x_1}\cdots p_K^{x_K}
\end{align}

確率母関数

確率母関数の定義に従って計算していきます。多項定理を利用します。

注意するべきは,多項分布では$x_1+\cdots+x_K=n$という条件があるため,対象とする確率変数は$x_1,\cdots, x_{K-1}$の$K-1$個になるという点です。$K-1$個の確率が決まった時点であと1つの確率も決まってしまうからです。また,今までは確率母関数の$s$は1つでしたが,多項分布では$K-1$個の$x$を考えるため,$s$も$K-1$個用意しなくてはなりません。

\begin{align}
&G(s_1, \cdots, s_{K-1}; p_1,\cdots,p_{K-1}) \notag \\[0.7em]
&= E[s_1^{x_1}\cdots s_{K-1}^{x_{K-1}}] \\[0.7em]
&= \sum_{i=1}^{K} \frac{n!}{x_1!\cdots x_K!}~(p_1s_1)^{x_1}\cdots (p_{K-1}s_{K-1})^{x_{K-1}} (p_K)^{x_K} \\[0.7em]
&= (p_1s_1 + \cdots + p_{K-1}s_{K-1} + p_K)^n \quad (\because \text{多項定理})
\end{align}

平均・分散

離散分布の平均と分散を求める際には「確率母関数の性質」(連続分布の平均と分散を求める際には「モーメント母関数の性質」)を利用します。しかし,多項分布の平均と分散は二項分布の再生性を利用すると簡単に求められます。そのためには,多項分布の周辺分布が二項分布になることを示さなくてはなりません。

多項関数の確率母関数において,1つの変数$x_i$に着目します。つまり,$x_i$に関する確率母関数を求めます。そのためには,$s_i$以外の$s$を全て1にセットすればOKです。すると,

\begin{align}
&G(1, \cdots, s_{i}, \cdots, 1; p_1,\cdots,p_{K-1}) \notag \\[0.7em]
&= E[s_i] \\[0.7em]
&= G(s_{i}; p_1,\cdots,p_{K-1})\\[0.7em]
&= (p_1 + \cdots + p_is_i + \cdots + p_{K-1} + p_K)^n \\[0.7em]
&= (p_is_i + 1 – p_i)^n
\end{align}

となり,二項分布の確率母関数と一致します。したがって,多項分布におけるある1つの変数の周辺分布は二項分布になります。ゆえに,$X=X_1+\cdots+X_{K-1}$として$X$が多項分布にしたがうとき,以下が成り立ちます。

\begin{align}
X_i \sim B(n, p_i) \\[0.7em]
X_j \sim B(n, p_j)
\end{align}

また,二項分布の再生性より,以下も成り立ちます。

\begin{align}
X_i + X_j \sim B(n, p_1 + p_j)
\end{align}

さらに,「確率変数の性質」より,$V[X_i + X_j]=V[X_i] + V[X_j] + 2\Cov[X_i, X_j]$が成り立つことに注意すると,二項分布の期待値・分散を用いて$X_i$の期待値・分散,$X_i$と$X_j$の共分散は以下のように求められます。

\begin{align}
E[X_i] &= n p_i \\[0.7em]
V[X_i] &= n p_i (1 – p_i) \\[0.7em]
\Cov[X_i, X_j] &= \frac{V[X_i + X_j] – V[X_i] – V[X_j]}{2} \\[0.7em]
&= \frac{n (p_i + p_j)(1 – p_i – p_j) – n p_i (1 – p_i) – n p_j (1 – p_j)}{2} \\[0.7em]
&= -n p_i p_j
\end{align}

再生性

再生性を示すためには,再生性を示したい分布に従う独立な二つの確率変数を考え,その和のモーメント母関数(離散分布の場合はモーメント母関数)を計算したときに,パラメータが和の形になっていることを示します。

多項分布は再生性をもちません。実際に$X+Y$の確率母関数を計算してみても,二項分布のときのようにうまくまとまらないことが分かると思います。

ロードマップ

確率分布のロードマップ

さて,ロードマップに戻りましょう。 多項分布は二項分布を多変量に拡張したものでしたね。本ロードマップの拡張系に分類されるのは多項分布しかありませんので,多項分布は覚えやすい位置付けになっていると思います。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする