【徹底解説】多項分布の性質

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

多項分布の性質

  • 多項分布の周辺分布は多項分布となる
  • 条件付き多項分布は多項分布となる

多項分布の特徴的な性質です。直感的にも違和感のない性質です。

証明

周辺分布に関する性質と条件付き分布に関する性質を別々に証明します。

周辺分布について

$X=(X_{1},\ldots,X_{k})$とおき,$X$は多項分布$\Mn(n,p_{1},\ldots,p_{k})$に従うとします。$k$個のカテゴリを$m(<k)$個のカテゴリに統合すると,$X_{i}$は

\begin{align}
Y_{1} = X_{1}+\cdots+X_{i_{1}},~\ldots,~Y_{m} = X_{1}+\cdots+X_{i_{m}}
\end{align}

のように書き直され,$p_{i}$は

\begin{align}
q_{1} = p_{1}+\cdots+p_{i_{1}},~\ldots,~q_{m} = p_{1}+\cdots+p_{i_{m}}
\end{align}

と書き直されます。$Y=(Y_{1},\ldots,Y_{m})$とパラメータ$n,p_{1},\ldots,p_{m}$は多項分布の定義に当てはまりますので,$Y$は多項分布$\Mn(n,p_{1},\ldots,p_{m})$に従います。特に,$m=2$かつ$i_{1}=1$のときは,$Y_{1}$は二項分布$\Bin(n,p_{1})$に従います。

補足1

多項分布の周辺分布が多項分布になることは,確率質量関数を変形することでも示すことができます。簡単のため三項分布における$X_{1}$の周辺分布を考えると,$x_{2}$の$0$から$n-x_{1}$までの総和を考えれば$x_{3}$も自動的に定まることに注意すると,

\begin{align}
P(X_{1}=x_{1}) &= \sum_{x_{2}=0}^{n-x_{1}}\frac{n!}{x_{1}!x_{2}!x_{3}!}p_{1}^{x_{1}}p_{2}^{x_{2}}p_{3}^{x_{3}}\\[0.7em]
&= \frac{n!}{x_{1}!}p_{1}^{x_{1}}\sum_{x_{2}=0}^{n-x_{1}}\frac{1}{x_{2}!x_{3}!}p_{2}^{x_{2}}p_{3}^{x_{3}}\\[0.7em]
&= \frac{n!}{x_{1}!(n-x_{1})!}p_{1}^{x_{1}}\sum_{x_{2}=0}^{n-x_{1}}\frac{(n-x_{1})!}{x_{2}!x_{3}!}p_{2}^{x_{2}}p_{3}^{x_{3}}\\[0.7em]
&= \frac{n!}{x_{1}!(n-x_{1})!}p_{1}^{x_{1}}(p_{2}+p_{3})^{n-x_{1}}\\[0.7em]
&= \frac{n!}{x_{1}!(n-x_{1})!}p_{1}^{x_{1}}(1-p_{1})^{n-x_{1}}
\end{align}

が得られます。これは$\Bin(n,p_{1})$の確率質量関数となっています。

補足2

多項分布の周辺分布が多項分布になることは,多項分布の確率母関数を用いても示すことができます。こちらも簡単のため三項分布における$X_{1}$の周辺分布を考えると,三項分布の確率母関数は

\begin{align}
G_{X_{1},X_{2}}(s_{1},s_{2}) &= (p_1s_1 + p_{2}s_{2} + p_{3})^{n}\label{確率母関数}
\end{align}

となります。$X_{1}$の周辺分布に対応する確率母関数は$G_{X_{1}}(s_{1})$ですので,式($\ref{確率母関数}$)において$s_{2}=1$とおけばよく,

\begin{align}
G_{X_{1}}(s_{1}) = \left\{p_1s_1 + (p_{2} + p_{3})\right\}^{n} = \left\{p_1s_1 + (1-p_{1})\right\}^{n}
\end{align}

となり,二項分布の確率母関数と一致することが示されました。確率母関数と確率関数が一対一対応することを利用すれば,三項分布の周辺分布は二項分布となることが分かりました。

条件付き分布に関して

$X$を$(X_{(1)},X_{(2)})$に統合し,$X_{(1)}=(X_{1},\ldots,X_{h})$および$X_{(2)}=(X_{h+1},\ldots,X_{k})$とおきます。いま,

\begin{align}
Y_{1} &= X_{1}+\cdots+X_{h}\\[0.7em]
Y_{2} &= X_{h+1}+\cdots+X_{k}
\end{align}

が与えられたとき,$X_{(1)}$と$X_{(2)}$の条件付き多項分布が多項分布となることを示します。$Y_{1}=y_{1}$と$Y_{2}=y_{2}$が与えられたとし,$Y=(Y_{1},Y_{2})$とおくと,条件付き確率関数の定義より,

\begin{align}
P(X|Y) &= P(X_{1}=x_{1},\ldots,X_{h}=x_{h}|Y=y)\\[0.7em]
&= \frac{P(X_{1}=x_{1},\ldots,X_{h}=x_{h},Y=y)}{P(Y=y)}\\[0.7em]
&= \frac{P(X_{1}=x_{1},\ldots,X_{h}=x_{h})}{P(Y=y)}\\[0.7em]
&= \frac{\{n!/(x_{1}!\cdots x_{k}!)\}p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}}{\{n!/(y_{1}!y_{2}!)\}q_{1}^{y_{1}}q_{2}^{y_{2}}}\\[0.7em]
&= \frac{y_{1}!y_{2}!}{x_{1}!\cdots x_{k}!}\frac{p_{1}^{x_{1}}\cdots p_{k}^{x_{k}}}{q_{1}^{y_{1}}q_{2}^{y_{2}}}\\[0.7em]
&= \left(\frac{y_{1}!}{x_{1}!\cdots x_{h}!}\frac{p_{1}^{x_{1}}\cdots p_{h}^{x_{h}}}{q_{1}^{y_{1}}}\right)\cdot \left(\frac{y_{2}!}{x_{h+1}!\cdots x_{k}!}\frac{p_{h+1}^{x_{h+1}}\cdots p_{k}^{x_{k}}}{q_{2}^{y_{2}}}\right)\\[0.7em]
&= \left(\frac{y_{1}!}{x_{1}!\cdots x_{h}!}\frac{p_{1}^{x_{1}}\cdots p_{h}^{x_{h}}}{q_{1}^{x_{1}}\cdots q_{1}^{x_{h}}}\right)\cdot \left(\frac{y_{2}!}{x_{h+1}!\cdots x_{k}!}\frac{p_{h+1}^{x_{h+1}}\cdots p_{k}^{x_{k}}}{q_{2}^{x_{h+1}}\cdots q_{2}^{x_{k}}}\right)\\[0.7em]
&= \left\{\frac{y_{1}!}{x_{1}!\cdots x_{h}!}\left(\frac{p_{1}}{q_{1}}\right)^{x_{1}}{\cdots}\left(\frac{p_{h}}{q_{1}}\right)^{x_{h}}\right\}{\cdot}\left\{\frac{y_{2}!}{x_{h+1}!\cdots x_{k}!}\left(\frac{p_{h+1}}{q_{2}}\right)^{x_{h+1}}{\cdots}\left(\frac{p_{k}}{q_{2}}\right)^{x_{k}}\right\}\\[0.7em]
&= P(X_{(1)}|Y)\cdot P(X_{(2)}|Y)\label{条件付き分布の結論}
\end{align}

が得られます。ただし,$X_{1}=x_{1},\ldots,X_{h}=x_{h}$が定まれば$Y$も一意に定まることを用い,$q$は周辺分布のときと同様に

\begin{align}
q_{1} &= p_{1}+\cdots+p_{h},\quad q_{2} = p_{h+1}+\cdots+p_{k}
\end{align}

とおきました。したがって,$P(X|Y)$は$P(X_{(1)}|Y)$と$P(X_{(2)}|Y)$の積で表されるため$X_{(1)}|Y$と$X_{(2)}|Y$は独立であり,$X_{(1)}|Y$は$\Mn(y_{1},p_{1}/q_{1},\ldots,p_{h}/q_{1})$に従い,$X_{(2)}|Y$は$\Mn(y_{2},p_{h+1}/q_{2},\ldots,p_{k}/q_{2})$に従うことが示されました。

補足1

周辺分布の証明と同様に,三項分布の条件付き分布が二項分布になることを示しておきます。$X_{1}$が与えられた条件のもとで$X_{2}$がしたがう条件付き確率分布を求めると,

\begin{align}
P(X_{2}=x_{2}|X_{1}=x_{1}) &= \frac{P(X_{1}=x_{1},X_{2}=x_{2})}{P(X_{1}=x_{1})}\\[0.7em]
&= \frac{\{n!/\{x_{1}!x_{2}!x_{3}!)\}p_{1}^{x_{1}}p_{2}^{x_{2}}p_{3}^{x_{3}}}{\{n!/(x_{1}!(n-x_{1})!)\}p_{1}^{x_{1}}(1-p_{1})^{n-x_{1}}}\\[0.7em]
&= \frac{(n-x_{1})!}{x_{2}!x_{3}!}\cdot\frac{p_{2}^{x_{2}}p_{3}^{x_{3}}}{(1-p_{1})^{n-x_{1}}}\\[0.7em]
&= \frac{(x_{2}+x_{3})!}{x_{2}!x_{3}!}\cdot\frac{p_{2}^{x_{2}}p_{3}^{x_{3}}}{(p_{2}+p_{3})^{x_{2}+x_{3}}}\\[0.7em]
&= \frac{(x_{2}+x_{3})!}{x_{2}!x_{3}!}\cdot\left(\frac{p_{2}}{p_{2}+p_{3}}\right)^{x_{2}}\cdot\left(\frac{p_{3}}{p_{2}+p_{3}}\right)^{x_{3}}
\end{align}

が得られます。したがって,$X_{2}|X_{1}$は$\Mn(x_{2}+x_{3},p_{2}/(p_{2}+p_{3}),p_{3}/(p_{2}+p_{3}))$に従うことが示されました。これは,$\Bin(x_{2}+x_{3},p_{2}/(p_{2}+p_{3}))$と等価で,式($\ref{条件付き分布の結論}$)において$k=3,h=1$とおいたときの$X_{(2)}|Y$の結果と矛盾しません。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.

目次