本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
4項分布の条件付き分布と超幾何分布
適切に条件付ける変数を選ぶことで,$4$項分布の条件付き分布は超幾何分布となる。
下で確認しますが,具体例を用いると理解しやすい関係性です。
証明
$X_{1},\ldots,X_{n},Y_{1},\ldots,Y_{n}\in\{0,1\}$を独立なベルヌーイ試行とし,$X_{1},\ldots,X_{n}$の成功確率を$p_{1}$,$Y_{1},\ldots,Y_{n}$の成功確率を$p_{2}$とおきます。このとき,
X = \sum_{i=1}^{n}X_{i},\quad Y = \sum_{i=1}^{n}Y_{i},\quad Z = \sum_{i=1}^{n}X_{i}Y_{i}
\end{align}
とおくと,$(Z,X-Z,Y-Z,n-X-Y+Z)$は$4$項分布に従うことを示します。その上で,$X,Y$を与えたときの$Z$の条件付き分布が超幾何分布になることを示します。
$4$項分布は$4$次元ベルヌーイ試行を$n$回繰り返した際の確率変数が従う分布として定義されます。そこで,まずは与えられた確率変数のペアの一回の試行である
(Z_{i}, X_{i}-Z_{i},Y_{i}-Z_{i},1-X_{i}-Y_{i}-Z_{i})\label{3.18_ペア}
\end{align}
に着目しましょう。式($\ref{3.18_ペア}$)が$4$次元ベルヌーイ試行であることを示すためには,すべての$i$に対してある一つの要素が$1$となり,他の三つの要素は$0$となることを示す必要があります。$n=1$であることに注意して,表を書いて整理しましょう。
$X_{i}$ | $Y_{i}$ | $Z_{i}$ | $X_{i}-Z_{i}$ | $Y_{i}-Z_{i}$ | $n-X_{i}-Y_{i}-Z_{i}$ |
---|---|---|---|---|---|
$0$ | $0$ | $0$ | $0$ | $0$ | $1$ |
$1$ | $0$ | $0$ | $1$ | $0$ | $0$ |
$0$ | $1$ | $0$ | $0$ | $1$ | $0$ |
$1$ | $1$ | $1$ | $0$ | $0$ | $0$ |
したがって,式($\ref{3.18_ペア}$)は$4$次元ベルヌーイ試行となるため,式($\ref{3.18_ペア}$)を$i=1,\ldots,n$で足し上げた
(Z, X-Z,Y-Z,n-X-Y-Z)
\end{align}
は$4$項分布に従います。確率質量関数は式($\ref{3.18_ペア}$)の$4$次元ベルヌーイ試行に注目すると,
f(x,y,z)
&=\frac{n!}{z!(x-z)!(y-z)!(n-x-y-z)!}\notag\\[0.7em]
&\quad\quad\times(p_{1}p_{2})^{z}(p_{1}-p_{1}p_{2})^{(x-z)!}\notag\\[0.7em]
&\quad\quad\times(p_{2}-p_{1}p_{2})^{(y-z)!}(1-p_{1}p_{2}-p_{1}-p_{2})^{n-x-y+z}\\[0.7em]
&=\frac{n!}{z!(x-z)!(y-z)!(n-x-y-z)!}\notag\\[0.7em]
&\quad\quad\times(p_{1}p_{2})^{z}\{p_{1}(1-p_{2})\}^{(x-z)!}\notag\\[0.7em]
&\quad\quad\times\{p_{2}(1-p_{1})\}^{(y-z)!}\{(1-p_{1})(1-p_{2})^{n-x-y+z}\}\\[0.7em]
&=\frac{n!}{z!(x-z)!(y-z)!(n-x-y-z)!}p_{1}^{x}(1-p_{1})^{n-x}p_{2}^{y}(1-p_{2})^{n-y}\label{3.17_確率質量関数}
\end{align}
となります。ただし,例えば$P(Z_{i}=1)$は$p_{1}p_{2}$であることなどを利用しました。また,条件付き分布の定義より,
f(x,y|z) &= \frac{f(x,y,z)}{f(z)}
\end{align}
となりますので,$f(z)$を求めます。$X_{i}$と$Y_{i}$が独立にベルヌーイ分布に従うことに注意すると,
f(z)
&= {}_{n}C_{x}p_{1}^{x}(1-p_{1})^{n-x}\cdot {}_{n}C_{y}p_{2}^{y}(1-p_{2})^{n-y}\\[0.7em]
&= \frac{n!n!}{x!(n-x)!y!(n-y)!}p_{1}^{x}(1-p)^{n-x}p_{2}^{y}(1-p_{2})^{n-y}
\end{align}
が得られますので,式($\ref{3.17_確率質量関数}$)の確率部分が綺麗に消えて
f(x,y|z)
&= \frac{n!}{z!(x-z)!(y-z)!(n-x-y-z)!}\cdot \frac{x!(n-x)!y!(n-y)!}{n!n!}\\[0.7em]
&= \frac{x!(n-x)!y!(n-y)!}{n!z!(x-z)!(y-z)!(n-x-y-z)!}\\[0.7em]
&= \left\{\frac{x!}{z!(x-z)!}\right\}\cdot \left\{\frac{(n-x)!}{(y-z)!(n-x-y+z)!}\right\}\cdot \left\{\frac{n!}{y!(n-y)!}\right\}^{-1}\\[0.7em]
&= \frac{{}_{x}C_{z}\cdot{}_{n-x}C_{y-z}}{{}_{n}C_{y}}
\end{align}
となり,超幾何分布の確率質量関数となることが示されました。具体的には,
- 赤玉が$x$個
- 白玉が$n-x$個
入っている箱の中から$y$個取り出したときに赤玉が$z$個ある確率を表しています。実際,$Z_{i}$は$X_{i}$かつ$Y_{i}$と定義されており,$X_{i}$が$i$番目の玉が赤色であるかどうか,$Y_{i}$が$i$番目の玉を取り出すかどうかを表していると考えると,$Z_{i}$が取り出した玉の中に含まれている赤玉の個数を表していることも分かります。
参考文献
本稿の執筆にあたり参考にした文献は,以下でリストアップしております。
コメント