【これなら分かる!】超幾何分布とは

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

超幾何分布

アタリが$M$個,ハズレが$N-M$個入っているくじ引きから$n$個を引くとき,アタリの個数$X$は超幾何分布に従います。超幾何分布には再生性はありません。ロードマップ上では,超幾何分布は二項分布を非復元抽出として拡張した場合に相当しています。以下では,$X \in \{0, \ldots, n\}$とし,$p=M/N$とおきます。なお,超幾何分布の確率母関数は非常に計算が面倒なので割愛されることが多く,本資料もそれに従います。

\begin{align}
f_{X}(x) &= \frac{{}_M \tilde{C}_{x} \times {}_{N-M} \tilde{C}_{n-x}}{{}_N C_n} \\[0.7em]
E[X] &= np \\[0.7em]
V[X] &= \frac{N-n}{N-1} np(1-p)
\end{align}

ただし,$\tilde{C}$は二項係数を拡張した記号である。

\begin{align}
{}_N \tilde{C} _x &=
\begin{cases}
{}_N C_x & (x=0,\cdots,n)\\[0.7em]
0 & (\text{その他})
\end{cases}
\end{align}

確率質量関数

超幾何分布の確率質量関数は,高校数学の場合の数を利用して導かれます。アタリが$M$個,ハズレが$N-M$個入っているくじ引きから$n$個を引くとき,アタリの個数$X$は超幾何分布に従います。分母には,$N$個の中から$n$個選ぶ全事象が入ります。分子には,$M$個のアタリから$x$個選び,$N-M$個のはずれから$n-x$個選ぶ場合の数が入ります。結局,$x=0, \ldots, n$のとき,超幾何分布の確率質量変数は以下のように表されます。

\begin{align}
f_{X}(x) &= \frac{{}_M \tilde{C}_{x} \times {}_{N-M} \tilde{C}_{n-x}}{{}_N C_n}
\end{align}

その際,$x$が赤玉の個数を上回ってしまう場合があるため,二項係数を拡張した${}_n \tilde{C}_{x}$を導入しました。

\begin{align}
{}_N \tilde{C} _x &=
\begin{cases}
{}_N C_x & (x=0,\cdots,n)\\[0.7em]
0 & (\text{その他})
\end{cases}
\end{align}

確率母関数

超幾何分布のモーメント母関数は複雑なので割愛します。

平均・分散

離散分布の平均と分散を求める際には「確率母関数の性質」を利用します。超幾何分布の確率母関数は複雑であるため,平均と分散を求める際は定義を利用します。

ここで,新しく導入した二項係数に関して重要な性質を利用します。

\begin{align}
{}_N C_{n} &= \sum_{x=1}^n {}_M\tilde{C}_{x} \times {}_{N-M}\tilde{C}_{n-x}\label{equation:拡張二項係数の性質}
\end{align}

この等式の意味は,左辺は$N$個のくじから$n$本を引くという場合の数で,右辺はそれをアタリの本数$x$による場合わけでカウントしています。つまり,全てのアタリの本数$M$から$x$本引く場合と,ハズレから残りを引く場合を考えているだけです。さて,まずは平均から計算していきます。ポイントは,分子の掛け算のうち右側の項は変わらないということです。

\begin{alignat}{2}
E[X] &=
\sum_{x=0}^n x\cdot P(X=x)\\[0.7em]
&= \sum_{x=0}^n \frac{x\cdot {}_M\tilde{C}_{x} \times {}_{N-M}\tilde{C}_{n-x}}{{}_N C_{n}}\\[0.7em]
&= \sum_{x=0}^n \frac{M\cdot {}_{M-1}\tilde{C}_{x-1} \times {}_{N-M}\tilde{C}_{n-x}}{{}_N C_{n}}&\quad&(\because\text{二項係数の定義より})\\[0.7em]
&= \sum_{x=0}^n \frac{M\cdot {}_{M-1}\tilde{C}_{x-1} \times {}_{N-M}\tilde{C}_{n-x}}{(N/n)\cdot{}_{N-1} C_{n-1}}&\quad&(\because\text{二項係数の定義より})\\[0.7em]
&= \frac{nM}{N}\sum_{x=0}^n \frac{{}_{M-1}\tilde{C}_{x-1} \times {}_{N-M}\tilde{C}_{n-x}}{{}_{N-1} C_{n-1}}&\quad&(\because\text{ただの式変形})\\[0.7em]
&= \frac{nM}{N}\sum_{x=0}^n \frac{{}_{M-1}\tilde{C}_{x-1} \times {}_{(N-1)-(M-1)}\tilde{C}_{(n-1)-(x-1)}}{{}_{N-1} C_{n-1}}&\quad&(\because\text{ただの式変形})\\[0.7em]
&= \frac{nM}{N}\cdot\frac{{}_{N-1} C_{n-1}}{{}_{N-1} C_{n-1}}&\quad&(\because\text{式(\ref{equation:拡張二項係数の性質})より})\\[0.7em]
&= n\frac{M}{N} \\[0.7em]
&= np
\end{alignat}

ただし,$p=M/N$とおきました。続いて,分散を計算していきます。基本的には平均と同じ方針で計算することができるのですが,二項係数に「階乗」の形が複数含まれていることから,計算を簡単にするために$E[X^2]$ではなく$E[X(X-1)]$を考えることにします。そうです。確率母関数から分散を求めるときと同じアイディアです。

\begin{align}
V[X] &= E[X^2]-E[X]^2\\[0.7em]
&= E[X(X-1)] + E[X]-E[X]^2
\end{align}

$E[X]$はすでに求められていますので,以下では$E[X(X-1)]$を計算していきます。途中まで先ほどと同様の計算が現れます。ポイントも先ほどと同じで,分子の掛け算のうち右側の項は変わらないということです。

\begin{align}
E[X(X-1)] &=
\sum_{x=0}^n x(x-1)\cdot P(X=x)\\[0.7em]
&= \frac{nM}{N}\sum_{x=0}^n \frac{(x-1)\cdot{}_{M-1}\tilde{C}_{x-1} \times {}_{(N-1)-(M-1)}\tilde{C}_{(n-1)-(x-1)}}{{}_{N-1} C_{n-1}}\\[0.7em]
&= \frac{nM}{N}\sum_{x=0}^n \frac{(M-1)\cdot{}_{M-2}\tilde{C}_{x-2} \times {}_{(N-2)-(M-2)}\tilde{C}_{(n-2)-(x-2)}}{\left\{(N-1) / (n-1) \right\}{}_{N-2} C_{n-2}}\\[0.7em]
&= \frac{n(n-1)M(M-1)}{N(N-1)}\sum_{x=0}^n \frac{{}_{M-2}\tilde{C}_{x-2} \times {}_{(N-2)-(M-2)}\tilde{C}_{(n-2)-(x-2)}}{{}_{N-2} C_{n-2}}\\[0.7em]
&= \frac{n(n-1)M(M-1)}{N(N-1)}\cdot\frac{{}_{N-2} C_{n-2}}{{}_{N-2} C_{n-2}}\\[0.7em]
&= \frac{n(n-1)M(M-1)}{N(N-1)}
\end{align}

したがって,分散は以下のように計算できます。

\begin{align}
V[X] &= E[X(X-1)] + E[X]-E[X]^2\\[0.7em]
&= \frac{n(n-1)M(M-1)}{N(N-1)} + \frac{nM}{N}-\left(\frac{nM}{N} \right)^2\\[0.7em]
&= \frac{nM}{N^2} \left( \frac{(N-n)(N-M)}{N-1} \right) \\[0.7em]
&= \frac{N-n}{N-1} n\frac{M}{N}\left(1-\frac{M}{N}\right)\\[0.7em]
&= \frac{N-n}{N-1}np(1-p)
\end{align}

分散の前にかかっている$(N-n)/(N-1)$を有限修正と呼びます。これは非復元抽出の分布の分散に出現する項です。 ロードマップでも示されている通り,超幾何分布は二項分布の非復元抽出バージョンです。そのため,二項分布の分散$np(1-p)$に有限修正がかかった形が超幾何分布の分散になっています。ちなみに,復元抽出と非復元抽出の平均は変わりません。

再生性

再生性を示すためには,再生性を示したい分布に従う独立な二つの確率変数を考え,その和のモーメント母関数(離散分布の場合はモーメント母関数)を計算したときに,パラメータが和の形になっていることを示します。

超幾何分布の確率母関数は複雑な形をしているため,和の確率母関数を考えてもパラメータが和の形にはなりません。超幾何分布に再生性がないことを厳密に示すことはできませんが,超幾何分布の確率母関数が複雑な形をしていることをおさえていれば理解できるかと思います。

ロードマップ再来

確率分布のロードマップ

さて,ロードマップに戻りましょう。超幾何分布は二項分布の非復元バージョンです。超幾何分布は,引くクジを元に戻さないという前提で定式化されました。さて,超幾何分布からポアソン分布に伸びている矢印はどのような意味なのでしょうか。

この変形は,まず最初に超幾何分布において「$p=M/N$を一定に保ちながら$N$を大きくしていけば二項分布に近似できる」ということから出発すると分かりやすいです。実際に示してみましょう。$N$から$(N-n+1)$までの中途半端な階乗を$(N)_n$と表すことにします。つまり,以下のように階乗を表します。

\begin{align}
{}_{N} C{n} &= \frac{N !}{n !(N-n) !}=\frac{(N)_{n}}{n !} \\[0.7em]
{}_{M} C_{x} &= \frac{M !}{x !(M-x) !}=\frac{(N p) !}{x !(N p-x) !}=\frac{(N p)_x}{x !} \\[0.7em]
{}_{N-M} C_{n-x} &= \frac{(N-M) !}{(n-x) !(N-M-n+x) !}\\[0.7em]
&= \frac{(N q) !}{(n-x) !(N q-n+x) !} \\[0.7em]
&= \frac{(N q)_{n-x}}{(n-x) !}
\end{align}

ただし,$1-p=q$とおきました。すると,超幾何分布の確率関数は以下のように書き直せます。

\begin{align}
p(x) &=\frac{n !}{x !(n-x) !} \frac{(N p)_x (N q)_{n-x}}{(N)_{n}}\\[0.7em]
&= {}_nC_{x} \cdot \frac{(N p)_x (N q)_{n-x}}{(N)_{n}} \label{equation:超幾何からポアソン}
\end{align}

さて,以下の式なのですが,

\begin{align}
\frac{(N p)_x (N q)_{n-x}}{(N)_{n}}
\end{align}

分母と分子に登場する階乗の各成分を$N$でくくると,分母にも分子にも$N$が$n-1$項現れるので,相殺されます。すると,階乗の分母は$1-o(1/N)$,分子はそれぞれ$p-o(1/N)$,$q-o(1/N)$になります。ただし,$o(\cdot)$はカッコの中身よりもオーダーが小さい多項式を示します。この操作を数式に落とし込みます。$n\rightarrow \infty$のとき,式(\ref{equation:超幾何からポアソン})は以下のように変形できます。

\begin{align}
p(x)
&= {}_n C_{x} \cdot \frac{(N p)_x (N q)_{n-x}}{(N){n}}\\[0.7em]
&= {}_n C_{x} \cdot \frac{N^{n-1} \left(p-\frac{1}{N}\right)\cdots \left(q-\frac{1}{N}\right)\cdots}{N^{n-1}\left(1-\frac{1}{N}\right) \cdots}\\[0.7em]
&\longrightarrow~ {}_n C_{x}~ p^x q^{n-x}\quad(N\rightarrow \infty)
\end{align}

めでたく,二項分布の形に帰着できました。この近似の意味は,非復元抽出をたくさんのクジが入ったくじ引きえ行えば,それは復元抽出にみなせるということを示しています。ここまでくれば,$p=M/N$が小さく,かつ$n\rightarrow \infty$のときに,二項分布がポアソン分布に収束することが示せます。超幾何分布において,くじの母数が十分多くてアタリもそれなりの割合含まれている場合には二項分布に近似でき,アタリの割合が少なくて試行回数が十分大きいときにはポアソン分布に近似できるということを示しています。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする