【これなら分かる!】有限母集団から抽出した標本平均の期待値と分散

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

目次

有限母集団の標本平均の期待値と分散

大きさ$N$の有限母集団から抽出される観測値を$X_1, \ldots, X_n$とする。このとき,標本平均

\begin{align}
\overline{X} &= \frac{1}{n} \sum_{i=1}^n X_i
\end{align}

の期待値と分散は以下のように表される。

\begin{align}
E[\overline{X}] &= \mu \\[0.7em]
V[\overline{X}] &= \frac{N-n}{N-1} \frac{\sigma^2}{n}
\end{align}

超幾何分布の平均と分散を簡単に導出するために利用できる定理です。無限母集団の場合の標本平均の分散は$\sigma^2/n$になりますが,有限母集団の場合は前に$(N-n)/(N-1)$が付いていますね。この項を有限修正と呼びます。また,有限母集団の定義では観測値が大文字の$X$を使って表されていることからも分かる通り,観測値$X_1, \ldots, X_n$は確率変数であることに注意してください。無限母集団の場合は観測値を$x$のように小文字を用いて表していましたが,有限母集団の場合は抽出操作自体が確率的な操作とみなされますので,観測値が確率変数になります。

証明

まず大前提として,$X_1, \ldots, X_n$は確率変数ですから,$E[X_i]$は母平均となります。

\begin{align}
E[X_i] &= \mu
\end{align}

ただし,$i=1, \ldots, n$です。同様に,分散に関しても$V[X_i]$は母分散になります。

\begin{align}
V[X_i] &= \sigma^2
\end{align}

以上を踏まえれば,標本平均の期待値は期待値の線形性を利用して,

\begin{align}
E[\overline{X}] &= \frac{1}{n} \sum_{i=1}^n E[X_i] \\[0.7em]
&= \frac{1}{n} n\mu \\[0.7em]
&= \mu
\end{align}

と計算することができます。一方,標本平均の分散に関しては少し厄介です。分散の性質より,

\begin{align}
V[\overline{X}] &= \frac{1}{n^2} V\left[ \sum_{i=1}^n X_i \right] \\[0.7em]
&= \frac{1}{n^2} \left( \sum_{i=1}^n V[X_i] + \sum_{i\neq j}\Cov[X_i, X_j] \right)
\end{align}

と変形できます。$V[X_i]=\sigma^2$であることと,$i\neq j$である項の総数は$n$個の$X$から$2$つ選んで並べる総数${}_n P_2=n(n-1)$であることに注意すると,

\begin{align}
V[\overline{X}] &= \frac{1}{n^2} \left( n\sigma^2 + n(n-1)\Cov[X_i, X_j] \right)
\end{align}

となります。ただし,$i\neq j$です。以下では,$i\neq j$の下で$\Cov[X_i, X_j]$を求めていきます。各個体の特性値を$a_1, \ldots, a_N$とおくと,共分散は

\begin{align}
\Cov[X_i, X_j] &= E[X_i, X_j]-E[X_i]E[X_j] \\[0.7em]
&= \sum_{i \neq j}a_i a_j \cdot P\left(X_i=a_i, X_j=a_j \right)-\left( \sum_{i=1}^n a_i \right)^2
\end{align}

と計算できます。いま,$P(X_i=a_i, X_j=a_j)$は$N$個の特性値から$2$つ並べる全事象のうちの$1$つですので,

\begin{align}
P(X_i=a_i, X_j=a_j) &= \frac{1}{{}_{N} P_{2}} \\[0.7em]
&= \frac{1}{N(N-1)}
\end{align}

となります。$i$と$j$に依存しないのでシグマの前に出すことができますね。したがって,以下のように計算できます。

\begin{align}
\Cov[X_i, X_j]
&= \frac{1}{N(N-1)} \sum_{i \neq j}a_i a_j-\left( \frac{1}{N}\sum_{i=1}^n a_i \right)^2 \\[0.7em]
&= \frac{\left( \sum_{i=1}^N a_i \right)^2-\sum_{i=1}^N a_i^2}{N(N-1)}-\left( \frac{1}{N}\sum_{i=1}^n a_i \right)^2 \\[0.7em]
&= \frac{\left( \sum_{i=1}^N a_i \right)^2}{N(N-1)}-\frac{\sum_{i=1}^N a_i^2}{N(N-1)}-\left( \frac{1}{N}\sum_{i=1}^n a_i \right)^2 \\[0.7em]
&= \frac{\left( \sum_{i=1}^N a_i \right)^2}{N^2(N-1)}-\frac{\sum_{i=1}^N a_i^2}{N(N-1)} \\[0.7em]
&= -\frac{1}{N(N-1)}\left\{\sum_{i=1}^N a_i^2-\frac{1}{N}\left( \sum_{i=1}^N a_i \right)^2 \right\} \\[0.7em]
&= -\frac{1}{N(N-1)}\left\{\sum_{i=1}^N a_i^2-\frac{1}{N}\left( N\mu \right)^2 \right\} \\[0.7em]
&= -\frac{1}{N(N-1)}\left( \sum_{i=1}^N a_i^2-N\mu^2 \right) \\[0.7em]
&= -\frac{1}{N(N-1)}\sum_{i=1}^N \left( a_i^2-\mu^2\right)
\end{align}

さて,ここからの変形が少しトリッキーです。不偏分散の計算で利用する式変形と同じような考え方をします。分散の形$(a_i-\mu)^2$に近づけたいので,無理やり$(a_i-\mu)^2$を作ったうえで余分に出てきてしまった項を引いてあげます。一旦係数を無視してシグマ以降だけを考えます。

\begin{align}
\sum_{i=1}^N \left( a_i^2-\mu^2\right)
&= \sum_{i=1}^N \left\{ \left( a_i-\mu\right)^2 + 2a_i\mu-2\mu^2 \right\} \\[0.7em]
&= \left\{ \sum_{i=1}^N \left( a_i-\mu\right)^2 + 2N\mu^2-2N\mu^2 \right\} \\[0.7em]
&= \sum_{i=1}^N (a_i-\mu)^2 \\[0.7em]
&= N\sigma^2
\end{align}

結局,標本平均の分散は以下のように表されます。ここでも,$i \neq j$であることに注意してください。

\begin{align}
V[\overline{X}] &= \frac{1}{n^2} \left( n\sigma^2 + n(n-1)\Cov[X_i, X_j] \right) \\[0.7em]
&=\frac{1}{n} \left[ \sigma^2 + (n-1)\left\{-\frac{\sum_{i=1}^N \left( a_i^2-\mu^2\right)}{N(N-1)}\right\} \right] \\[0.7em]
&=\frac{1}{n} \left\{ \sigma^2 + (n-1)\left(-\frac{N\sigma^2}{N(N-1)}\right) \right\} \\[0.7em]
&=\frac{1}{n} \left\{ \sigma^2 + (n-1)\left(-\frac{\sigma^2}{N-1}\right) \right\} \\[0.7em]
&= \frac{(N-1)-(n-1)}{n(N-1)}\sigma^2\\[0.7em]
&= \frac{N-n}{N-1}\frac{\sigma^2}{n}
\end{align}

上でもお伝えしていますが,この結果は超幾何分布の平均と分散を導出する際に大活躍します。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。ぜひご参照ください。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする

目次
目次
閉じる