【過去問解答】2021年統計検定1級<数理統計問2>

統計検定1級の過去問解答解説を行います。目次は以下をご覧ください。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

問題

統計検定1級の過去問からの出題になります。統計検定の問題の著作権は日本統計学会に帰属していますので,本稿にて記載することはできません。「演習問題を俯瞰する」で詳しく紹介している公式の過去問題集をご購入いただきますようお願い致します。

解答

超幾何分布の事後確率最大化に関する出題です。

(1)

\begin{align}
P(X=x) &= \frac{{}_{N_{A}}C_{x}\cdot{}_{100-N_{A}}C_{15-x}}{{}_{100}C_{15}}\label{解答1}
\end{align}

ただし,$x\in[\max(0,N_{A}-85),\min(15,N_{A})]$である。

まずは,確率変数$X$の定義域を確認します。$X$の実現値を$x$とおくと,定義域の下限は$\max(0,N_{A}{-}85)$となります。なぜなら,袋の中が全て豆$A$の場合はどうあがいても$x{=}15$となるからです。袋の中に豆$A$が$85$個以上含まれているときには,$x$の最小値は$1$以上となります。これを数式で表すと,$\max(0,N_{A}{-}85)$となります。

同様に,定義域の上限は$\min(15,N_{A})$となります。なぜなら,袋の中が全て豆$B$の場合はどうあがいても$x{=}0$となるからです。すなわち,袋の中に豆$B$が$15$個以下しか含まれないときには,$x$の最大値は$14$以下となります。これを数式で表すと,$\min(15,N_{A})$となります。あとは場合の数の計算により,解答は式($\ref{解答1}$)のようになります。

(2)

\begin{align}
\hat{N}_{A} &= 26\label{解答2}
\end{align}

$N_{A}$の最尤推定値,すなわち尤度関数$L(N_{A})$を最大にする$N_{A}$と求めます。確率変数が連続型の場合は,微分を用いて最大最小問題を解けばよいのですが,今回は確率変数が離散型であるため,少しテクニックが必要になります。具体的には,

\begin{align}
J(N_{A}) &= \frac{L(N_{A}+1)}{L(N_{A})} > 1
\end{align}

を満たす$N_{A}$の範囲を求めます。これは,$N_{A}=0,1,\ldots$と$N_{A}$の離散変数を考えていくときに,尤度が増加から減少に転じる$N_{A}$の値を求めることに相当しています。

実際の問題では$J(N_{A}){<}1$となる$N_{A}$の範囲を求めよというヒントが示されていました。本稿では$J(N_{A}){>}1$となる$N_{A}$の範囲を求める方針で解いていきますが,本質的にはどちらも尤度の増減が変化するポイントを探しています。実際の試験本番では$J(N_{A})=1$となる$N_{A}$を求めてしまって,あとは上の整数なのか下の整数なのかを考えるという方針でもよいでしょう。

具体的にみていきましょう。前問(1)の結果から,$J(N_{A})$は以下のように表されます。

\begin{align}
J(N_{A}) &= \frac{{}_{N_{A}+1}C_{4}\cdot{}_{99-N_{A}}C_{15-4}}{{}_{100}C_{15}}\cdot\frac{{}_{100}C_{15}}{{}_{N_{A}}C_{4}\cdot{}_{100-N_{A}}C_{15-4}}\\[0.7em]
&= \frac{{}_{N_{A}+1}C_{4}\cdot{}_{99-N_{A}}C_{15-4}}{{}_{N_{A}}C_{4}\cdot{}_{100-N_{A}}C_{15-4}}
= \frac{(N_{A}+1)(89-N_{A})}{(N_{A}-3)(100-N_{A})}
\end{align}

$N_{A}{-}3{>}0$のとき,$J(N_{A}){>}1$を展開した$(N_{A}{+}1)(89{-}N_{A}){>}(N_{A}{-}3)(100{-}N_{A})$を解きます。

\begin{align}
-N_{A}^{2}+88N_{A}+89 < -N_{A}^{2}+103N_{A}-300
\end{align}

移項して整理すると,以下が得られます。

\begin{align}
N_{A} &< \frac{389}{15} = 25.933...
\end{align}

$N_{A}{=}0,\ldots,25$のときは$L(N_{A}+1){>}L(N_{A})$となりますが,$N_{A}{=}26,\ldots,100$のときは$L(N_{A}+1){<}L(N_{A})$となることが分かりました。以上より,$N_{A}=26$のとき$L(N_{A})$は最大値をとります。$N_{1}{=}1,2$のときは不等号を反転した$N_{A}{>}25.933...$が得られ,矛盾します。したがって,求める答えは式($\ref{解答2}$)のようになります。

(3)

\begin{align}
C &= \frac{1}{5151}\label{解答3}
\end{align}

確率の定義より,全事象に対する確率の総和は$1$となりますので,

\begin{align}
\sum_{n=0}^{100}P(N_{A}=n) &= \sum_{n=0}^{100}C(n+1) = C\cdot\frac{1}{2}(100+1)(100+2) = 1
\end{align}

が成り立ちます。したがって,式($\ref{解答3}$)が得られます。

(4)

正規化定数を無視した事後分布は以下のように表される。

\begin{align}
(N_{A}+1)\cdot{}_{N_{A}}C_{4}\cdot{}_{100-n}C_{15-4}
\end{align}

ただし,$N_{A}\in[4,89]$である。このとき,事後確率を最大にする$N_{A}$は以下で与えられる。

\begin{align}
\hat{N}_{A} &= 30\label{解答4}
\end{align}

まず,$N_{A}$の定義域を求めておきましょう。問(2)の状況では豆$A$が少なくとも$4$粒入っていることは確約されていますので,$N_{A}$の下限は$4$です。同時に,豆$B$が少なくとも$15-4=11$粒入っていることも確約されていますので,$N_{A}$の上限は$100-11=89$です。つまり,$N_{A}$の定義域は$[4,89]$となります。このとき,事後分布は事前分布と尤度関数の積によって得られますので,事後分布の正規化定数を$D$とおくと,事後分布は

\begin{align}
P(N_{A}|X=4) &= D\cdot P(N_{A})\cdot P(X=4|N_{A}) \\[0.7em]
&= D\cdot \frac{N_{A}+1}{5151}\cdot \frac{{}_{N_{A}}C_{4}\cdot{}_{100-N_{A}}C_{15-4}}{{}_{100}C_{15}}\\[0.7em]
&\propto (N_{A}+1)\cdot{}_{N_{A}}C_{4}\cdot{}_{100-N_{A}}C_{15-4}
\end{align}

と表されます。

ベイズの定理より,正規化定数$D$は$1/P(X=4)$となります。

問(2)と同様に離散型確率変数に対するMAP推定(事後確率最大基準の推定)を行います。まず,$J(N_{A})$を新たに

\begin{align}
J(N_{A}) &= \frac{P(N_{A}+1|X=4)}{P(N_{A}|X=4)}
\end{align}

と定義します。まず,$J(n)$をきれいな形にしておきましょう。

\begin{align}
J(N_{A}) &= \frac{(N_{A}+2)\cdot{}_{N_{A}+1}C_{4}\cdot{}_{99-N_{A}}C_{15-4}}{(N_{A}+1)\cdot{}_{N_{A}}C_{4}\cdot{}_{100-N_{A}}C_{15-4}}\\[0.7em]
&= \frac{(N_{A}+2)(N_{A}+1)(89-N_{A})}{(N_{A}+1)(N_{A}-3)(100-N_{A})}\\[0.7em]
&= \frac{(N_{A}+2)(89-N_{A})}{(N_{A}-3)(100-N_{A})}
\end{align}

$N_{A}>3$のとき,$J(N_{A})>1$を解きます。

\begin{align}
-N_{A}^{2}+87N_{A}+178 &> -N_{A}^{2}+103N_{A}-300
\end{align}

移項して整理すると,以下が得られます。

\begin{align}
N_{A} &< \frac{478}{16} = 29.875...
\end{align}

$N_{A}{=}0,\ldots,29$のときは$L(N_{A}+1){>}L(N_{A})$となりますが,$N_{A}{=}30,\ldots,100$のときは$L(N_{A}+1){<}L(N_{A})$となることが分かりました。よって,$N_{A}=30$のとき$L(N_{A})$は最大値をとりますので,求める答えは式($\ref{解答4}$)のようになります。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.

目次