統計検定1級の過去問解答解説を行います。目次は以下をご覧ください。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
問題
統計検定1級の過去問からの出題になります。統計検定の問題の著作権は日本統計学会に帰属していますので,本稿にて記載することはできません。「演習問題を俯瞰する」で詳しく紹介している公式の過去問題集をご購入いただきますようお願い致します。
解答
適合度検定と尤度比検定に関する出題でした。
(1)
本文で与えられている通り,各人数$n_{j}$は試行回数$n$,確率$q_{j}$の多項分布に従っており,多項確率$q_{j}$は
q_{j} &= {}_{4}C_{j}p^{j}(1-p)^{4-j}
\end{align}
である。この仮定に基けば,$p$の対数尤度は
\log L(p)
&= \log\left(\frac{n!}{\prod_{j=0}^{4}n_{j}!}\prod_{j=0}^{4}q_{j}^{n_{j}}\right)
= \log\left\{\frac{n!}{\prod_{j=0}^{4}n_{j}!}\prod_{j=0}^{4}\left({}_{4}C_{j}p^{j}(1-p)^{4-j}\right)^{n_{j}}\right\}\\[0.7em]
&\propto \sum_{j=0}^{4}n_{j}\left\{j\log p+(4-j)\log(1-p)\right\}
\end{align}
となる。ただし,$p$に依存しない項は無視した。対数尤度関数を$p$で偏微分して$0$とおくと,
\frac{\partial \log L(p)}{\partial p}
&{=} \sum_{j=0}^{4}n_{j}\left\{\frac{j}{p}-\frac{4-j}{1-p}\right\}
{=} \frac{1}{p(1-p)}\sum_{j=0}^{4}n_{j}(j-4p)
{=} \frac{1}{p(1-p)}\left(\sum_{j=0}^{4}jn_{j}-4np\right)
\end{align}
となるため,求める最尤推定値は
\hat{p} &= \frac{1}{4n}\sum_{j=0}^{4}jn_{j}\label{最尤推定値}
\end{align}
となる。
正確には,最尤推定値$\hat{p}$が対数尤度関数を最大化するとは限らないです。グラフの概形や増減表等を用いて示すことが多いですが,本試験ではそこまで求められていないでしょう。
(2)
問題文で与えられた二項分布モデルを仮定したときの$q_{j}$として,$p$の最尤推定値を用いた$\hat{q}_{j}=\hat{q}_{j}(\hat{p})$を用いると,このモデルの適合度検定に対する理論値は$n\hat{q}_{j}$,実測値は$n_{j}$となる。したがって,カイ二乗統計量は
\chi^{2} &= \sum_{j=0}^{4}\frac{(n_{j}-n\hat{q}_{j})^{2}}{n\hat{q}_{j}}
\end{align}
となる。自由度は,$\sum_{j=0}^{4}q_{j}=1$および式($\ref{最尤推定値}$)の制約条件が$2$つあるため,セル数$5$から$2$を引いた$3$となる。
(3)
二項分布モデルを仮定した場合の最大尤度は
\frac{n!}{\prod_{j=0}^{4}n_{j}!}\prod_{j=0}^{4}\hat{q}_{j}^{n_{j}}
\end{align}
であり,二項分布モデルを仮定しない場合の最大尤度は
\frac{n!}{\prod_{j=0}^{4}n_{j}!}\prod_{j=0}^{4}\left(\frac{n_{j}}{n}\right)^{n_{j}}
\end{align}
であるため,尤度比統計量は
-2\log \frac{(n!/\prod_{j=0}^{4}n_{j}!)\prod_{j=0}^{4}\hat{q}_{j}^{n_{j}}}{(n!/\prod_{j=0}^{4}n_{j}!)\prod_{j=0}^{4}(n_{j}/n)^{n_{j}}}
&= 2\sum_{j=0}^{4}n_{j}\log \left(\frac{n_{j}}{n\hat{q}_{j}}\right)
\end{align}
となる。小問(2)と同様に,二項分布モデルを仮定した場合の自由度は$\sum_{j=0}^{4}q_{j}=1$の制約条件から$5{-}1{=}4$,二項分布モデルを仮定しない場合の自由度は$1$となるため,自由度は$4{-}1{=}3$となる。
尤度比検定量の自由度は,母数空間の次元から制限された母数空間の次元を減算して求められます。
(4)
小問(2)と小問(3)で求めた検定統計量が,いずれも$\chi^{2}(3)$に従うことを利用して適合度検定を行う。検定統計量が棄却域に属する場合は,二項分布モデルは適合しないという結論となる。この場合,二項分布モデルは不適切であったと考えられるため,各番組に対して満足するか否かが互いに独立である仮定は妥当か,および各番組に対して満足する確率がすべて同一である仮定は妥当かという観点で,モデルの当てはめを再検討する必要がある。
コメント