統計検定1級の過去問解答解説を行います。目次は以下をご覧ください。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
問題
統計検定1級の過去問からの出題になります。統計検定の問題の著作権は日本統計学会に帰属していますので,本稿にて記載することはできません。「演習問題を俯瞰する」で詳しく紹介している公式の過去問題集をご購入いただきますようお願い致します。
解答
検定をテンプレとして暗記している人にとっては難しい問題だったかもしれません。新しく統計検定量を導入して,棄却の基準も新しく定められています。本質的には統計における検定のフレームワークに沿っていることには変わりないのですが,検定を正しく理解できていなければ解答できない問題でした。
順位和を統計検定量として採用している理由は,順位が大きければ大きいほど$z_i$が大きいこと,すなわち「母集団の分布の中央値$\theta$が$0$でない」ことを表すからです。各サンプルを同一視するのではなく,$z_i$の大きさに応じて重みづけするイメージです。
小問1
小問1では,全ての$z_i$が正であるケースを考えています。これは,帰無仮説$\theta = 0$では実現しにくいケースですので,帰無仮説は棄却されやすいはずです。しかし,それはある程度のサンプル数があった場合の話であって,例えばサンプル数が$1$では「たまたま$z_i$が正だっただけ」と結論づけられてしまうでしょう。そこで,この問題ではどれだけのサンプル数を確保すれば「たまたま$z_i$が正だっただけ」と結論づけられるのを回避できるのかを問うています。
例えば,サンプル数が$4$のときを考えてみましょう。このとき,全ての$z_i$は正であり,$H_0$の下では$z_i$が正を取る確率は$0.5$ですので,そのような状況が起こりうる確率は$0.5^4 = 0.0625 > 0.05$となります。これは,「サンプル数が$4$のときに全ての$z_i$が正であることは$6.25\%$の確率で起こり得る」ということを示していて,$5\%$有意とは言えません。
同様に,サンプル数が$5$のときを考えてみましょう。このとき,全ての$z_i$は正であり,$H_0$の下では$z_i$が正を取る確率は$0.5$ですので,そのような状況が起こりうる確率は$0.5^5 = 0.03125 < 0.05$となります。これは,「サンプル数が$5$のときに全ての$z_i$が正であることは$3.125\%$の確率で起こり得る」ということを示していて,$5\%$有意と言えます。したがって,求める答えは$n = 5$です。
この問題では$T^+$の値や棄却限界値を気にする必要はありません。なぜなら,全ての$z_i$が正という状況を考えている時点で$T^+$の値は確定していますから,純粋にそのようなケースが発生する確率を考えて,その確率が$5\%$を下回るかどうかを調べればよいだけだからです。
小問2
小問1とは異なり,サンプル数が固定されて$T^+$が変動するケースです。帰無仮説$H_0$が棄却されるケースを改めて考えてみましょう。
P(T^+ \leq c | H_0) \leq 0.05
\end{align}
$T^+$が下からおさえられていると$T^+$がとりうる値が膨大になってしまうため,ここでは$T^+$の代わりに上からおさえられる確率変数を導入することを考えます。$n=7$のとき,$T^+$の最大値は$1/2\cdot 7\cdot 8 = 28$ですので,
W &= 28 - T^+
\end{align}
を考えると都合がよさそうです。実際に先ほどの式に代入してみましょう。
P(28 - W \leq c | H_0) &\leq 0.05 \\[0.7em]
P(W \leq 28 - c | H_0) &\leq 0.05
\end{align}
確率の中身を上からおさえることができました。さて,試しに$W\leq 4$の場合を考えてみましょう。$W$は$T^+$と同じく順位和を表していますので,$W$の中身は異なる数字の和として表されています。
- $W=0$のとき:$W = 0$
- $W=1$のとき:$W = 1$
- $W=2$のとき:$W = 2$($W = 1 + 1$は同じ順位の$z_i$があることになり矛盾)
- $W=3$のとき:$W=3, 1 + 2$($W = 1 + 1 + 1$は同じ順位の$z_i$があることになり矛盾)
- $W=4$のとき:$W=4, 1 + 3$($W = 1 + 1 + 1 + 1$や$W=1 + 1 + 2$は同じ順位の$z_i$があることになり矛盾)
したがって,このようなケースが起こる確率は$0.5^7 \cdot 7 \fallingdotseq 0.055 > 0.05$となり,帰無仮説は棄却されません。もう少しサンプルの結果が帰無仮説に反している必要があるということですので,もっと$T^+$を大きくする,すなわち$W$を小さくする必要があります。
そこで,$W\leq 3$の場合を考えてみましょう。すると,先ほどの箇条書きを参考にすると,このようなケースが起こる確率は$0.5^7 \cdot 5 \fallingdotseq 0.039 < 0.05$となり,帰無仮説は棄却されます。したがって,$28 - c = 3$のとき帰無仮説が棄却されますので,求める答えは$c = 25$となります。
小問3
$T^+$の期待値と分散を求めるためには,$T^+$を既存の確率変数で表す必要があります。いま,$T^+$は順位和$R_i$のうち$z_i$が正の場合のみを採用した値ですので,ベルヌーイ分布$B(1, 1/2)$に従う確率変数を$U_i$とおくと
T^+ &= \sum_{i = 1}^n U_i R_i
\end{align}
と表すことができます。ベルヌーイ分布のページでお伝えしている通り,$U_i$の平均は$1/2$で分散は$1/4$になります。しかし,まだ$R_i$に関する期待値と分散を私たちは知っていません。そこで,差し当たり$R_i$が知っている状況下における$T^+$の期待値と分散を求めてみましょう。
E[T^+ | R_1, \ldots, R_n] &= \sum_{i = 1}^n E[U_i R_i] \\[0.7em]
&= \sum_{i = 1}^n R_i E[U_i] \\[0.7em]
&= \frac{1}{2} \sum_{i = 1}^n R_i \\[0.7em]
&= \frac{1}{4}n (n + 1)
\end{align}
さて,ここで条件付き期待値の性質を利用しましょう。条件付け期待値の条件を外したい場合は,その条件付けの確率変数に関する期待値を取ればよいのでした。
E[T^+] &= E_{R_1, \ldots, R_n}[T^+ | R_1, \ldots, R_n] \\[0.7em]
&= E_{R_1, \ldots, R_n}\left[\frac{1}{4}n (n + 1)\right] \\[0.7em]
&= \frac{1}{4}n (n + 1)
\end{align}
結局,$E[T^+ | R_1, \ldots, R_n]$は定数ですので,期待値操作をすり抜けてしまいます。これにて,$T^+$の期待値が求められました。同様に,条件付き分散を求めてみましょう。各$U_iR_i$は独立であることから$\Cov[U_iR_i, U_jR_j]=0$が成り立つことに注意すると,
V[T^+ | R_1, \ldots, R_n] &= \sum_{i = 1}^n V[U_i R_i] \quad (\because \Cov[U_iR_i, U_jR_j]=0) \\[0.7em]
&= \frac{1}{4}\sum_{i = 1}^n R_i^2 \\[0.7em]
&= \frac{1}{4} \cdot \frac{1}{6}n (n + 1)(2n + 1) \\[0.7em]
& \frac{n(n + 1)(2n + 1)}{24}
\end{align}
条件付き分散に関する定理を利用すれば,条件付き期待値と同様に条件付けられている部分を外すことができます。
V[T^+] &= E_{R_1, \ldots, R_n}[V[T^+ | R_1, \ldots, R_n]] + V_{R_1, \ldots, R_n}[E[T^+ | R_1, \ldots, R_n]] \\[0.7em]
&= E_{R_1, \ldots, R_n}\left[ \frac{n(n + 1)(2n + 1)}{24} \right] + V_{R_1, \ldots, R_n}\left[ \frac{1}{4}n (n + 1) \right] \\[0.7em]
&= \frac{n(n + 1)(2n + 1)}{24} \quad (\because \text{定数項の分散は}0)
\end{align}
結局,条件付き分散も条件の部分を無視した場合と同じ結果に帰着しました。
小問4
正規近似の問題です。$n=7$かつ平均と分散が小問3で求めた値をとるとき,正規分布の右側$0.05$点を$z(0.05)とするとき,$右片側検定の棄却域は以下のようになります。
T^+ &\geq E[T^+] + \frac{z(0.05)}{\sqrt{V[T^+]}} \\[0.7em]
&= 14 + \frac{1.645}{\sqrt{35}} \\[0.7em]
&\fallingdotseq 23.7
\end{align}
したがって,$T^{+} \geq 24$のとき帰無仮説は棄却されます。一方,正規近似の連続修正を施す場合,
T^+ &\geq E[T^+] + 0.5 + \frac{z(0.05)}{\sqrt{V[T^+]}} \\[0.7em]
&= 14.5 + \frac{1.645}{\sqrt{35}} \\[0.7em]
&\fallingdotseq 24.2
\end{align}
となり,$T^{+} \geq 25$のとき帰無仮説は棄却されます。これは,小問2で求めた$c=25$と等しくなり,$n=7$でも正確な棄却域を設定できたことを示しています。
コメント