統計検定1級の過去問解答解説を行います。目次は以下をご覧ください。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
問題
統計検定1級の過去問からの出題になります。統計検定の問題の著作権は日本統計学会に帰属していますので,本稿にて記載することはできません。「演習問題を俯瞰する」で詳しく紹介している公式の過去問題集をご購入いただきますようお願い致します。
解答
対称性のある相関係数の性質に関する出題でした。
(1)
定義より,
\bary &= \frac{\sum_{i=1}^{n_{1}}y_{i}+\sum_{i=n_{1}+1}^{n_{2}}y_{i}}{n}
= \frac{n_{1}\bary_{1}+n_{2}\bary_{2}}{n}
\end{align}
となる。同様に,
s^{2}
&= \frac{1}{n-1}\left\{\sum_{i=1}^{n_{1}}(y_{i}-\bary)^{2}+\sum_{i=n_{1}+1}^{n_{2}}(y_{i}-\bary)^{2}\right\}
\end{align}
となるが,分子の第一項目に関して
\sum_{i=1}^{n_{1}}(y_{i}-\bary)^{2}
&= \sum_{i=1}^{n_{1}}\left\{(y_{i}-\bary_{1})-(\bary-\bary_{1})\right\}^{2}\\[0.7em]
&= \sum_{i=1}^{n_{1}}(y_{i}-\bary_{1})^{2}-2(\bary-\bary_{1})\sum_{i=1}^{n_{1}}(y_{i}-\bary_{1})+\sum_{i=1}^{n_{1}}(\bary-\bary_{1})^{2}\\[0.7em]
&= \sum_{i=1}^{n_{1}}(y_{i}-\bary_{1})^{2}+\sum_{i=1}^{n_{1}}(\bary-\bary_{1})^{2}
= (n_{1}-1)s_{1}^{2}+n_{1}(\bary-\bary_{1})^{2}
\end{align}
となるため,対称性より
s^{2}
&= \frac{1}{n-1}\left\{(n_{1}-1)s_{1}^{2}+n_{1}(\bary-\bary_{1})^{2}+(n_{2}-1)s_{2}^{2}+n_{2}(\bary-\bary_{2})^{2}\right\}\\[0.7em]
&= \frac{1}{n-1}\left\{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+n_{1}(n_{2}(-\bary_{1}+\bary_{2})/n)^{2}+n_{2}(n_{1}(\bary_{1}-\bary_{2})/n)^{2}\right\}\\[0.7em]
&= \frac{1}{n-1}\left\{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+n_{1}n_{2}(n_{1}+n_{2})(\bary_{1}-\bary_{2})^{2}/n^{2}\right\}\\[0.7em]
&= \frac{1}{n-1}\left\{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+n_{1}n_{2}(\bary_{1}-\bary_{2})^{2}/n\right\}
\end{align}
が得られる。
(2)
組標本を$(x,y)$とおくと,$x$の不偏分散$s_{x}^{2}$は小問(1)の$s^{2}$で$\bary_{1}{=}a,\bary_{2}{=}{-}a,s_{1}^{2}{=}s_{2}^{2}{=}0$を代入することにより,
s_{x}^{2} &= \frac{4a^{2}n_{1}n_{2}}{n(n-1)}
\end{align}
となり,$s_{y}^{2}$は$s^{2}$そのものである。また,不偏共分散の定義より,
(n-1)s_{xy}
&= \sum_{i=1}^{n}x_{i}y_{i}-n\barx\bary
= \sum_{i=1}^{n_{1}}ay_{i}-\sum_{i=n_{1}+1}^{n}ay_{i}-n\cdot\frac{n_{1}a-n_{2}a}{n}\cdot\frac{n_{1}\bary_{1}+n_{2}\bary_{2}}{n}\\[0.7em]
&= a(n_{1}\bary_{1}-n_{2}\bary_{2})-a(n_{1}-n_{2})(n_{1}\bary_{1}+n_{2}\bary_{2})/n\\[0.7em]
&= \frac{a}{n}\left\{(n-(n_{1}-n_{2}))n_{1}\bary_{1}-(n+(n_{1}-n_{2}))n_{2}\bary_{2})\right\}\\[0.7em]
&= \frac{a}{n}\left(2n_{1}n_{2}\bary_{1}-2n_{1}n_{2}\bary_{2}\right)
= \frac{2an_{1}n_{2}(\bary_{1}-\bary_{2})}{n}
\end{align}
となる。以上より,相関係数$r$は
r &= \frac{s_{xy}}{\sqrt{s_{x}s_{y}}}
= \frac{2an_{1}n_{2}(\bary_{1}-\bary_{2})/(n(n-1))}{\sqrt{4a^{2}n_{1}n_{2}s^{2}/n(n-1)}}
= \frac{\sqrt{n_{1}n_{2}}(\bary_{1}-\bary_{2})}{\sqrt{n(n-1)s^{2}}}
\end{align}
となることが示された。
$r$は$a$に依存しないことが分かりました。
(3)
与えられた値を代入すると,
\bary=\frac{37.9+28.1}{2}=33.0,\quad
s^{2}=\frac{13(57.92+44.13)^{2}+7(37.9-28.1)^{2}}{27}=74.03
\end{align}
および
r &= \frac{\sqrt{14\cdot 14}(37.9-28.1)}{\sqrt{28\cdot 27\cdot 74.03}}
= \sqrt{\frac{7}{27}}\cdot\frac{9.8}{\sqrt{74.03}}= 0.58
\end{align}
が得られる。ただし,標本組$(a,y_{1}),\ldots,(a,y_{n_{1}}),(-a,y_{n_{1}+1}),\ldots,(-a,y_{n})$の相関係数を$r$とおいた。
(4)
条件付き確率関数の定義より,
f(z|z\geq 0) &= \frac{f(z)}{f(z\geq 0)} = \frac{f(z)}{1/2} = 2f(z)
\end{align}
となる。ただし,標準正規分布の確率関数は$y$軸に対して対象であることを利用した。よって,条件付き期待値の定義より
E[Z|Z\geq 0]
&= \int_{-\infty}^{\infty}zf(z|z\geq 0)dz
= \int_{0}^{\infty}zf(z|z\geq 0)dz
= \int_{0}^{\infty}2zf(z)dz\\[0.7em]
&= 2\int_{0}^{\infty}\frac{1}{\sqrt{2\pi}}e^{-z^{2}/2}dz
= \sqrt{\frac{2}{\pi}}\left[-e^{-z^{2}/2}\right]_{0}^{\infty}
= \sqrt{\frac{2}{\pi}}
\end{align}
が得られる。
(5)
$T$の定義より,
E[T] &= a\cdot P(Z\geq 0)-a\cdot P(Z< 0) = \frac{a}{2}-\frac{a}{2} = 0
\end{align}
が得られる。同様に,
E[T^{2}] &= a^{2}\cdot P(Z\geq 0)+(-a)^{2}\cdot P(Z< 0) = \frac{a^{2}}{2}+\frac{a^{2}}{2} = a^{2}
\end{align}
より,
V[T] &= E[T^{2}]-E[T]^{2} = a^{2}-0 = a^{2}
\end{align}
が得られる。
(6)
多変量正規分布の条件付き分布より,$Y|X=x\sim\N(\rho x, 1-\rho^{2})$となるため,小問(4)より
E[Y|X\geq 0] &= E[\rho X|x\geq 0] = \rho E[X|x\geq 0] = \sqrt{\frac{2}{\pi}}\rho
\end{align}
が得られる。また,相関係数の定義より
\xi &= \frac{\Cov[T,Y]}{\sqrt{V[T]V[Y]}} = \frac{E[TY]-E[T]E[Y]}{a} = \frac{E[TY]}{a}
\end{align}
となる。$T$は離散型確率変数,$Y$は連続型確率変数であることから,
E[TY]
&= \int_{-\infty}^{\infty}\sum_{i=1}^{2}t_{i}yf(t_{i},y)dy
= \int_{-\infty}^{\infty}\sum_{i=1}^{2}t_{i}yf(y|t_{i})f(t_{i})dy\\[0.7em]
&= \int_{-\infty}^{\infty}\left\{\frac{ay}{2}f(y|t=a)-\frac{ay}{2}f(y|t=-a)\right\}dy\\[0.7em]
&= \frac{a}{2}\int_{-\infty}^{\infty}\left\{yf(y|x\geq 0)-yf(y|x<0)\right\}dy\\[0.7em]
&= \frac{a}{2}\left(E[Y|X\geq 0]-E[Y|X< 0]\right)
\end{align}
が得られる。ただし,$T$の対称性から$f(t_{1})=f(t_{2})=1/2$を利用した。ここで,小問(4)と全く同様にして
E[Y|X< 0] &= -E[Y|X\geq 0] = -\sqrt{\frac{2}{\pi}}
\end{align}
が得られるため,$E[TY]=\sqrt{2/\pi}a\rho$が得られる。したがって,$\xi=\sqrt{2/\pi}\rho$となり,$a$の値よらないことが示された。本問題の冒頭で与えられた標本組は,完全な標本組$(x_{i},y_{i})$に対し,$x_{i}\geq 0$であれば$x_{i}=a$,$x_{i}< 0$であれば$x_{i}=-a$と置き換えている。小問(3)では,この置き換えた標本組に対する相関係数$r$を求めている。本小問では,$x_{i}$の置き換えを確率変数$T$で表した相関係数を求めており,この相関係数は小問(3)で求めた$r$に相当する。したがって,完全な標本組$(x_{i},y_{i})$の相関係数$\rho$は
\rho &= \sqrt{\frac{\pi}{2}}r = \sqrt{\frac{3.14}{2}}\cdot 0.58 \simeq 0.73
\end{align}
と推定される。
コメント