【徹底解説】カイ二乗分布と正規分布からの無作為標本

2022年2月4日

本記事は「これなら分かる！はじめての数理統計学」シリーズに含まれます。

目次へ

不適切な内容があれば，記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

カイ二乗分布と正規分布からの無作為標本

正規分布からの無作為標本における不偏分散$V$を用いて表される以下の統計量

\begin{align}
\frac{(n-1)V}{\sigma^2}
\end{align}

は，自由度$n-1$のカイ二乗分布に従う。

分母は真の値である母分散であり，分子は観測値の二乗和（実測値）になります。本定理がカイ二乗分布が「理論値とのズレ」を表す分布である所以となっているとも言えます。

証明

やや唐突ですが，以下のような恒等式を考えます。

\begin{align}
\sum_{i=1}^n \left( \frac{X_i - \mu}{\sigma} \right)^2 &=
\left( \sqrt{n}\frac{\oX - \mu}{\sigma} \right)^2 + \frac{(n - 1)V}{\sigma^2} \label{恒等式}
\end{align}

式($\ref{恒等式}$)の導出は後ほど行います。

カイ二乗分布の定義より，標準化された変数の二乗和である式($\ref{恒等式}$)の左辺は，自由度$n$のカイ二乗分布に従います。私たちが示したい目標は，右辺の第二項目がカイ二乗分布に従うことでしたので，右辺の第一項目がカイ二乗分布に従うことを示せばよいです。右辺の第一項目をよく見ると，左辺の二乗の中身とよく似ています。それゆえ，左辺を「ある変換」によって右辺第一項目のような形に変形できれば，右辺第一項目がカイ二乗分布に従うことを示すことができそうです。

ここで，式($\ref{恒等式}$)の恒等式を導出しておきましょう。右辺を計算して左辺になることを確認します。分母の$\sigma^2$は両辺で等しいため，$\sigma^2$を除いて考えます。

\begin{align}
\left\{ \sqrt{n}\left(\overline{X} - \mu\right) \right\}^2 + (n - 1)V &= n\left( \overline{X}^2-2\mu\overline{X}+\mu^2 \right) + \sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2 \\[0.7em]
&= n\left( \overline{X}^2-\frac{2\mu}{n}\sum_{i=1}^{n}X_i+\mu^2 \right) + \sum_{i=1}^{n} X_i^2-2n\overline{X}^2+n\overline{X}^2 \\[0.7em]
&= \sum_{i=1}^{n} X_i^2-2\mu\sum_{i=1}^{n}X_i +n\mu^2 \\[0.7em]
&= \sum_{i=1}^{n}\left( X_i^2-2\mu X_i + \mu^2 \right) \\[0.7em]
&= \sum_{i=1}^{n}\left( X_i-\mu \right)^2
\end{align}

さて，議論を簡潔にするため，行列表記を導入していきます。まず，$i=1,\ldots,n$に対して

\begin{align}
Z_{i} &= \frac{X_i - \mu}{\sigma}
\end{align}

と定義し，$Z_i$を並べたベクトルを$\mZ$とおきます。すると，各成分は標準正規分布に従うため，

\begin{align}
\mZ \sim \N(\vzero_n, I_n)
\end{align}

となります。ただし，$\vzero_n$を$n$次元ゼロベクトル，$I_n$を$n$次元単位行列を表します。次に，式($\ref{恒等式}$)を簡潔に表すため，右辺の第一項目を$Y_{1}$とおきます。

\begin{align}
Y_{1} &= \sqrt{n}\frac{\oX - \mu}{\sigma}\label{Y_1の定義}
\end{align}

すると，式($\ref{恒等式}$)は以下のように表されます。

\begin{align}
\| \mZ \|^2 &= Y_1^2 + \frac{(n - 1)V}{\sigma^2} \label{恒等式のY_1を用いた表現}
\end{align}

以下では，冒頭でもお伝えした通り，$Z_{1}$と$Y_{1}$の形が似ていることに注目して，両者を何らかの変換を用いて関係付けることを考えます。何らかの変換のうち，直交変換には「変換前後のノルムは変わらない」という便利な性質がありますので，可能であれば直交変換を使いたいところです。すなわち，$\mZ$に対してある直交行列$\mH$を掛けることで，$Y_{1}$を第一要素にもつ$n$次元ベクトル$\mY$を定義することを考えます。

\begin{align}
\mY &= \mH^T \mZ\label{Yの定義}
\end{align}

ただし，$\mH$を構成する$n$次元列ベクトルを

\begin{align}
\mH &= \left[\vh_{1},\ldots,\vh_{n}\right]
\end{align}

と定義し，$\mH$は$Y_{1}$と$Z_{1}$の制約である式($\ref{恒等式のY_1を用いた表現}$)を満たさなければなりません。以下では，そのような$\mH$が存在することを確認します。まず，大前提として，$\mH$は直交行列であり，直交行列は実数空間のユニタリ行列であることから，$\mH$はユニタリ行列と同値な条件のいずれかを満たす必要があります。今回は，$n$個の$\vh_{1},\ldots,\vh_{n}$は正規直交系をなすという条件を利用しましょう。そこで，グラム・シュミットの正規直交化法を用いることを考えます。$\mH$は$Y_{1}$と$Z_{1}$の制約である式($\ref{恒等式のY_1を用いた表現}$)を満たさなければならないため，$Z_{1}$と$Y_{1}$の形に注目すると，

\begin{align}
\vh_{1} &= \frac{1}{\sqrt{n}}\left[1,\ldots,1\right]^{T}
\end{align}

とすればよさそうです。実際に，

\begin{align}
\mY
&= \mH^T \mZ \\[0.7em]
&= \mH^T \cdot [(X_1-\mu)/\sigma, \ldots, (X_n - \mu)/\sigma] \\[0.7em]
&=\left[ \frac{\sum_{i=1}^n (X_i - n\mu)}{\sqrt{n}\sigma}, \ldots \right] \\[0.7em]
&= \left[ \frac{n(\overline{X} - \mu)}{\sqrt{n}\sigma}, \ldots \right] \\[0.7em]
&= \left[ \sqrt{n}\frac{\overline{X} - \mu}{\sigma}, \ldots \right]
\end{align}

となり，しっかりと$Y_{1}$が出現します。次に，一次独立な元の集合と基底の拡大を行うことにより，$\vh_{1}$に対して$n-1$個の$n$次元実数空間の元$\vw_{2},\ldots,\vw_{n}$を付け加えて，$n$次元実数空間の基底を作ります。すると，これらの基底に対してグラム・シュミットの正規直交化法を用いることにより，$\vh_{1},\ldots,\vh_{n}$を得ることができます。すなわち，式($\ref{恒等式のY_1を用いた表現}$)を満たす$\mH$が存在することが示されました。

さて，議論もクライマックスです。$\mY$は$\mZ$を直交変換することで得られるのでした。直交変換はノルムの大きさを変えませんので，以下が成り立ちます。

\begin{align}
\| \mY \|^2 &= \| \mZ \|^2 \label{ノルムが等しい条件}
\end{align}

式($\ref{恒等式のY_1を用いた表現}$)と式($\ref{ノルムが等しい条件}$)より，以下が成り立ちます。

\begin{align}
\| \mY \|^2 &= Y_1^2 + \frac{(n - 1)V}{\sigma^2}
\end{align}

ノルムの定義より$\| \mY \|^{2}=Y_{1}^{2}+Y_{2}^{2}+\cdots+Y_{n}^{2}$となりますので，

\begin{align}
\frac{(n - 1)V}{\sigma^2} &= Y_2^2 + \cdots + Y_n^2 \label{Y}
\end{align}

が得られます。さて，多変量正規分布の線形変換に関する定理より，多変量標準正規分布に従う$\mZ$を直交変換して得られた$\mY$は，多変量標準正規分布に従うことが分かります。

\begin{align}
\mH^T \mZ &\sim \calN(\mH^T\vzero_n, \mH^T I_n \mH)=\N(\vzero_n, I_n)
\end{align}

カイ二乗分布の定義より，式($\ref{Y}$)の右辺は自由度$n-1$のカイ二乗分布に従いますので，

\begin{align}
\frac{(n - 1)V}{\sigma^2}
\end{align}

は自由度$n-1$のカイ二乗分布に従うことが分かりました。

補足1

$s^{2}$を標本分散とした場合は，全く同様の議論により

\begin{align}
\frac{ns^{2}}{\sigma^2}
\end{align}

が自由度$n-1$のカイ二乗分布に従います。

補足2

$\mY$が従う確率密度関数を求めます。直行行列の定義より，式($\ref{Yの定義}$)の逆変換は

\begin{align}
\mZ &= \mH\mY\label{Zの定義}
\end{align}

と表されます。$\mH$のヤコビアンを求めるために$(\det\mH)^{2}$を計算してみると，

\begin{align}
(\det\mH)^{2} &= (\det\mH^{T})(\det\mH) = \det(\mH^{T}\mH) = \det(I_{n}) = 1
\end{align}

が得られ，$\det\mH=\pm 1$となります。したがって，$\mH$のヤコビアンは

\begin{align}
J &= \abs(\det\mH) = 1
\end{align}

となります。したがって，$\mY$の確率密度関数は式($\ref{Zの定義}$)を多変量標準正規分布の確率密度関数に代入して

\begin{align}
f_{\mY}(\vy)
&= \frac{1}{(2\pi)^{n/2}}\exp\left(-\frac{(\vh\vy)^{T}\vh\vy}{2}\right)\\[0.7em]
&= \frac{1}{(2\pi)^{n/2}}\exp\left(-\frac{\vy^{T}\vh^{T}\vh\vy}{2}\right)\\[0.7em]
&= \frac{1}{(2\pi)^{n/2}}\exp\left(-\frac{\vy^{T}\vy}{2}\right)
\end{align}

となります。すなわち，$\mY$も標準正規分布に従います。標準正規分布の定義より$Y_{1},\ldots,Y_{n}$はそれぞれ独立に標準正規分布に従います。これにより，$Y_{2},\ldots,Y_{n}$は式($\ref{Y_1の定義}$)で定義される$Y_{1}$と独立になりますので，

\begin{align}
(n-1)V &= ns^{2} = \sigma^{2}\sum_{i=2}^{n}Y_{i}^{2}
\end{align}

と$\oX$は独立になります。繰り返しますが，$(n-1)V$および$ns^{2}$と$\oX$は独立になるということです。

参考文献

本稿の執筆にあたり参考にした文献は，以下でリストアップしております。

参考文献リストへ

シェアはこちらからお願いします！

コメント一覧（8件）

西納より:

2023年1月15日 21:00

表記の誤り箇所の指摘です。
式(17)自体は正しいのですが、その上の行の「YはZを直交変換することで得られるのでした。」は誤りです。実際、HとH^tをかけても単位行列になりません。

最近統計学を勉強し始めたのですが、数学的にきちんと説明がなされており体系的に整理もなされている本サイトには非常にお世話になっております。このような形で知識を公開していただきありがとうございます。

返信
- zuka より:
  
  2023年1月17日 23:51
  
  西納様
  
  ご連絡ありがとうございます。
  
  >HとH^tをかけても単位行列になりません。
  こちらですが，$1_{n}$を単位行列と勘違いされている可能性があります。$1_{n}$は全ての要素が$1$である$n$次正方行列を表しますので，
  \begin{align}
  \mH\mH^{T} &= \mH^{T}\mH = I_{n}
  \end{align}
  とならないでしょうか。
  
  >数学的にきちんと説明がなされており体系的に整理もなされている本サイトには非常にお世話になっております。
  お言葉身に沁みます。今後とも正確かつ分かりやすい情報発信を続けて参りますので，どうぞよろしくお願いいたします。
- zuka より:
  
  2023年1月18日 10:02
  
  西納様
  
  すみません。頭を冷やして改めて考えましたが，$\mH\mH^{T}=\mH^{T}\mH=I_{n}$となりませんね。直交行列の定義が不適切でした。本文を修正しましたので，ご確認いただけますでしょうか。
西納より:

2023年1月19日 13:36

別件ですが他の式の誤りを見つけたので報告です。
式(4)ですが第一項は
\begin{align}
\overline{X}^2-2\frac{1}{n}\mu \sum_{i=1}^{n}X_{i}+\mu^2
\end{align}
ではないでしょうか。同様に式(5)の第二項は
\begin{align}
-2\mu \sum_{i=1}^{n}X_{i}
\end{align}
になると思います。

ここから本題です。
式(11)以前にYが明示的に定義されていないように見受けられます。
Yが分からなかったためHも分からず、Hが直交行列かどうか判断できませんでした。
度々の更新のお願いでお手数おかけいたしますが、Y(あるいはH)の明示式の表記をお願いできないでしょうか。

返信
- zuka より:
  
  2023年1月19日 19:12
  
  西納様
  
  ご指摘誠にありがとうございます。計算ミスに関しては修正しておきました。後者のご指摘に関して，$\mY$は$Y_{1}$を第一要素にもつ$n$次正方行列と定義していたのですが，分かりにくかったですね。本文を修正しておきましたので，再度ご確認いただけますでしょうか。
西納より:

2023年1月20日 16:07

式(11)の直前の行で「$n$次元正方行列を$\mathbf{Y}$とおきます。」とありますが、$\mathbf{Y}$は$n$次元ベクトルではないでしょうか。同様に式(11)の直後の段落の「n次縦ベクトル」という記述も修正が必要になると思います。以下では$\mathbf{Y}$を$n$次元ベクトルとして議論をします。

誤読だったら本当に申し訳ないのですが、式(11)の直後の段落で暗示している内容というのは
「任意の実数$Y_2,\cdots,Y_n$に対して、ある直交行列$\mathbf{H}$で$\mathbf{Y}=\mathbf{H}^T\mathbf{Z}$を満たすものが存在する。」
ということでしょうか。この主張は誤りで、例えば$Y_2,\cdots,Y_n$を全て0とした場合$\|\mathbf{Y}\|^2$=$Y_1^2$となるので明らかに$\|\mathbf{Y}\|^2\neq\|\mathbf{Z}\|^2$です。そのため$\mathbf{Y}=\mathbf{H}^T\mathbf{Z}$を満たすような直交行列$\mathbf{H}$は存在しません。

僭越だとは思いますが、適切だと思われる議論の一例を提案させていただきますと、式(14)の$\mathbf{h}_1$に対してこれを第一列にもつような直交行列$\mathbf{H}$が存在する。実際$\mathbf{h}_1,\cdots,\mathbf{h}_n$が実$n$次元ベクトル空間の正規直交基底となるように$\mathbf{h}_2,\cdots,\mathbf{h}_n$を定め、それらを並べた行列を$\mathbf{H}$とすればよい。(大きさが1の実ベクトルに対して、それを含む正規直交基底が存在することはシュミットの直交化から保証されている。)この$\mathbf{H}$を用いて$\mathbf{Y}=\mathbf{H}^T\mathbf{Z}$として$\mathbf{Y}$を定める。
という形の議論だと問題ないかと思われます。

長くなってしまった上に少し込み入った議論をしてしまいました。ご確認いただけると幸いです。

返信
- zuka より:
  
  2023年1月21日 12:30
  
  西納様
  
  ご指摘誠にありがとうございます。お恥ずかしい誤解をしておりました。本文を改めて修正致しましたので，大変お手数ですがご確認いただけますでしょうか。どうぞよろしくお願い致します。
西納より:

2023年1月21日 17:40

確認しました。問題なさそうです。
連日にわたる更新作業やコメント返信等、辛抱強くお付き合いいただきありがとうございました。
わたしが大雑把に提案した議論の内容も、記事のほうで細部を詰めていただき分かりやすい内容となっております。これからも本サイトを利用させていただきます。ありがとうございました。

返信

【徹底解説】カイ二乗分布と正規分布からの無作為標本

カイ二乗分布と正規分布からの無作為標本

証明

補足1

補足2

参考文献

コメント

コメント一覧 （8件）

西納 へ返信する コメントをキャンセル

コメント一覧（8件）

西納へ返信するコメントをキャンセル