【これなら分かる!】カイ二乗分布とは

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

カイ二乗分布

$Y_1,\ldots,Y_n$が独立に$N(0,1)$に従っているとします。このとき,

\begin{align}
X &= Y_1^2 + \cdots + Y_n^2
\end{align}

が従う分布を自由度$n$のカイ二乗分布と呼び($\chi^2$分布と表記されることもあります),$\chi^2(n)$と表します。カイ二乗分布には再生性があります。ロードマップ中ではカイ二乗分布は標準正規分布の多変量化に相当し,ガンマ分布の特殊な場合に相当します。導入方法からも分かる通り,カイ二乗分布は$X > 0$で定義されます。モーメント母関数は$t < 1/2$の範囲で存在します。

\begin{align}
f_{X}(x) &= \frac{x^{n/2-1}e^{-x/2}}{2^{n/2}\Gamma\left( n/2 \right)} \\[0.7em]
M_{X}(t) &= \left( \frac{1}{1-2t} \right)^{n/2} \\[0.7em]
E[X] &= n \\[0.7em]
V[X] &= 2n
\end{align}

ただし,$\Gamma(\cdot)$はガンマ関数を表す。

\begin{align}
\Gamma(n) &= \int_0^{\infty}t^{n-1}e^{-t}dt
\end{align}

確率密度関数

$\chi^2$分布は理論値とのズレに関する統計検定でよく利用され,確率密度関数はガンマ分布の特殊な場合に相当します。定義としては,それぞれ独立に標準正規分布$N(0,1)$に従う$X_1, \ldots, X_n$に対して,二乗和である

\begin{align}
Y &= X_1^2 + \cdots + X_n^2
\end{align}

が従う分布を自由度$n$の$\chi^2$分布と呼びます。確率密度関数を導出しましょう。

方針としては,自由度$1$の$\chi^2$分布の確率密度関数を導出し,ガンマ分布の再生性を利用して自由度$n$の$\chi^2$分布の確率密度関数を求めていきたいと思います。$X\sim N(0,1)$として,$Y=X^2$とします。この定め方から$Y\geq 0$であることに注意しましょう。$Y$から$X$を一意に定めることはできず,逆変換は存在しませんので,変数変換の定理を利用することはできません。

そこで,今回は累積分布関数を微分することで確率密度関数を求めてみましょう。

\begin{align}
P(X\leq x)=P(-\sqrt{y}\leq X \leq \sqrt{y})
\end{align}

ですので,以下のように$\chi^2$分布の確率密度関数$g(y)$を計算することができます。ただし,標準正規分布の確率密度関数を$f$,原始関数の1つを$F$と書きます。

\begin{alignat}{2}
g(y) &= \frac{d}{dy} P(X^2\leq y) = \frac{d}{dy} P(-\sqrt{y}\leq X \leq \sqrt{y}) \\[0.7em]
&= \frac{d}{dy} \int_{\sqrt{y}}^{\sqrt{y}} f(x)dx = \frac{d}{dy} \left\{ F(\sqrt{y}) – F(-\sqrt{y}) \right\} \\[0.7em]
&= \frac{1}{2\sqrt{y}}f(\sqrt{y}) + \frac{1}{2\sqrt{y}}f(-\sqrt{y})\\[0.7em]
&= \frac{1}{2\sqrt{y}}f(\sqrt{y}) + \frac{1}{2\sqrt{y}}f(\sqrt{y}) \quad (\because f(x)=f(-x))\\[0.7em]
&= \frac{1}{\sqrt{y}}f(\sqrt{y}) = \frac{1}{2^{\frac{1}{2}}\sqrt{\pi}}y^{-\frac{1}{2}}e^{-\frac{y}{2}}\\[0.7em]
&= \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})}y^{-\frac{1}{2}}e^{-\frac{y}{2}}\quad (\because \Gamma\left(\frac{1}{2}\right)=\sqrt{\pi}) \\[0.7em]
&= \mathrm{Ga}\left(\frac{1}{2}, \frac{1}{2}\right)
\end{alignat}

ガンマ分布の形が出現しました。ガンマ分布の再生性より,二乗和$Y=X_1^2\ldots+X_n^2$は$\mathrm{Ga}(n/2, 1/2)$に従います。つまり,自由度$n$のカイ二乗分布と$\mathrm{Ga}(n/2, 1/2)$は等価ということです。数学的な厳密さを無視すると,以下のようになります。

\begin{align}
\chi^2(n) &= \mathrm{Ga}\left( \frac{n}{2}, \frac{1}{2} \right)
\end{align}

これが「カイ二乗分布がガンマ分布の特殊な場合に相当する」とされる所以です。ガンマ分布の確率密度関数より,$\chi^2$分布の確率密度関数は以下のようになります。

\begin{align}
f(x) &= \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}
x^{\frac{n}{2}-1}e^{-\frac{x}{2}}\quad (x\geq 0)
\end{align}

多変量正規分布との関係

上記導入方法からも推測される通り,$\chi^2$分布は正規分布と非常に強い繋がりがあります。まず,多次元正規分布との関係性からお伝えしていきましょう。$\Sigma$を正定値$n$次対称行列とします。$X\sim N(\mu, \Sigma)$のとき,

\begin{align}
Y &= (X-\mu)^T\Sigma^{-1}(X-\mu)\sim \chi^2(n)
\end{align}

となることを証明します。$Z=\Sigma^{-1/2}(X-\mu)$とおくと,多変量正規分布の変数変換の定理から,

\begin{align}
Z\sim N(0_n, I_n)
\end{align}

となります。$Y=|Z|^2$と$\chi^2$の定義に注意すれば,$Y\sim \chi^2(n)$が分かります。

正規分布からの無作為標本

続いて,正規分布からの無作為標本における不偏分散を用いて表される以下の統計量

\begin{align}
\frac{(n-1)V}{\sigma^2}
\end{align}

が自由度$n-1$の$\chi^2$分布に従うことを示します。ただし,$X_1,\ldots, X_n$を$N(\mu, \sigma^2)$からの無作為標本とし,不偏分散を$V$とおきました。

この式の意味としては,分母が母分散(真の値)であり,分子は標本から計算された二乗和(実測値)になります。これがカイ二乗分布が「理論値とのズレ」を表す分布である所以とも言えるでしょう。

ここからの証明は少し慣れない操作を行います。方針を先にお伝えすると,標準正規分布に従う標準化された確率変数

\begin{align}
\frac{X_i-\mu}{\sigma}
\end{align}

を展開して,我々がカイ二乗分布に従うことを示したい

\begin{align}
\frac{(n-1)V}{\sigma^2}
\end{align}

を出現させます。すると,以下のような恒等式を得ることができます。

\begin{align}
\sum_{i=1}^n \left( \frac{X_i – \mu}{\sigma} \right)^2 &=
\left( \sqrt{n}\frac{\overline{X} – \mu}{\sigma} \right)^2 + \frac{(n – 1)V}{\sigma^2}
\end{align}

左辺は自由度$n$のカイ二乗分布に従いますので,右辺の第一項目をどうにかしてカイ二乗分布と結び付けようとするのがここからの流れです。右辺の第一項目を良く見ると,左辺の二乗の中身とよく似ているので,左辺を「ある変換」によって右辺第一項目のような形に変形できれば,右辺第一項目がカイ二乗分布に従うことを示すことができそうです。改めて確認しますが,ここからの目標は左辺と右辺をカイ二乗分布と結びつけることです。

議論を簡潔にするために行列を用いて表記していきます。まず,$X$を標準化した左辺の中身である

\begin{align}
\frac{X_i – \mu}{\sigma}
\end{align}

を第$i$成分とする確率ベクトルを$\mZ$とおきます。

\begin{align}
\mZ &= \left[ (X_1 – \mu) / \sigma, \ldots, (X_n – \mu) / \sigma \right]
\end{align}

すると,各成分は標準正規分布に従うため,$\vzero_n$を$n$次元ゼロベクトル,$I_n$を$n$次元単位行列とおくと

\begin{align}
\mZ \sim \calN(\vzero_n, I_n)
\end{align}

となります。次に,$\mZ$を用いて確率変数$Y$を表します。ここでは,直交変換を用いて作りましょう。なぜ直交変換を利用するかというと,「直交変換前後のノルムは変わらない」という性質を用いることができるからです。左辺の中身である$Z_i$と右辺第一項目の形に注目すると,直交変換を行う行列を

\begin{align}
\mH &= \frac{1_{n}}{\sqrt{n}}
\end{align}

とすれば,$\mY=\mH^T \mZ$と表すことができることが分かります。ただし,$1_{n}$は全ての要素が$1$である$n$次正方行列を表します。実際に確認してみましょう。

\begin{align}
\mY
&= \mH^T \mZ \\[0.7em]
&= \mH^T \cdot [(X_1-\mu)/\sigma, \ldots, (X_n – \mu)/\sigma] \\[0.7em]
&=\left[ \frac{\sum_{i=1}^n (X_i – \mu)}{\sqrt{n}\sigma}, \ldots, \frac{\sum_{i=1}^n (X_i – \mu)}{\sqrt{n}\sigma} \right] \\[0.7em]
&= \left[ \frac{n(\overline{X} – \mu)}{\sqrt{n}\sigma}, \ldots, \frac{n(\overline{X} – \mu)}{\sqrt{n}\sigma} \right] \\[0.7em]
&= \left[ \sqrt{n}\frac{n(\overline{X} – \mu)}{\sigma}, \ldots, \sqrt{n}\frac{(\overline{X} – \mu)}{\sigma} \right] \\[0.7em]
\end{align}

見事,右辺第一項目の形が出現しました。まとめると,冒頭で導入した恒等式は

\begin{align}
\| \mZ \|^2 &= Y_1^2 + \frac{(n – 1)V}{\sigma^2}
\end{align}

となります。また,$\mY$は$\mZ$を直交変換することで得られるのでした。

\begin{align}
\mY &= \mH^T \mZ
\end{align}

直交変換はノルムの大きさを変えませんので,以下が成り立ちます。

\begin{align}
\| \mY \|^2 &= \| \mZ \|^2
\end{align}

したがって,冒頭で示した恒等式に代入すれば,

\begin{align}
\| \mY \|^2 &= Y_1^2 + \frac{(n – 1)V}{\sigma^2}
\end{align}

となります。両辺を比較すると,

\begin{align}
\frac{(n – 1)V}{\sigma^2} &= Y_2^2 + \cdots + Y_n^2
\end{align}

が得られます。さて,多変量正規分布の変数変換に関する定理より,多変量標準正規分布に従う$\mZ$を直交変換して得られた$\mY$もまた標準正規分布に従うことが分かります。

\begin{align}
\mH^T \mZ &\sim \calN(\mH^T\vzero_n, \mH^T I_n \mH) \\[0.7em]
&= \calN(\vzero_n, I_n)
\end{align}

したがって,カイ二乗分布の定義より,$n-1$個の標準正規分布に従う確率変数の和は自由度$n-1$のカイ二乗分布に従うため,以下を示すことができました。

\begin{align}
\frac{(n – 1)V}{\sigma^2} &\sim \chi^2(n-1)
\end{align}

モーメント母関数

モーメント母関数の定義に従って計算していきます。

\begin{align}
M_{X}(t) &= \int_0^{\infty} e^{tx} \frac{x^{n/2-1} e^{-x/2}}{2^{n/2}\Gamma(n/2)} dx\\[0.7em]
&= \int_0^{\infty} \frac{x^{n/2-1} e^{-1/2\cdot(1 – 2t)x}}{2^{n/2}\Gamma(n/2)} dx
\end{align}

ここで,変数変換を用いてカイ二乗分布の確率密度関数の形を再出現させて「確率密度関数を定義域全体で積分したら$1$になる」ことを利用してモーメント母関数を求めていきましょう。

\begin{align}
\left( t – \frac{1}{2} \right) x &= – \frac{y}{2} \\[0.7em]
(1 – 2t) dx &= dy
\end{align}

したがって,モーメント母関数は以下のようになります。

\begin{align}
M_{X}(t) &= \int_0^{\infty} \frac{(1 – 2t)^{n/2-1} e^{-1/2y}}{2^{n/2}\Gamma(n/2)} (1 – 2t)^{-1} dy \\[0.7em]
&= (1 – 2t)^{-n/2} \int_0^{\infty} \frac{y^{n/2-1} e^{-y/2}}{2^{n/2}\Gamma(n/2)} dy\\[0.7em]
&= (1 – 2t)^{-n/2}
\end{align}

平均・分散

連続分布の平均と分散を求める際には「モーメント母関数の性質」(離散分布の平均と分散を求める際には「確率母関数の性質」)を利用します。

まずは1次モーメントと2次モーメントを求めておきます。

\begin{align}
\frac{d}{dt} M_X(t) &= n(1-2t)^{-\frac{n}{2} – 1} \\[0.7em]
\frac{d^2}{dt^2} M_X(t) &= n(n + 2)(1-2t)^{-\frac{n}{2} – 2}
\end{align}

したがって,カイ二乗分布の平均と分散は以下のようになります。

\begin{align}
E[X] &= \left.\frac{d}{dt} M_X(t) \right|_{t=0} \\[0.7em]
&= n \\[0.7em]
V[X] &= E[X^2] – E[X]^2 \\[0.7em]
&= \left.\frac{d^2}{dt^2} M_X(t) \right|_{t=0} – n^2 \\[0.7em]
&= n(n + 2) – n^2 \\[0.7em]
&= 2n
\end{align}

再生性

再生性を示すためには,再生性を示したい分布に従う独立な二つの確率変数を考え,その和のモーメント母関数(離散分布の場合はモーメント母関数)を計算したときに,パラメータが和の形になっていることを示します。

$X_1\sim \chi^2(n)$,$X_2\sim\chi^2(m)$を独立にカイ二乗分布に従う2つの確率変数とします。このとき,$X_1+X_2$のモーメント母関数を考えます。

\begin{align}
M_{X_1 + X_2}(t) &= M_{X_1}(t) \cdot M_{X_2}(t) \\[0.7em]
&= (1 – 2t)^{-\frac{n}{2}} \cdot (1 – 2t)^{-\frac{m}{2}} \\[0.7em]
&= (1 – 2t)^{-\frac{n + m}{2}}
\end{align}

これは,$X_1+X_2$のモーメント母関数が$\chi^2(n + m)$の母関数であることを示しています。つまり,

\begin{align}
X_1+X_2\sim \chi^2(n + m)
\end{align}

であり,カイ二乗分布の再生性を示しています。

ロードマップ

確率分布のロードマップ

さて,ロードマップに戻りましょう。 カイ二乗分布は標準正規分布に従う確率変数の二乗(和)として導入されました。また,その導出過程でカイ二乗分布がガンマ分布の特殊な場合であることも確認しました。さらに,モーメント母関数がシンプルな形をしており,再生性を持つことも確認しました。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする