【徹底解説】多変量正規分布の条件付き分布

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

多変量正規分布の条件付き分布

$\mX \sim \N(\vmu, \Sigma)$のとき,

\begin{align}
\mX_1|(\mX_2=\vx_2) \sim \N(\vmu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\vx_2 - \vmu_2), \Sigma_{11|2})
\end{align}

である。ただし,以下のように各変数を$D_1$次元の部分と$D_2=D-D_1$次元の部分に区分けした。

\begin{align}
\mX &=
\begin{bmatrix}
X_1 \\
X_2 \\
\end{bmatrix},
&
\vmu &=
\begin{bmatrix}
\vmu_1 \\
\vmu_2 \\
\end{bmatrix},
&
\Sigma &=
\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{bmatrix}
\end{align}

さらに,

\begin{align}
\Sigma_{11|2} &= \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21}
\end{align}

と置いた。

多変量正規分布の条件付き分布も多変量正規分布になることを表しています。条件付き分布の計算は一次元の場合でも煩雑になることが多いため,本定理が活躍する場面が非常に多いです。

証明

やや天下り的なのですが,以下のように変換行列$A$を定めます。

\begin{align}
A &=
\begin{bmatrix}
I_{D_1} & -\Sigma_{12}\Sigma_{22}^{-1} \\[0.7em]
O_{D_2, D_1} & I_{D_2}
\end{bmatrix}
\end{align}

ただし,$I_{D}$は$D$次元単位行列,$O_{D_2, D_1}$は$D_2 \times D_1$サイズのゼロ行列を表しています。

この線形変換$A$は,$A\Sigma A^T$を小行列に分解すると対角行列となるように定めています。こうすることで,正規分布の独立性に関する定理を利用できるため都合が良いのです。なお,通常は本定理を証明するために,多変量正規分布の確率密度関数の比を展開してあげる必要があり,煩雑な計算を要します。

$A\mX$を計算してみましょう。

\begin{align}
A\mX &=
\begin{bmatrix}
\mX_1 - \Sigma_{12}\Sigma_{22}^{-1}\mX_2 \\
\mX_2
\end{bmatrix} \\[0.7em]
&=
\begin{bmatrix}
\mY \\
\mX_2
\end{bmatrix}
\end{align}

ただし,$\mY=\mX_1 - \Sigma_{12}\Sigma_{22}^{-1}\mX_2$とおきました。一方,多変量正規分布の線形変換の定理より,以下が成り立ちます。

\begin{align}
A\mX &\sim \N(A\vmu, A\Sigma A^T)
\end{align}

ただし,$A\vmu$と$A\Sigma A^T$は以下のように計算されます。

\begin{align}
A\vmu &=
\begin{bmatrix}
\vmu_1 - \Sigma_{12}\Sigma_{22}^{-1} \vmu_2 \\
\vmu_2
\end{bmatrix} \\[0.7em]
A\Sigma A^T
&=
\begin{bmatrix}
\Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21} & O_{D_1, D_2} \\
O_{D_2, D_1} & \Sigma_{22}
\end{bmatrix} \\[0.7em]
&=
\begin{bmatrix}
\Sigma_{11|2} & O_{D_1, D_2} \\
O_{D_2, D_1} & \Sigma_{22}
\end{bmatrix}
\end{align}

$A\Sigma A^T$の対角成分がゼロ行列であることに着目すると,多変量正規分布の独立性に関する定理より,

\begin{align}
\mY &\sim \N (\vmu_1 - \Sigma_{12}\Sigma_{22}^{-1}\vmu_2, \Sigma_{11|2}) \\[0.7em]
\mX_2 &\sim \N (\vmu_2, \Sigma_{22})
\end{align}

かつ$\mY$と$\mX_2$は独立であることが分かります。したがって,$\mX_2$に$\vx_2$という実現値が与えられた条件付き分布は以下のようになります。

\begin{align}
\mY | (\mX_2=\vx_2) &= \mX_1 |(\mX_2=\vx_2) - \Sigma_{12}\Sigma_{22}^{-1}\vx_2 \\[0.7em]
&\sim \N (\vmu_1 - \Sigma_{12}\Sigma_{22}^{-1}\vmu_2, \Sigma_{11|2})
\end{align}

$\mY$と$\mX_2$が独立だからこそ,単に$\mX_2=\vx_2$を代入するだけでよくなっています。$\mY$と$\mX_2$が独立でない場合は,条件付き分布に関する本定理を再帰的に使う必要が出てきてしまい,循環論法に陥ります。

期待値は定数を足し引きするとその分だけ変動すること,分散は定数を足し引きしても変わらないことを踏まえると,結局以下が成り立ちます。

\begin{align}
\mX_1 | (\mX_2=\vx_2) &\sim \N (\vmu_1 - \Sigma_{12}\Sigma_{22}^{-1}\vmu_2 + \Sigma_{12}\Sigma_{22}^{-1}\vx_2, \Sigma_{11|2}) \\[0.7em]
&= \N (\vmu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\vx_2 - \vmu_2), \Sigma_{11|2})
\end{align}

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.

目次