【これなら分かる!】多変量正規分布とは

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

多変量正規分布

多変量正規分布はモーメント母関数から定義されます。多変量正規分布には再生性があります。ロードマップ中では,多変量正規分布は正規分布の多変量化に相当します。上図は$2$次元標準正規分布を表しています。

\begin{align}
f_{\mX}(\vx) &= \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp \left\{ -\frac{1}{2}(\vx-\boldsymbol{\mu})^T \Sigma^{-1}(\vx-\boldsymbol{\mu}) \right\} \\[0.7em]
M_{\mX}(\vt) &= \exp\left( \boldsymbol{\mu}^T\vt + \frac{1}{2}\vt^T\Sigma\vt \right) \\[0.7em]
E[\mX] &= \vmu \\[0.7em]
V[\mX] &= \Sigma
\end{align}

確率密度関数

正規分布を多次元に拡張するためには,いままでスカラーであった確率変数をベクトルに拡張し,分散共分散行列$\Sigma$を導入する必要があります。まず,入力として以下のベクトルを考えます。

\begin{align}
Z &= (Z_1, Z_2, \cdots, Z_d)^T
\end{align}

方針としては,入力ベクトルの各要素がそれぞれガウス分布に従うとき,入力ベクトルが従う確率密度関数を導出していこうというものです。ですが,最初から一般のガウス分布を扱うのは少し面倒なので,最初は標準ガウス分布を考えて,その後ガウス分布に一般化することにします。$Z_1, \cdots, Z_d$がそれぞれ独立に標準正規分布に従うとします。すると,$d$次元の同時確率分布は以下のようになります。

\begin{align}
p(Z) &= p(Z_1)p(Z_2)\cdots p(Z_d)\\[0.7em]
&= \frac{1}{(2\pi)^{\frac{d}{2}}}\exp \left( -\frac{1}{2}\sum_{i=1}^d z_i^2 \right)\\[0.7em]
&= \frac{1}{(2\pi)^{\frac{d}{2}}}\exp \left( -\frac{1}{2} Z^T Z \right)
\label{norm_gauss}
\end{align}

ちなみに,ここで指数関数の肩に行列が乗っているのは初出ですね。行列指数関数の定義を確認しておきます。

\begin{align}
e^{Z} &= \sum_{k=0}^{\infty} \frac{1}{k !} Z^{k}
\label{定義:行列指数関数}
\end{align}

個人的にこの定義式はかなり好きです。指数がスカラーの場合のテイラー展開に相当していて,このように行列指数関数を定義することで数学が矛盾しないようにできているというのですから興味深いですよね。さて,この式をガウス分布に一般化します。そのためには,変数$\vz$を以下のように導入する必要があります。

\begin{align}
X &= A Z + \vmu
\end{align}

$A$は適当な線形変換を表す行列とします。このとき,元の変数$X$は以下のように表されます。

\begin{align}
Z &= A^{-1}(X – \vmu)
\label{jacobian}
\end{align}

これを代入すればOKかというと,まだ考えなくてはならないことが残っています。確率密度は積分を利用して定義されているため,変数変換を持ち込んだときはヤコビアンを考えなくてはなりません。式(\ref{jacobian})の変換の前後において,面積比は$\det |A^{-1}|$なので,以下の関係式が成り立ちます。

\begin{align}
dz_1, dz_2, \cdots, dz_d &= \det |A^{-1}| dx_1, dx_2, \cdots, dx_d
\label{transformation}
\end{align}

上の式をベクトルで表記すると以下のようになります。

\begin{align}
d\vz &= \det A^{-1}| d\vx
\label{多変量正規分布:ヤコビアンの関係式}
\end{align}

求める確率密度を$f(\vz)$と置きましょう。すると,以下のように$f(\vz)$を定めることができます。

\begin{align}
\int_{-\infty}^{\infty}p(\vz) d\vz &= \int_{-\infty}^{\infty} f(\vx) d\vx
\end{align}

つまり,以下の関係が成り立ちます。

\begin{align}
p(\vz) d\vz &= f(\vx) d\vx
\end{align}

式(\ref{norm_gauss})の両辺にそれぞれ式(\ref{transformation})の対応する辺をかけ合わせると,以下のようになります。

\begin{align}
p(\vz) d\vz &= \frac{1}{(2\pi)^{\frac{d}{2}}}\exp \left( -\frac{1}{2}Z^T Z \right) \det |A^{-1}| d\vx
\label{before_gauss}
\end{align}

あと一歩です。$|A^{-1}|$さえ求められれば$f(\vx)$も求まります。

\begin{align}
\det |A^{^-1}| &= \det |A|^{-1}
\end{align}

なので,以下では$\det|A|$を求めていきます。そもそも,

\begin{align}
E[\vx] &= \vmu\\[0.7em]
V[\vx] &= E[(\vx – \vmu)(\vx – \vmu)^T]\\[0.7em]
&= E[A \vz(A \vz)^T]\\[0.7em]
&= E[A\Sigma_zA^T]\\[0.7em]
&= E[A A^T]\quad (\because \text{$Z$の各要素は標準正規分布に従う})\\[0.7em]
&= A A^T\quad (\because \text{期待値は$\vx$にしか作用しない})
\end{align}

と設定していますから,いま新しく$V[\vx] = \Sigma$と表すと,以下のように$\det |A|$を表すことができます。

\begin{align}
\Sigma &= AA^T\\[0.7em]
\det |\Sigma| &= \det|A A^T|\\[0.7em]
&= \det|A| \det|A^T|\\[0.7em]
&= \det|A| \det|A|^T\\[0.7em]
&= { \det|A| }^2\\[0.7em]
\therefore \det |A| &= \det |\Sigma|^{\frac{1}{2}}\\[0.7em]
&= |\Sigma|^{\frac{1}{2}}\quad (\because \text{このように行列式を表すことにします})
\end{align}

したがって,式(\ref{before_gauss})に変換(\ref{jacobian})を代入すれば,以下のように$d$次元ガウス分布の確率密度関数を導出することができます。

\begin{align}
f(\vx)
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\Sigma|^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} (\vx – \vmu)^T (A^{-1})^T A^{-1}(\vx – \vmu) \right\}\\[0.7em]
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\Sigma|^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} (\vx – \vmu )^T ( A ^T A)^{-1}(\vx – \vmu) \right\}\\[0.7em]
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\Sigma|^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} (\vx – \vmu )^T (\Sigma^T)^{-1}(\vx – \vmu) \right\}\\[0.7em]
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\Sigma|^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} (\vx – \vmu )^T \Sigma^{-1}(\vx – \vmu) \right\}\quad (\because \text{$\Sigma$は対称行列です})
\end{align}

見事,多変量正規分布の確率密度関数が導出できました。

モーメント母関数

さて,ここからはもう少しだけ厳密に多次元正規分布を導入してみようと思います。$X$が$d$次元正規分布に従うとは,$d$次元ベクトル$\vmu$と$d\times d$対称半正定値行列が存在して,モーメント母関数が

\begin{align}
M(\vt; \vmu, \Sigma) &= E[\exp\left(\vt^T X\right)] \\[0.7em]
&= \exp\left( \vmu^T \vt + \frac{1}{2}\vt^T \Sigma \vt \right)
\label{定義:多変量正規分布のモーメント母関数に基づく定義}
\end{align}

であることで定義され,$X\sim \calN(\vmu, \Sigma)$と表されます。先ほどの行列指数関数の定義(\ref{定義:行列指数関数})を利用すると,以下のように展開することもできます。

\begin{align}
M(\vt; \vmu, \Sigma)
&= \vmu^T\vt + \frac{1}{2}\vt^T\left( \Sigma + \vmu\vmu^T \right)\vt + \cdots
\end{align}

ただし,「$\cdots$」は$\vt^i$のうち$i\geq 2$の項を表しています。この定義は多変量正規分布の複数ある同値な定義のうちの1つになっています。モーメント母関数から確率分布を定義するバリエーションは初めてだと思いますが,この定義から入ることで多変量正規分布の再生性や確率密度関数を見通しよく計算することができます。

再生性

今までとは順番が逆になってしまいますが,まず多変量正規分布の再生性から確認していきます。再生性を示すためには,再生性を示したい分布に従う独立な二つの確率変数を考え,その和のモーメント母関数(離散分布の場合はモーメント母関数)を計算したときに,パラメータが和の形になっていることを示します。

$X\sim \calN(\vmu_x, \Sigma_x)$,$Y\sim \calN(\vmu_y, \Sigma_y)$を独立に正規分布に従う2つの確率変数とします。このとき,$X+Y$のモーメント母関数は以下のように計算されます。

\begin{align}
M_{X+Y}(t) &= M(\vt; \vmu_x, \Sigma_x) \cdot M(\vt; \vmu_y, \Sigma_y) \\[0.7em]
&= \exp\left( \vmu_x^T \vt + \frac{1}{2}\vt^T \Sigma_x \vt \right) \cdot \exp\left( \vmu_y^T \vt + \frac{1}{2}\vt^T \Sigma_y \vt \right)\\[0.7em]
&= \exp\left\{ ( \vmu_x^T + \vmu_y^T) \vt + \frac{1}{2}\vt^T (\Sigma_x + \Sigma_y) \vt \right\}
\end{align}

これは,$X+Y$の確率母関数が$\calN( \vmu_x + \vmu_y, \Sigma_x + \Sigma_y)$の母関数であることを示しています。つまり,$X+Y\sim \calN(\vmu_x + \vmu_y, \Sigma_x + \Sigma_y)$であり,多変量正規分布の再生性を示しています。

平均・分散

連続分布の平均と分散を求める際には「モーメント母関数の性質」(離散分布の平均と分散を求める際には「確率母関数の性質」)を利用します。しかし,今回は変数が多変量になっていますので,少しだけ扱い方が異なります。まず,期待値と分散の定義は以下のようになります。

\begin{align}
\vmu &= E[X] \\[0.7em]
\Sigma &= E\left[ \left( X – E[X] \right)\left( X – E[X] \right)^T \right] \\[0.7em]
&= E[X X^T] – E[X]E[X]^T
\end{align}

また,多変量の場合の 「モーメント母関数の性質」を示しておきましょう。$X$のモーメント母関数$E[e^{\vt^T X}]$は行列の指数関数です。定義(\ref{定義:行列指数関数})と期待値の線形性を利用すれば,多変量のモーメント母関数は以下のように式変形できます。

\begin{align}
M(\vt) &= E[e^{\vt^T X}] \\[0.7em]
&= E\left[1 + \vt^T X + \frac{(\vt^T X)^2}{2} + \cdots \right] \\[0.7em]
&= E[\vt^T X] + \frac{E[\vt^TX X^T \vt]}{2} + \cdots
\end{align}

ここで両辺を$X$に関して微分して$M'(\vt)$と$M^{”}(\vt)$を求めていきましょう。行列の微分として,以下の公式を利用します。

\begin{align}
\frac{\partial}{\partial X} X^T A &= A \\[0.7em]
\frac{\partial}{\partial X} X^T A X &= \left(A+A^T\right) X
\end{align}

実際に計算していきましょう。

\begin{align}
\frac{d}{d\vt}M(\vt) &= \frac{d}{d\vt}\left( E[\vt^T X] + \frac{E[X^T\vt\vt^T X]}{2} + \cdots\right) \\[0.7em]
&= E\left[ \frac{d}{d\vt} \vt^T X \right] + \frac{1}{2}E\left[ \frac{d}{d\vt}\left( \vt^TX X^T \vt \right)\right] + \cdots \\[0.7em]
&= E[X] + \frac{1}{2}E\left[\left( XX^T + X X^T \right)\right]\vt + \cdots \\[0.7em]
&= E[X] + E[XX^T]\vt +\cdots\\[0.7em]
\frac{d^2}{d\vt^2}M(\vt) &= \frac{d}{d\vt}\left( E[X] + E[XX^T]\vt +\cdots \right) \\[0.7em]
&= E[XX^T] + \cdots
\end{align}

したがって,確率変数がスカラーの場合と同様に以下の性質が成り立ちます。

\begin{align}
\left. M'(\vt) \right|_{\vt=\vzero} &= E[X] \\[0.7em]
\left. M^{”}(\vt) \right|_{\vt=\vzero} &= E[X^T X]
\end{align}

さて,ようやく多変量正規分布の期待値と分散を求める準備が整いました。多変量正規分布はモーメント母関数が式(\ref{定義:多変量正規分布のモーメント母関数に基づく定義})となるという定義でした。実際に,計算していきましょう。

\begin{align}
E[X]
&= \left. M'(\vt) \right|_{\vt=\vzero} \\[0.7em]
&= \left. \frac{d}{dt}\left( \vmu^T\vt + \frac{1}{2}\vt^T\left( \Sigma + \vmu\vmu^T \right)\vt + \cdots \right) \right|_{\vt=\vzero} \\[0.7em]
&= \left. \left\{\vmu + \left(\Sigma + \vmu\vmu^T \right) \vt +\cdots \right\} \right|_{\vt=\vzero} \quad(\because \Sigma \text{は対称行列})\\[0.7em]
&= \vmu \ V[X]\\[0.7em]
&= E[X^T X] – E[X]E[X]^T \\[0.7em]
&= \left. M^{”}(\vt) \right|_{\vt=\vzero} – \vmu \vmu^T\\[0.7em]
&= \left. (\Sigma + \vmu\vmu^T + \cdots) \right|_{\vt=\vzero} – \vmu \vmu^T\\[0.7em]
&= \Sigma
\end{align}

したがって,モーメント母関数(\ref{定義:多変量正規分布のモーメント母関数に基づく定義})に従う多変量正規分布の期待値は$\vmu$で分散・共分散行列は$\Sigma$であることが分かりました。

変数変換に関する公式

続いて,多変量正規分布の確率密度関数をモーメント母関数から導出するために,多変量「標準」正規分布を確認した後にそれを標準化していない変数に拡張するというアプローチをとります。拡張した結果を一般化すると変数変換に関する公式が得られるので,あとでまとめています。

$\calN(\vzero_d, I_d)$は$d$変量標準正規分布と呼ばれています。ただし,$\vzero_d$は$d$次元ゼロベクトル,$I_d$は$d$次単位行列です。ここで,$Z \sim \calN(\vzero_d, I_d)$のとき$Z$の各成分が独立に$\calN(0, 1)$に従うことを示します。この証明は単純で,モーメント母関数を変形するだけです。$d$変量標準正規分布のモーメント母関数は

\begin{align}
M(\vt; \vzero_p, I_d) &= \exp\left( \frac{1}{2}\vt^T \vt \right) \\[0.7em]
&= \exp\left( \sum_{i=1}^{d} \frac{t_i^2}{2} \right) \\[0.7em]
&= \prod_{i=1}^d \exp\left( \frac{t_i^2}{2} \right)
\end{align}

であり,標準正規分布$\calN(0, 1)$のモーメント母関数が

\begin{align}
M(t; 0, 1) &= \exp\left( \frac{t^2}{2} \right)
\end{align}

であることから,$Z$の各成分は独立に標準正規分布に従っていることが示ました。さて,ここからは「標準」多変量正規分布を変数変換によって正規分布に拡張したいと思います。

ここで,$X\sim \calN(\vmu, \Sigma)$に対して$Z$をどのように設定すれば$Z$の従う分布が標準多変量正規分布になるのかを考えます。スカラーの変数変換の類推から,$Z = \sigma^{-\frac{1}{2}}(X – \vmu)$とおくことを考えてみます。変数変換の式を展開すると

\begin{align}
Z &= \Sigma^{-\frac{1}{2}}(X – \vmu)\\[0.7em]
&= \Sigma^{-\frac{1}{2}}X – \Sigma^{-\frac{1}{2}}\vmu\\[0.7em]
&= AX + \vb
\end{align}

のようになります。ただし,式変形が煩雑にならないように$A=\Sigma^{-\frac{1}{2}}$,$\vb = -\Sigma^{-\frac{1}{2}}\vmu$とおきました。そして,$AX + \vb$のモーメント母関数を考えると

\begin{align}
&E\left[\exp\left\{\vt^T (AX+\vb) \right\}\right] \notag \\[0.7em]
&= E\left[ \exp{ (A^T\vs)^TX } \cdot \exp{ \vt^T \vb } \right]\\[0.7em]
&= \exp\left\{\vmu^T (A^T \vt) + \frac{1}{2}(A^T \vt)^T\Sigma (A^T \vt) \right\} \cdot \exp\left\{ \vt^T \vb \right\} \\[0.7em]
&= \exp\left\{ (A\vmu + \vb)^T \vt + \frac{1}{2}(\vt^T (A \Sigma A^T)\vt) \right\}
\end{align}

したがって,$Z \sim \calN(A \vmu + \vb, A\Sigma^{-\frac{1}{2}}A^T)$となることが分かります。ここで,後のためにここで得られた結果を一般化してまとめておきます。

多変量正規分布の変数変換

$A$および$\vb$をそれぞれ$d’\times d$行列および$d’$次元ベクトルとする。$d$次元確率ベクトル$X$が$\calN(\vmu, \Sigma)$に従っているならば,

\begin{align}
AX + \vb \sim \calN(A\vmu + \vb, A\Sigma A^T)
\end{align}

である。

この結果を利用して確率密度関数を求めていきます。$A$と$\vb$に先ほどまとめた変数を代入すると,以下のようになります。

\begin{align}
Z &\sim \calN\left(A \vmu + \vb, A\Sigma^{-\frac{1}{2}}A^T\right) \\[0.7em]
&= \calN\left(A \vmu + \vb, A\Sigma^{-\frac{1}{2}}A^T\right)\\[0.7em]
&= \calN\left( \Sigma^{-\frac{1}{2}}\vmu – \Sigma^{-\frac{1}{2}}\vmu, \Sigma^{-\frac{1}{2}}\Sigma \Sigma^{-\frac{1}{2}} \right)\\[0.7em]
&= \calN\left( \vzero_d, I_d \right)
\end{align}

スカラーの場合と同じように$Z$が多変量標準正規分布に従うことが示ました。あとは,正規分布の確率密度関数を計算していきます。$Z \sim \calN\left( \vzero_d, I_d \right)$であり,先ほど示したように$Z$の各要素は独立に標準正規分布に従っていますから,$Z$の確率密度関数は以下のようになります。

\begin{align}
g(\vz) &= \prod_{i=1}^d \frac{1}{2\pi} \exp\left( -\frac{1}{2}z_i^2 \right) \\[0.7em]
&= \frac{1}{(2\pi)^{\frac{d}{2}}}\exp\left( -\frac{1}{2}|z|^2 \right)
\end{align}

先ほどの変換式を代入します。ただし,式(\ref{多変量正規分布:ヤコビアンの関係式})に注意して$z=\Sigma^{\frac{1}{2}}(x-\mu)$のヤコビアン$\det |\Sigma^{-\frac{1}{2}}|=\det |\Sigma|^{-\frac{1}{2}}$も併せて代入します。

\begin{align}
f(\vx;\vmu, \Sigma)
&= \frac{1}{(2\pi)^{\frac{d}{2}} |\Sigma|^{\frac{1}{2}}} \exp\left\{ -\frac{1}{2} (\vx – \vmu)^T \Sigma^{-1}(\vx – \vmu) \right\}
\end{align}

以上で,モーメント母関数から多変量正規分布を定義した場合の確率密度関数の導出が完了しました。

周辺分布に関する公式

最後に,多変量正規分布の周辺分布と条件付き分布に関する性質を確認していきます。そのためにまず,$X$,$\vmu$,$\vt$,$\Sigma$を$d_1$次元の部分と$d_2=d-d_1$次元の部分に区分けします。こうすることで,多変量正規分布の周辺分布や条件付き分布が見通しよく扱えるようになります。

\begin{align}
X &=
\begin{bmatrix}
X_1 \\
X_2 \\
\end{bmatrix}
&
\vmu &=
\begin{bmatrix}
\vmu_1 \\
\vmu_2 \\
\end{bmatrix}
&
\vt &=
\begin{bmatrix}
\vt_1 \\
\vt_2 \\
\end{bmatrix}
&
\Sigma &=
\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{bmatrix}
\end{align}

ここで,周辺分布というのは$X_1$,$X_2$の分布のことを指します。ですので,$X_1$,$X_2$が従う分布を調べる方針でいけばOKです。このように行列の要素を抽出するためには単位行列とゼロ行列で構成される適当な変換行列をかけあわせればよさそうです。さて,先ほど得られた一般的な結果を利用します。以下のように変換行列$A$,$B$を定めます。

\begin{align}
A &=
\begin{bmatrix}
I_{d_1} \\
O_{d_1, d_2}
\end{bmatrix}
\\[0.7em]
B &=
\begin{bmatrix}
O_{d_1, d_2}\\
I_{d_2}
\end{bmatrix}
\end{align}

ただし,$I_{d_1}$は$d_1$次元単位行列,$O_{d_1, d_2}$は$d_1\times d_2$のゼロ行列を表しています。ここで,先ほど示した多変量正規分布の変数変換に関する公式を利用すれば,$AX$,$BX$はそれぞれ

\begin{align}
AX &= X_1 \\[0.7em]
&\sim \calN(A\vmu, A\Sigma A^T) \\[0.7em]
&= \calN(\vmu_1, \Sigma_{11}) \\[0.7em]
BX &= X_2 \\[0.7em]
&\sim \calN(B\vmu, B\Sigma A^T) \\[0.7em]
&= \calN(\vmu_2, \Sigma_{22}) \\[0.7em]
\end{align}

となります。つまり,多変量正規分布の周辺分布もまた多変量正規分布になっていることが示ました。ここで得られた結果を一般化しておきましょう。

多変量正規分布の周辺分布

$X\sim \calN(\vmu, \Sigma)$のとき,$X_i\sim \calN(\vmu_i, \Sigma_{ii})$である。

条件付き分布に関する公式

続いて,多変量正規分布の条件付き分布に関する考察を行います。まず,$X_1$と$X_2$の独立性について考えます。独立性を示すためには,$X$のモーメント母関数が$X_1$のモーメント母関数と$X_2$のモーメント母関数の積で表されることを示す必要があります。実際に計算していきます。

\begin{align}
&M(\vt; \vmu, \Sigma) \\[0.7em]
&= \exp\left( \vmu^T\vt + \frac{1}{2}\vt^T \Sigma\vt \right) \\[0.7em]
&= \exp\left(
\begin{bmatrix}
\vmu_1 \\
\vmu_2 \\
\end{bmatrix}^T
\begin{bmatrix}
\vt_1 \\
\vt_2 \\
\end{bmatrix}
+\frac{1}{2}
\begin{bmatrix}
\vt_1 \\
\vt_2 \\
\end{bmatrix}^T
\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{bmatrix}
\begin{bmatrix}
\vt_1 \\
\vt_2 \\
\end{bmatrix}
\right) \\[0.7em]
&= \exp\left\{
\vmu_1 \vt_1 + \vmu_2 \vt_2
+\frac{1}{2}
\left(
\vt_1^T \Sigma_{11}\vt_1
+ 2 \vt_1^T \Sigma_{12}\vt_1
+ \vt_2^T \Sigma_{22}\vt_2
\right)
\right\}\notag\\[0.7em]
&\quad (\because \Sigma \text{は対称行列より}\Sigma_{12}=\Sigma_{21})
\end{align}

この結果が,

\begin{align}
&M(\vt_1; \vmu_1, \Sigma_{11}) \cdot M(\vt_2; \vmu_2, \Sigma_{22}) \notag \\[0.7em]
&= \exp\left\{
\vmu_1 \vt_1 + \vmu_2 \vt_2
+\frac{1}{2}
\left(
\vt_1^T \Sigma_{11}\vt_1 + \vt_2^T\Sigma_{22}\vt_2\right)
\right\}
\end{align}

と等しくなるときに$X_1$と$X_2$は独立になります。両式で異なる$\vt_2^T \Sigma_{21}\vt_2\vt_1^T \Sigma_{12}\vt_1$に注目すると,$\Sigma_{12}=\Sigma_{21}=O_{d_1, d_2}$のときに両式は等しくなります。まとめると,

\begin{align}
\Sigma_{12}&=\Sigma_{21}=O_{d_1, d_2}
\end{align}

のときに$X_1$と$X_2$は独立になります。

条件付き分布に関する性質をみていく準備が整いました。先ほどと同様に変換行列を定義して多変量正規分布の変数変換の公式を利用する方針でいきます。ここは天下り式なのですが,以下のように変換行列$A$を定めます。

\begin{align}
A &=
\begin{bmatrix}
I_{d_1} & -\Sigma_{12}\Sigma_{22}^{-1} \\[0.7em]
O_{d_2, d_1} & I_{d_2}
\end{bmatrix}
\end{align}

先ほど示した「多変量正規分布の変数変換」を利用すれば,$X\sim \calN(\vmu, \Sigma)$のとき$AX$が従う分布は

\begin{align}
AX &=
\begin{bmatrix}
X_1 – \Sigma_{12}\Sigma_{22}^{-1}X_2 \\
X_2
\end{bmatrix} \\[0.7em]
&\sim \calN(A\vmu, A\Sigma A^T) \\[0.7em]
\end{align}

となります。さて,$A\vmu$と$A\Sigma A^T$を計算していきます。

\begin{align}
A\vmu &=
\begin{bmatrix}
\vmu_1 – \Sigma_{12}\Sigma_{22}^{-1} \\
\vmu_2
\end{bmatrix} \\[0.7em]
A\Sigma A^T
&=
\begin{bmatrix}
\Sigma_{11} – \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21} & O_{d_1, d_2} \\
O_{d_2, d_1} & \Sigma_{22}
\end{bmatrix} \\[0.7em]
&=
\begin{bmatrix}
\Sigma_{11|2} & O_{d_1, d_2} \\
O_{d_2, d_1} & \Sigma_{22}
\end{bmatrix}
\end{align}

ただし,

\begin{align}
\Sigma_{11|2} = \Sigma_{11} – \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21}
\end{align}

とおきました。さて,ここで先ほどの多変量正規分布の周辺分布の公式を利用しましょう。すると,以下の2つが分かります。

\begin{align}
X_1 – \Sigma_{12}\Sigma_{22}^{-1}X_2
&\sim \calN(\vmu_1 – \Sigma_{12}\Sigma_{22}^{-1}, \Sigma_{11|2}) \label{多変量正規分布:再生性1}\\[0.7em]
X_2
&\sim \calN(\vmu_2, \Sigma_{22})
\end{align}

さて,ここで$X_1 | (X_2=\vx_2)$の従う分布を考えます。$X_1 | (X_2=\vx_2)$は$X_2$がある値$x_2$であるという条件が与えられた下での$X_1$という確率変数を表しています。さて,ここで条件付き期待値と条件付き分散についても「確率変数の性質」が成り立つことに注意すると

\begin{align}
&E[X_1 – \Sigma_{12}\Sigma_{22}^{-1}X_2 | (X_2=\vx_2)] \notag \\[0.7em]
&= E[X_1 | (X_2=\vx_2)] – \Sigma_{12}\Sigma_{22}^{-1}E[X_2 | (X_2=\vx_2)] \\[0.7em]
&= E[X_1 | (X_2=\vx_2)] – \Sigma_{12}\Sigma_{22}^{-1}E[\vx_2] \\[0.7em]
&= E[X_1 | (X_2=\vx_2)] – \Sigma_{12}\Sigma_{22}^{-1}\vx_2
\end{align}

となります。式(\ref{多変量正規分布:再生性1})より,この値が$\vmu_1 – \Sigma_{12}\Sigma_{22}^{-1}$と等しいですから,以下が成り立ちます。

\begin{align}
E[X_1 | (X_2=\vx_2)] – \Sigma_{12}\Sigma_{22}^{-1}x_2 &= \vmu_1 – \Sigma_{12}\Sigma_{22}^{-1} \\[0.7em]
\therefore E[X_1 | (X_2=\vx_2)] &= \vmu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\vx_2 – \vmu_2)
\end{align}

分散共分散行列についても同様です。

\begin{align}
&V[X_1 – \Sigma_{12}\Sigma_{22}^{-1}X_2 | (X_2=\vx_2)] \notag \\[0.7em]
&= V[X_1 | (X_2=\vx_2)] – (\Sigma_{12}\Sigma_{22}^{-1})^T(\Sigma_{12}\Sigma_{22}^{-1})V[X_2 | (X_2=\vx_2)] \notag \\[0.7em]
&\quad – 2 (\Sigma_{12}\Sigma_{22}^{-1}) \Cov[X_1, X_2 | (X_2=\vx_2)]\\[0.7em]
&= V[X_1 | (X_2=\vx_2)] – (\Sigma_{12}\Sigma_{22}^{-1})^T(\Sigma_{12}\Sigma_{22}^{-1})V[\vx_2] \notag \\[0.7em]
&\quad – 2 (\Sigma_{12}\Sigma_{22}^{-1}) \Cov[X_1, \vx_2] \quad (\because V[\vx_2]=0 \text{かつ} \Cov[X_1, \vx_2]=0)\notag \\[0.7em]
&= V[X_1 | (X_2=\vx_2)]
\end{align}

式(\ref{多変量正規分布:再生性1})より,この値が$\Sigma_{11|2}$と等しいですから,以下が成り立ちます。

\begin{align}
V[X_1 | (X_2=\vx_2)] &= \Sigma_{11|2}
\end{align}

以上をまとめると,多変量正規分布の条件付き確率について以下が成り立つことが示ました。

多変量正規分布の条件付き分布

$X\sim \calN(\vmu, \Sigma)$のとき,

\begin{align}
X_1|(X_2=\vx_2) \sim \calN(\vmu_1 + \Sigma_{12}\Sigma_{22}^{-1}(\vx_2 – \vmu_2), \Sigma_{11|2})
\end{align}

である。ただし,

\begin{align}
\Sigma_{11|2} = \Sigma_{11} – \Sigma_{12} \Sigma_{22}^{-1}\Sigma_{21}
\end{align}

とおいた。

ロードマップ

確率分布のロードマップ

さて,ロードマップに戻りましょう。 多変量正規分布は正規分布を多変量化して得られる分布です。多変量化のプロセスとしては,標準正規分布を多変量化してから変数変換を施すのでした。多変量正規分布の導出には,モーメント母関数由来の定義もありましたね。また,本記事では多変量正規分布の変数変換や周辺分布,条件付き分布に関しても一般化しました。行列演算が関わってきてかなり複雑な計算が多くなっていますので,ぜひ何度も見直して復習してみてください。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする