【徹底解説】3変量正規分布の条件付き期待値と分散

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

3次元正規分布の条件付き期待値と分散

確率変数$(X, Y, Z)$が平均ベクトルを$(\mu_x, \mu_y, \mu_z)$,分散共分散行列を正定値行列

\begin{align}
\begin{pmatrix}
\sigma_x^2 & \sigma_{xy} & \sigma_{xz} \\
\sigma_{xy} & \sigma_y^2 & \sigma_{yz} \\
\sigma_{xz} & \sigma_{yz} & \sigma_z^2 \\
\end{pmatrix}
\end{align}

とする$3$変量正規分布に従うとき,条件付き期待値と分散は以下のように表される。

\begin{align}
E[X | Y=y] &= \mu_x + \frac{\sigma_{xy}}{\sigma_y^2}(y - \mu_y) \\[0.7em]
V[X | Y=y] &= \sigma_x^2(1 - \rho_{xy}^2)
\end{align}

ただし,$\sigma_a^2$は確率変数$A$の分散,$\sigma_{ab}$は確率変数$A$と$B$の共分散,$\rho_{ab}$は$A$と$B$の相関係数を表している。 特に,

\begin{align}
\sigma_x^2=\sigma_y^2=\sigma_z^2 = 1\label{仮定1}
\end{align}

かつ

\begin{align}
\mu_x=\mu_y=\mu_z=0\label{仮定2}
\end{align}

のとき,$2$変数で条件付けられた期待値と分散は以下のようになる。

\begin{align}
E[X | Y=y, Z=z] &= \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2}y + \frac{\rho_{xz} - \rho_{xy}\rho_{yz}}{1 - \rho_{yz}^2}z \\[0.7em]
V[X | Y=y, Z=z] &= 1 - \frac{\rho_{xy}^2 - 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 }{1-\rho_{yz}^2}
\end{align}

多変量正規分布の中でも,特に$2$次元正規分布と$3$次元正規分布の条件付き期待値と分散は頻出です。既知の内容として扱われるケースが多いので,本書では定理として採り上げることにしました。

証明

正規分布に関しては条件付き期待値や分散が比較的簡単に計算できることから,よく題材として採り上げられます。条件付き期待値と分散を導出する方法は,大きく分けて3種類あります。

  • 定義通りに確率密度関数を計算して係数比較により求める
    • どのような条件付きでも何変量でも応用可能
    • 指数部分の中身を展開しなければならないので計算が大変
  • 多変量正規分布の条件付き分布に関する公式を利用する
    • $1$変数が条件付けされている期待値と分散であれば比較的簡単に計算可能
    • 逆行列を計算する必要がある
  • 変数の置き換えにより$2$変量正規分布の条件付き期待値を使い回す
    • $3$変量正規分布程度までであれば一番現実的な方法
    • $2$変数以上が条件付けされている期待値や分散にも対応可能
  • 回帰関数の係数を利用する
    • 回帰関数は条件付き期待値のことであるため期待値しか導出できない

条件付き期待値が回帰関数そのものを表していることを利用すれば,条件付き期待値のみ回帰関数を用いて導出することもできます。

愚直には定義通りに計算すれば解くことができます。しかし,これは$2$変量正規分布までの話で,$3$変量正規分布ともなると指数部分の計算が大変で少し厄介です。$4$変量以上ともなると,指数部分の計算はかなり困難を極めます。そこで,本記事では多変量正規分布の周辺分布に関する定理を利用することを考えます。

多変量正規分布の周辺分布に関する定理を利用する方法

多変量正規分布の周辺分布に関する定理において,

\begin{align}
X_{1} = X,~
X_{2} = Y,~
\vmu_{1} = \mu_{x},~
\vmu_{2} = \mu_{y},~
\Sigma_{11} = \sigma^{2}_{x},~
\Sigma_{12} = \Sigma_{21} = \sigma_{xy},~
\Sigma_{22} = \sigma^{2}_{y}
\end{align}

とおくと,

\begin{align}
E[X|Y=y]
&= \mu_{y}+\frac{\sigma_{xy}}{\sigma_{y}^{2}}(y-\mu_{y})
\end{align}

および

\begin{align}
V[X|Y=y]
&= \sigma_{x}^{2}-\frac{\sigma_{xy}^{2}}{\sigma_{y}^{2}}
= \sigma_{x}^{2}\left(1-\frac{\sigma_{xy}^{2}}{ \sigma_{x}^{2}\sigma_{y}^{2}}\right)
= \sigma_{x}^{2}(1-\rho_{xy}^{2})
\end{align}

が得られます。また,式($\ref{仮定1}$)および式($\ref{仮定2}$)の下で,式($\ref{仮定1}$)の仮定より共分散と相関係数が等しくなることに注意して

\begin{align}
X_{1} {=} X,~
X_{2} {=} (Y,Z),~
\vmu_{1} {=} 0,~
\vmu_{2} {=} (0,0),~
\Sigma_{11} {=} 1,~
\Sigma_{12} {=} \Sigma_{21}^{T} {=} (\rho_{xy},\rho_{xz}),~
\Sigma_{22} {=}
\begin{pmatrix}
1&\rho_{yz}\\
\rho_{yz}&1
\end{pmatrix}
\end{align}

とおくと,

\begin{align}
E[X|Y=y,Z=z]
&= 0+(\rho_{xy}, \rho_{xz})
\frac{1}{1-\rho^{2}_{yz}}
\begin{pmatrix}
1&-\rho_{yz}\\
-\rho_{yz}&1
\end{pmatrix}
\begin{pmatrix}
y-0\\
z-0
\end{pmatrix}\\[0.7em]
&=
\frac{1}{1-\rho^{2}_{yz}}
(\rho_{xy}-\rho_{xz}\rho_{yz}, -\rho_{xy}\rho_{yz}+\rho_{xz})
\begin{pmatrix}
y\\
z
\end{pmatrix}\\[0.7em]
&= \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2}y + \frac{\rho_{xz} - \rho_{xy}\rho_{yz}}{1 - \rho_{yz}^2}z
\end{align}

および

\begin{align}
V[X|Y=y,Z=z]
&= 1-(\rho_{xy}, \rho_{xz})
\frac{1}{1-\rho^{2}_{yz}}
\begin{pmatrix}
1&-\rho_{yz}\\
-\rho_{yz}&1
\end{pmatrix}
\begin{pmatrix}
\rho_{xy}\\
\rho_{xz}
\end{pmatrix}\\[0.7em]
&= 1-\frac{1}{1-\rho^{2}_{yz}}
(\rho_{xy}-\rho_{xz}\rho_{yz}, -\rho_{xy}\rho_{yz}+\rho_{xz})
\begin{pmatrix}
\rho_{xy}\\
\rho_{xz}
\end{pmatrix}\\[0.7em]
&=
1 - \frac{\rho_{xy}^2 - 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 }{1-\rho_{yz}^2}
\end{align}

が得られます。

補足

多変量正規分布の周辺分布に関する定理を利用する方法以外にも,$1$変数による条件付き期待値と分散の公式を導出して,その公式で変数を置き換えて使い回すことで$2$変数による条件付き期待値と分散の導出に利用する方法があります。

1変数に関する条件付き期待値と分散

まずは定義通りに条件付き期待値と分散を求めていきましょう。まず,条件付き分布の定義より,

\begin{align}
f(x|y) &= \frac{f(x, y)}{f(y)}
\end{align}

ですので,条件付き分布の確率密度関数を求めるためには,同時確率密度関数$f(x, y)$と周辺確率密度関数$f(y)$を求める必要があります。まず,同時確率密度関数ですが,多変量正規分布の確率密度関数を展開して求めます。まず,多変量正規分布の表記に揃えるために,以下の記号を導入しましょう。

\begin{align}
\vx &= [x, y] \\[0.7em]
\vmu &= [\mu_x, \mu_y] \\[0.7em]
\Sigma &=
\begin{pmatrix}
\sigma_x^2 & \sigma_{xy} \\
\sigma_{xy} & \sigma_y^2 \\
\end{pmatrix}
\end{align}

先に$\Sigma$の逆行列を求めておきましょう。

\begin{align}
\Sigma^{-1} &= \frac{1}{\sigma_x^2\sigma_y^2(1 - \rho_{xy}^2)}
\begin{pmatrix}
\sigma_y^2 & -\sigma_{xy} \\
-\sigma_{xy} & \sigma_x^2 \\
\end{pmatrix}
\end{align}

ただし,$\rho_{xy}$は$X$と$Y$の相関係数を表しています。これらの変数を多変量正規分布の確率密度関数に代入します。$(x - \mu_x)$などの項を展開せずに閉じておくことが計算のコツです。

\begin{align}
&f(\vx) \\[0.7em]
&= \frac{1}{2\pi \sqrt{|\Sigma|}} \exp \left\{ -\frac{1}{2} (\vx - \vmu)^T\Sigma^{-1} (\vx - \vmu) \right\} \\[0.7em]
&= \frac{1}{2\pi \sigma_x\sigma_y\sqrt{1 - \rho_{xy}^2}} \exp\left[ -\frac{1}{2\sigma_x^2\sigma_y^2(1 - \rho_{xy}^2)}
\left\{ (x - \mu_x)^2\sigma_y^2 - 2(x - \mu_x)(y - \mu_y)\sigma_{xy} + (y - \mu_y)^2\sigma_x^2 \right\} \right] \\[0.7em]
&= \frac{1}{2\pi \sigma_x\sigma_y\sqrt{1 - \rho_{xy}^2}} \exp\left[ -\frac{1}{2(1 - \rho_{xy}^2)}
\left\{ \frac{(x - \mu_x)^2}{\sigma_x^2} - 2\rho_{xy}\frac{(x - \mu_x)(y - \mu_y)}{\sigma_x\sigma_y} + \frac{(y - \mu_y)^2}{\sigma_y^2} \right\} \right]
\end{align}

また,多変量正規分布の周辺分布に関する定理を利用すれば,周辺確率密度関数$f(y)$は以下のように表されます。

\begin{align}
f(y) &= \frac{1}{\sqrt{2\pi }\sigma_y} \exp\left\{ -\frac{(y - \mu_y)^2}{2\sigma_y^2} \right\}
\end{align}

したがって,条件付き分布$f(x | y)$の確率密度関数は以下のようになります。

\begin{align}
f(x|y) &= \frac{f(x, y)}{f(y)} \\[0.7em]
&= \frac{1}{\sqrt{2\pi}\sigma_x\sqrt{1 - \rho_{xy}^2}} \exp\left[ -\frac{1}{2(1 - \rho_{xy}^2)} \left\{
\frac{(x - \mu_x)^2}{\sigma_x^2} - 2\rho_{xy}\frac{(x - \mu_x)(y - \mu_y)}{\sigma_x\sigma_y} + \frac{(y - \mu_y)^2}{\sigma_y^2} - (1 - \rho_{xy}^2)\frac{(y - \mu_y)^2}{\sigma_y^2}
\right\} \right] \\[0.7em]
&= \frac{1}{\sqrt{2\pi}\sigma_x\sqrt{1 - \rho_{xy}^2}} \exp\left[ -\frac{1}{2(1 - \rho_{xy}^2)} \left\{
\frac{(x - \mu_x)^2}{\sigma_x^2} - 2\rho_{xy}\frac{(x - \mu_x)(y - \mu_y)}{\sigma_x\sigma_y} + \rho_{xy}^2\frac{(y - \mu_y)^2}{\sigma_y^2}
\right\} \right] \\[0.7em]
&= \frac{1}{\sqrt{2\pi}\sigma_x\sqrt{1 - \rho_{xy}^2}} \exp\left\{ -\frac{1}{2(1 - \rho_{xy}^2)} \left(
\frac{x - \mu_x}{\sigma_x} - \rho_{xy}\frac{y - \mu_y}{\sigma_y^2}
\right)^2 \right\} \\[0.7em]
&= \frac{1}{\sqrt{2\pi\sigma_x^2(1 - \rho_{xy}^2)}} \exp\left[ -\frac{1}{2\sigma_x^2(1 - \rho_{xy}^2)} \left\{
x - \left( \mu_x + \frac{\rho_{xy}\sigma_x}{\sigma_y}(y - \mu_y) \right)
\right\}^2 \right] \\[0.7em]
\end{align}

条件付き分布$f(x|y)$は,平均を$\mu_{x|y}$,分散を$\sigma_{x|y}^2$と置けば,以下の形をしています。

\begin{align}
\frac{1}{\sqrt{2\pi \sigma_{x|y}^2}} \exp \left\{
-\frac{1}{2\sigma_{x|y}^2} \left( x - \mu_{x|y} \right)^2
\right\}
\end{align}

先ほどの計算結果と係数を比較すれば,2変量正規分布の条件付き期待値と分散は以下のように表されます。

\begin{align}
E[X|Y=y] &= \mu_{x|y} \\[0.7em]
&= \mu_x + \rho_{xy}\frac{\sigma_x}{\sigma_y}(y - \mu_y) \\[0.7em]
&= E[X] + \frac{\Cov[X, Y]}{V[Y]}(y - E[Y]) \\[0.7em]
V[X|Y=y] &= \sigma_{x|y}^2 \\[0.7em]
&= \sigma_x^2(1 - \rho_{xy}^2) \\[0.7em]
&= V[X] - \frac{\Cov[X, Y]^2}{V[Y]}
\end{align}

ここまでの計算は,もちろん多変量正規分布の条件付き分布に関する定理を利用しても求められます。こちらの定理を利用すれば一瞬です。

\begin{align}
E[X|Y=y] &= \mu_x + \frac{\sigma_{xy}}{\sigma_y^2}(y - \mu_y) \\[0.7em]
&= E[X] + \frac{\Cov[X, Y]}{V[Y]}(y - E[Y]) \\[0.7em]
V[X|Y=y]
&= \sigma_x^2 - \frac{\sigma_{xy}^2}{\sigma_y^2} \\[0.7em]
&= V[X] - \frac{\left( \Cov[X, Y] \right)^2}{V[Y]}
\end{align}

ですが,この定理を導出するのも少し苦労しますので,どちらにしろ計算するのであれば定義に従って条件付き分布を計算しても良いのではないかなと思います。

ここで,一点補足しておきます。条件付き期待値は回帰関数そのものですので,多変量正規分布の条件付き期待値を最小二乗法に基づくフィッティングを用いて導出することもできます。例えば,今回の例でいうと,$E[X|Y=y]$は「$y$が与えらえたときに$x$はどのような値を取るのか」を示しています。これは「$y$から$x$を予測する回帰関数」そのものを指しています。ですから,誤差に正規分布を仮定した最尤推定で回帰係数を計算することができます。詳しくは付録で解説予定です。

2変数に関する条件付き期待値と分散

さて,ここまでが1変数に関する条件付き期待値と分散でした。ここからは,$Y$に加えて$Z$も条件付けされている期待値と分散を求めていきたいと思います。冒頭にもお伝えした通り,定義に基づいて力技で計算していくことも可能です。

\begin{align}
f(x | y, z) &= \frac{f(x, y, z)}{f(y. z)}
\end{align}

しかし,1変数で条件付けされているだけでも平方完成が大変だったことを考えると,愚直に定義に基づいて計算していくのは現実的ではありません。そこで,今回は変数の置き換えを用いてこのピンチを脱出したいと思います。具体的には,

\begin{align}
X^{\ast} &= X | Z \\[0.7em]
Y^{\ast} &= Y | Z
\end{align}

と置きます。このとき,先ほどの結果から,

\begin{align}
E[X^{\ast}] &= \mu_x + \rho_{xz}\frac{\sigma_x}{\sigma_z}(z - \mu_z) \\[0.7em]
E[Y^{\ast}] &= \mu_y + \rho_{yz}\frac{\sigma_y}{\sigma_z}(z - \mu_z) \\[0.7em]
V[X^{\ast}] &= \sigma_x^2 - \frac{1}{\sigma_z^2}\sigma_{xz}^2 \\[0.7em]
V[Y^{\ast}] &= \sigma_y^2 - \frac{1}{\sigma_z^2}\sigma_{yz}^2
\end{align}

が分かります。このような変数の置き換えを利用することで,2変数に関する条件付けの問題を1変数に関する条件付けの問題にばらすことができます。

\begin{align}
f(x | y, z) &= f(x^{\ast} | y^{\ast})
\end{align}

こちらの式変形の気持ちは「$X^{\ast}$と$Y^{\ast}$は既に$Z$に条件付けされているので,$Y^{\ast}$に条件付けられた$X^{\ast}$は既に$Z$に条件付けられている」というものです。念のため,条件付き確率密度関数の定義に沿って確認しておきましょう。

\begin{align}
f(x | y, z) &= \frac{f(x, y, z)}{f(y, z)} \\[0.7em]
&= \frac{f(x, y, z)/f(z)}{f(y, z)/f(z)} \\[0.7em]
&= \frac{f(x, y | z)}{f(y | z)} \\[0.7em]
&= \frac{f(x | z, y | z)}{f(y | z)} \\[0.7em]
&= \frac{f(x^{\ast}, y^{\ast})}{y^{\ast}} \\[0.7em]
&= f(x^{\ast} | y^{\ast})
\end{align}

この結果を用いると,

\begin{align}
E[X | Y=y, Z=z] &= E[X^{\ast} | Y^{\ast}=y] \\[0.7em]
V[X | Y=y, Z=z] &= V[X^{\ast} | Y^{\ast}=y]
\end{align}

であることが分かります。さて,ここからは2変数に関する条件付き期待値と分散を実際に計算していきましょう。先ほど導出した1変数に関する条件付き期待値と分散の結果を利用します。

\begin{align}
E[X^{\ast} | Y^{\ast}=y] &= E[X^{\ast}] + \frac{\Cov[X^{\ast}, Y^{\ast}]}{V[Y^{\ast}]}(y - E[Y^{\ast}]) \\[0.7em]
V[X^{\ast} | Y^{\ast}=y] &= V[X^{\ast}] - \frac{\Cov[X^{\ast}, Y^{\ast}]^2}{V[Y^{\ast}]}
\end{align}

ここで,$\Cov [X^{\ast}, Y^{\ast}]$を求める必要が出てきました。これは偏相関係数$\rho_{x|z, y|z}$を経由して求めるのが一番手っ取り早いです。詳しくは偏相関係数のページを参考にしてください。ここでは,偏導関数の結果だけを用います。

\begin{align}
\Cov[X^{\ast}, Y^{\ast}] &= \sqrt{V[X^{\ast}]}\sqrt{V[Y^{\ast}]} \cdot \rho_{x|z, y|z} \\[0.7em]
&= \sigma_{x}\sqrt{1 - \rho_{xz}^2}\cdot\sigma_{y}\sqrt{1 - \rho_{yz}^2}\cdot\frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{\sqrt{1 - \rho_{xz}^2} \sqrt{1 - \rho_{yz}^2}} \\[0.7em]
&= \sigma_{x}\sigma_{y}\left(\rho_{xy} - \rho_{xz}\rho_{yz}\right)
\end{align}

この結果を先ほどの式に代入します。

\begin{align}
E[X^{\ast} | Y^{\ast}=y] &= \mu_x + \rho_{xz}\frac{\sigma_x}{\sigma_z}(z - \mu_z) + \frac{\sigma_{x}\sigma_{y}\left(\rho_{xy} - \rho_{xz}\rho_{yz}\right)}{\sigma_y^2 - \frac{1}{\sigma_z^2}\sigma_{yz}^2}\left\{y - \mu_y - \rho_{yz}\frac{\sigma_y}{\sigma_z}(z - \mu_z)\right\} \\[0.7em]
V[X^{\ast} | Y^{\ast}=y] &= \sigma_x^2 - \frac{\sigma_{xz}^2}{\sigma_z^2} - \frac{\sigma_{x}^{2}\sigma_{y}^{2}(\rho_{xy} - \rho_{xz}\rho_{yz})^2}{\sigma_y^2 - \frac{1}{\sigma_z^2}\sigma_{yz}^2}
\end{align}

特に,$\sigma_x^2=\sigma_y^2=\sigma_z^2 = 1$かつ$\mu_x=\mu_y=\mu_z=0$のときは,以下のような形になります。$\sigma_x^2=\sigma_y^2=\sigma_z^2$から$\sigma_{xy}=\rho_{xy}$,$\sigma_{yz}=\rho_{yz}$,$\sigma_{xz}=\rho_{xz}$であることに注意してください。

\begin{align}
E[X^{\ast} | Y^{\ast}=y] &= \rho_{xz}z + \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{1-\sigma_{yz}^2}( y - \rho_{yz}z ) \\[0.7em]
&= \rho_{xz}z + \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2} ( y - \rho_{yz}z ) \\[0.7em]
&= \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2}y + \frac{\rho_{xz} - \rho_{xy}\rho_{yz}}{1 - \rho_{yz}^2}z \\[0.7em]
V[X^{\ast} | Y^{\ast}=y] &= 1 - \sigma_{xz}^2 - \frac{\rho_{xy}^2 - 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 \rho_{yz}^2}{1-\sigma_{yz}^2} \\[0.7em]
&= 1 - \rho_{xz}^2 - \frac{\rho_{xy}^2 - 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 \rho_{yz}^2}{1-\rho_{yz}^2} \\[0.7em]
&= 1 - \frac{\rho_{xy}^2 - 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 }{1-\rho_{yz}^2}
\end{align}

以上で,$3$変量正規分布の条件付き期待値と分散を求めることができました。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメント一覧 (4件)

  • 式(11)はρではなく共分散だと思うのですが違うのでしょうか?

    • 村上さま

      ご指摘誠にありがとうございます。
      おっしゃる通りですので,本文を修正致しました。
      他にも誤植があればご指摘いただけますと幸いです。

  • 式(53)の左の2つの根号内にシグマがそれぞれ抜けてると思います。

    • くま太郎 様

      ご指摘誠にありがとうございます!
      助かります。
      本文を修正致しました。

くま太郎 へ返信する コメントをキャンセル

※ Please enter your comments in Japanese to distinguish from spam.

目次