【これなら分かる!】3変量正規分布の条件付き期待値と分散

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

3次元正規分布の条件付き期待値と分散

確率変数$(X, Y, Z)$が平均ベクトルを$(\mu_x, \mu_y, \mu_z)$,分散共分散行列を正定値行列

\begin{align}
\begin{pmatrix}
\sigma_x^2 & \sigma_{xy} & \sigma_{xz} \\
\sigma_{xy} & \sigma_y^2 & \sigma_{yz} \\
\sigma_{xz} & \sigma_{yz} & \sigma_z^2 \\
\end{pmatrix}
\end{align}

とする$3$変量正規分布に従うとき,条件付き期待値と分散は以下のように表される。

\begin{align}
E[X | Y=y] &= \mu_x + \frac{\sigma_{xy}}{\sigma_y^2}(y – \mu_y) \\[0.7em]
V[X | Y=y] &= \sigma_x^2(1 – \rho_{xy}^2)
\end{align}

ただし,$\sigma_a^2$は確率変数$A$の分散,$\sigma_{ab}$は確率変数$A$と$B$の共分散,$\rho_{ab}$は$A$と$B$の相関係数を表している。 特に,

\begin{align}
\sigma_x^2=\sigma_y^2=\sigma_z^2 = 1
\end{align}

かつ

\begin{align}
\mu_x=\mu_y=\mu_z=0
\end{align}

のとき,$2$変数で条件付けられた期待値と分散は以下のようになる。

\begin{align}
E[X | Y=x, Z=z] &= \frac{\rho_{xy} – \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2}y + \frac{\rho_{xz} – \rho_{xy}\rho_{yz}}{1 – \rho_{yz}^2}z \\[0.7em]
V[X | Y=x, Z=z] &= 1 – \frac{\rho_{xy}^2 – 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 }{1-\rho_{yz}^2}
\end{align}

多変量正規分布の中でも,特に$2$次元正規分布と$3$次元正規分布の条件付き期待値と分散は頻出です。既知の内容として扱われるケースが多いので,本書では定理として採り上げることにしました。

証明

正規分布に関しては条件付き期待値や分散が比較的簡単に計算できることから,よく題材として採り上げられます。条件付き期待値と分散を導出する方法は,大きく分けて3種類あります。また,条件付き期待値が回帰関数そのものを表していることを利用すれば,条件付き期待値のみ回帰関数を用いて導出することもできます。

  • 定義通りに確率密度関数を計算して係数比較により求める
    • どのような条件付きでも何変量でも応用可能
    • 指数部分の中身を展開しなければならないので計算が大変
  • 多変量正規分布の条件付き分布に関する公式を利用する
    • $1$変数が条件付けされている期待値と分散であれば比較的簡単に計算可能
    • 逆行列を計算する必要がある
  • 変数の置き換えにより$2$変量正規分布の条件付き期待値を使い回す
    • $3$変量正規分布程度までであれば一番現実的な方法
    • $2$変数以上が条件付けされている期待値や分散にも対応可能
  • 回帰関数の係数を利用する
    • 回帰関数は条件付き期待値のことであるため期待値しか導出できない

愚直には定義通りに計算すれば解くことができます。しかし,これは$2$変量正規分布までの話で,$3$変量正規分布ともなると指数部分の計算が大変で少し厄介です。$4$変量以上ともなると,実質指数部分の計算は難しいでしょう。

多変量正規分布の周辺分布に関する定理を利用することも考えられます。これは$3$変量以上で$1$条件に関する期待値と分散を求める際に利用できるでしょう。しかし,今回は$E[X|Y=y, Z=z]$など$2$変数が条件付けされているために,公式はうまく機能しません。次に説明する変数の置き換えと組み合わせれば$2$変数以上の条件付けにも対応できますが,そもそもこの公式を導出すること,もしくは覚えることにコストがかかってしまいます。

そこで,定義通りに計算する方法と公式を利用する方法の折衷案を取ることにしましょう。具体的には,$1$変数による条件付き期待値と分散の公式を導出して,その公式を変数の置き換えを用いて使い回すことで$2$変数による条件付き期待値と分散の導出に利用するという方針です。

1変数に関する条件付き期待値と分散

まずは定義通りに条件付き期待値と分散を求めていきましょう。まず,条件付き分布の定義より,

\begin{align}
f(x|y) &= \frac{f(x, y)}{f(y)}
\end{align}

ですので,条件付き分布の確率密度関数を求めるためには,同時確率密度関数$f(x, y)$と周辺確率密度関数$f(y)$を求める必要があります。まず,同時確率密度関数ですが,多変量正規分布の確率密度関数を展開して求めます。まず,多変量正規分布の表記に揃えるために,以下の記号を導入しましょう。

\begin{align}
\vx &= [x, y] \\[0.7em]
\vmu &= [\mu_x, \mu_y] \\[0.7em]
\Sigma &=
\begin{pmatrix}
\sigma_x^2 & \rho_{xy} \\
\rho_{xy} & \sigma_y^2 \\
\end{pmatrix}
\end{align}

先に$\Sigma$の逆行列を求めておきましょう。

\begin{align}
\Sigma^{-1} &= \frac{1}{\sigma_x^2\sigma_y^2(1 – \rho_{xy}^2)}
\begin{pmatrix}
\sigma_y^2 & -\rho_{xy} \\
-\rho_{xy} & \sigma_x^2 \\
\end{pmatrix}
\end{align}

ただし,$\rho_{xy}$は$X$と$Y$の相関係数を表しています。これらの変数を多変量正規分布の確率密度関数に代入します。$(x – \mu_x)$などの項を展開せずに閉じておくことが計算のコツです。

\begin{align}
&f(\vx) \\[0.7em]
&= \frac{1}{2\pi \sqrt{|\Sigma|}} \exp \left\{ -\frac{1}{2} (\vx – \vmu)^T\Sigma^{-1} (\vx – \vmu) \right\} \\[0.7em]
&= \frac{1}{2\pi \sigma_x\sigma_y\sqrt{1 – \rho_{xy}^2}} \exp\left[ -\frac{1}{2\sigma_x^2\sigma_y^2(1 – \rho_{xy}^2)}
\left\{ (x – \mu_x)^2\sigma_y^2 – 2(x – \mu_x)(y – \mu_y)\sigma_{xy} + (y – \mu_y)^2\sigma_y^2 \right\} \right] \\[0.7em]
&= \frac{1}{2\pi \sigma_x\sigma_y\sqrt{1 – \rho_{xy}^2}} \exp\left[ -\frac{1}{2(1 – \rho_{xy}^2)}
\left\{ \frac{(x – \mu_x)^2}{\sigma_x^2} – 2\rho_{xy}\frac{(x – \mu_x)(y – \mu_y)}{\sigma_x\sigma_y} + \frac{(y – \mu_y)^2}{\sigma_y^2} \right\} \right]
\end{align}

また,多変量正規分布の周辺分布に関する定理を利用すれば,周辺確率密度関数$f(y)$は以下のように表されます。

\begin{align}
f(y) &= \frac{1}{\sqrt{2\pi }\sigma_y} \exp\left\{ -\frac{(y – \mu_y)^2}{2\sigma_y^2} \right\}
\end{align}

したがって,条件付き分布$f(x | y)$の確率密度関数は以下のようになります。

\begin{align}
f(x|y) &= \frac{f(x, y)}{f(y)} \\[0.7em]
&= \frac{1}{\sqrt{2\pi}\sigma_x\sqrt{1 – \rho_{xy}^2}} \exp\left[ -\frac{1}{2(1 – \rho_{xy}^2)} \left\{
\frac{(x – \mu_x)^2}{\sigma_x^2} – 2\rho_{xy}\frac{(x – \mu_x)(y – \mu_y)}{\sigma_x\sigma_y} + \frac{(y – \mu_y)^2}{\sigma_y^2} – (1 – \rho_{xy}^2)\frac{(y – \mu_y)^2}{\sigma_y^2}
\right\} \right] \\[0.7em]
&= \frac{1}{\sqrt{2\pi}\sigma_x\sqrt{1 – \rho_{xy}^2}} \exp\left[ -\frac{1}{2(1 – \rho_{xy}^2)} \left\{
\frac{(x – \mu_x)^2}{\sigma_x^2} – 2\rho_{xy}\frac{(x – \mu_x)(y – \mu_y)}{\sigma_x\sigma_y} + \rho_{xy}^2\frac{(y – \mu_y)^2}{\sigma_y^2}
\right\} \right] \\[0.7em]
&= \frac{1}{\sqrt{2\pi}\sigma_x\sqrt{1 – \rho_{xy}^2}} \exp\left\{ -\frac{1}{2(1 – \rho_{xy}^2)} \left(
\frac{x – \mu_x}{\sigma_x} – \rho_{xy}\frac{y – \mu_y}{\sigma_y^2}
\right)^2 \right\} \\[0.7em]
&= \frac{1}{\sqrt{2\pi\sigma_x^2(1 – \rho_{xy}^2)}} \exp\left[ -\frac{1}{2\sigma_x^2(1 – \rho_{xy}^2)} \left\{
x – \left( \mu_x + \frac{\rho_{xy}\sigma_x}{\sigma_y}(y – \mu_y) \right)
\right\}^2 \right] \\[0.7em]
\end{align}

条件付き分布$f(x|y)$は,平均を$\mu_{x|y}$,分散を$\sigma_{x|y}^2$と置けば,以下の形をしています。

\begin{align}
\frac{1}{\sqrt{2\pi \sigma_{x|y}^2}} \exp \left\{
-\frac{1}{2\sigma_{x|y}^2} \left( x – \mu_{x|y} \right)^2
\right\}
\end{align}

先ほどの計算結果と係数を比較すれば,2変量正規分布の条件付き期待値と分散は以下のように表されます。

\begin{align}
E[X|Y=y] &= \mu_{x|y} \\[0.7em]
&= \mu_x + \rho_{xy}\frac{\sigma_x}{\sigma_y}(y – \mu_y) \\[0.7em]
&= E[X] + \frac{\Cov[X, Y]}{V[Y]}(y – E[Y]) \\[0.7em]
V[X|Y=y] &= \sigma_{x|y}^2 \\[0.7em]
&= \sigma_x^2(1 – \rho_{xy}^2) \\[0.7em]
&= V[X] – \frac{\Cov[X, Y]^2}{V[Y]}
\end{align}

ここまでの計算は,もちろん多変量正規分布の条件付き分布に関する定理を利用しても求められます。こちらの定理を利用すれば一瞬です。

\begin{align}
E[X|Y=y] &= \mu_x + \frac{\sigma_{xy}}{\sigma_y^2}(y – \mu_y) \\[0.7em]
&= E[X] + \frac{\Cov[X, Y]}{V[Y]}(y – E[Y]) \\[0.7em]
V[X|Y=y]
&= \sigma_x^2 – \frac{\sigma_{xy}^2}{\sigma_y^2} \\[0.7em]
&= V[X] – \frac{\left( \Cov[X, Y] \right)^2}{V[Y]}
\end{align}

ですが,この定理を導出するのも少し苦労しますので,どちらにしろ計算するのであれば定義に従って条件付き分布を計算しても良いのではないかなと思います。

ここで,一点補足しておきます。条件付き期待値は回帰関数そのものですので,多変量正規分布の条件付き期待値を最小二乗法に基づくフィッティングを用いて導出することもできます。例えば,今回の例でいうと,$E[X|Y=y]$は「$y$が与えらえたときに$x$はどのような値を取るのか」を示しています。これは「$y$から$x$を予測する回帰関数」そのものを指しています。ですから,誤差に正規分布を仮定した最尤推定で回帰係数を計算することができます。詳しくは付録で解説予定です。

2変数に関する条件付き期待値と分散

さて,ここまでが1変数に関する条件付き期待値と分散でした。ここからは,$Y$に加えて$Z$も条件付けされている期待値と分散を求めていきたいと思います。冒頭にもお伝えした通り,定義に基づいて力技で計算していくことも可能です。

\begin{align}
f(x | y, z) &= \frac{f(x, y, z)}{f(y. z)}
\end{align}

しかし,1変数で条件付けされているだけでも平方完成が大変だったことを考えると,愚直に定義に基づいて計算していくのは現実的ではありません。そこで,今回は変数の置き換えを用いてこのピンチを脱出したいと思います。具体的には,

\begin{align}
X^{\ast} &= X | Z \\[0.7em]
Y^{\ast} &= Y | Z
\end{align}

と置きます。このとき,先ほどの結果から,

\begin{align}
E[X^{\ast}] &= \mu_x + \rho_{xz}\frac{\sigma_x}{\sigma_z}(z – \mu_z) \\[0.7em]
E[Y^{\ast}] &= \mu_y + \rho_{yz}\frac{\sigma_y}{\sigma_z}(z – \mu_z) \\[0.7em]
V[X^{\ast}] &= \sigma_x^2 – \frac{1}{\sigma_z^2}\sigma_{xz}^2 \\[0.7em]
V[Y^{\ast}] &= \sigma_y^2 – \frac{1}{\sigma_z^2}\sigma_{yz}^2
\end{align}

が分かります。このような変数の置き換えを利用することで,2変数に関する条件付けの問題を1変数に関する条件付けの問題にばらすことができます。

\begin{align}
f(x | y, z) &= f(x^{\ast} | y^{\ast})
\end{align}

こちらの式変形の気持ちは「$X^{\ast}$と$Y^{\ast}$は既に$Z$に条件付けされているので,$Y^{\ast}$に条件付けられた$X^{\ast}$は既に$Z$に条件付けられている」というものです。念のため,条件付き確率密度関数の定義に沿って確認しておきましょう。

\begin{align}
f(x | y, z) &= \frac{f(x, y, z)}{f(y, z)} \\[0.7em]
&= \frac{f(x, y, z)/f(z)}{f(y, z)/f(z)} \\[0.7em]
&= \frac{f(x, y | z)}{f(y | z)} \\[0.7em]
&= \frac{f(x | z, y | z)}{f(y | z)} \\[0.7em]
&= \frac{f(x^{\ast}, y^{\ast})}{y^{\ast}} \\[0.7em]
&= f(x^{\ast} | y^{\ast})
\end{align}

この結果を用いると,

\begin{align}
E[X | Y=y, Z=z] &= E[X^{\ast} | Y^{\ast}=y] \\[0.7em]
V[X | Y=y, Z=z] &= V[X^{\ast} | Y^{\ast}=y]
\end{align}

であることが分かります。さて,ここからは2変数に関する条件付き期待値と分散を実際に計算していきましょう。先ほど導出した1変数に関する条件付き期待値と分散の結果を利用します。

\begin{align}
E[X^{\ast} | Y^{\ast}=y] &= E[X^{\ast}] + \frac{\Cov[X^{\ast}, Y^{\ast}]}{V[Y^{\ast}]}(y – E[Y^{\ast}]) \\[0.7em]
V[X^{\ast} | Y^{\ast}=y] &= V[X^{\ast}] – \frac{\Cov[X^{\ast}, Y^{\ast}]^2}{V[Y^{\ast}]}
\end{align}

ここで,$\Cov [X^{\ast}, Y^{\ast}]$を求める必要が出てきました。これは偏相関係数$\rho_{x|z, y|z}$を経由して求めるのが一番手っ取り早いです。詳しくは偏相関係数のページを参考にしてください。ここでは,偏導関数の結果だけを用います。

\begin{align}
\Cov[X^{\ast}, Y^{\ast}] &= \sqrt{V[X^{\ast}]}\sqrt{V[Y^{\ast}]} \cdot \rho_{x|z, y|z} \\[0.7em]
&= \sqrt{1 – \rho_{xz}^2} \sqrt{1 – \rho_{yz}^2} \frac{\rho_{xy} – \rho_{xz}\rho_{yz}}{\sqrt{1 – \rho_{xz}^2} \sqrt{1 – \rho_{yz}^2}} \\[0.7em]
&= \rho_{xy} – \rho_{xz}\rho_{yz}
\end{align}

この結果を先ほどの式に代入します。

\begin{align}
E[X^{\ast} | Y^{\ast}=y] &= \mu_x + \rho_{xz}\frac{\sigma_x}{\sigma_z}(z – \mu_z) + \frac{\rho_{xy} – \rho_{xz}\rho_{yz}}{\sigma_y^2 – \frac{1}{\sigma_z^2}\sigma_{yz}^2}\left\{y – \mu_y – \rho_{yz}\frac{\sigma_y}{\sigma_z}(z – \mu_z)\right\} \\[0.7em]
V[X^{\ast} | Y^{\ast}=y] &= \sigma_x^2 – \frac{\sigma_{xz}^2}{\sigma_z^2} – \frac{(\rho_{xy} – \rho_{xz}\rho_{yz})^2}{\sigma_y^2 – \frac{1}{\sigma_z^2}\sigma_{yz}^2}
\end{align}

特に,$\sigma_x^2=\sigma_y^2=\sigma_z^2 = 1$かつ$\mu_x=\mu_y=\mu_z=0$のときは,以下のような形になります。$\sigma_x^2=\sigma_y^2=\sigma_z^2$から$\sigma_{xy}=\rho_{xy}$,$\sigma_{yz}=\rho_{yz}$,$\sigma_{xz}=\rho_{xz}$であることに注意してください。

\begin{align}
E[X^{\ast} | Y^{\ast}=y] &= \rho_{xz}z + \frac{\rho_{xy} – \rho_{xz}\rho_{yz}}{1-\sigma_{yz}^2}( y – \rho_{yz}z ) \\[0.7em]
&= \rho_{xz}z + \frac{\rho_{xy} – \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2} ( y – \rho_{yz}z ) \\[0.7em]
&= \frac{\rho_{xy} – \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2}y + \frac{\rho_{xz} – \rho_{xy}\rho_{yz}}{1 – \rho_{yz}^2}z \\[0.7em]
V[X^{\ast} | Y^{\ast}=y] &= 1 – \sigma_{xz}^2 – \frac{\rho_{xy}^2 – 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 \rho_{yz}^2}{1-\sigma_{yz}^2} \\[0.7em]
&= 1 – \rho_{xz}^2 – \frac{\rho_{xy}^2 – 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 \rho_{yz}^2}{1-\rho_{yz}^2} \\[0.7em]
&= 1 – \frac{\rho_{xy}^2 – 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 }{1-\rho_{yz}^2}
\end{align}

以上で,$3$変量正規分布の条件付き期待値と分散を求めることができました。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする