【徹底解説】最良線形予測量とは

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

最良線形予測量

実定数$a,b_{1},\ldots,b_{n}$に対し,$X$の線形関数

\begin{align}
g(X) &= a+b_{1}X_{1}+\cdots+b_{n}X_{n}
\end{align}

で$Y$を予測する問題を考える。$Y$との平均二乗誤差を最小化する$g(X)$を最良線形予測量とよび,

\begin{align}
a &= E[Y]-b_{1}E[X_{1}]-\cdots-E[X_{n}]\label{主題1}\\[0.7em]
\vb&=\Sigma_{XX}^{-1}\sigma_{XY}\label{主題2}
\end{align}

で与えられる。ただし,$\Sigma_{XX}$は$(X_{1},\ldots,X_{n})$の正則な分散共分散行列を表し,$\vb{=}(b_{1},\ldots,b_{n})^{T}$とおき,$\sigma_{XY}{=}(\Cov[Y,X_{1}],\ldots,\Cov[Y,X_{n}])^{T}$とおいた。

$X$の線形関数で$Y$を予測する問題は線形回帰とよばれ,機械学習の分野では正規方程式ともよばれます。

証明

平均二乗誤差の定義より,最小化する目的関数を$I(a,\vb)$とおくと,

\begin{align}
I(a,\vb) &= E[Y-a-b_{1}X_{1}-\cdots-b_{n}X_{n}]\label{目的関数}
\end{align}

となります。式($\ref{目的関数}$)を最小にする$a,b_{1},\ldots,b_{n}$を求めるため,一般に確率変数$Z$に対して$E[(Z-c)^{2}]$を最小にする$c$は$E[Z]$で与えられることを示しておきます。$E[Z]{=}\mu_{z}$および$V[Z]{=}\sigma_{z}^{2}$とおき,$E[(Z-c)^{2}]$を期待値の線形性により変形すると,

\begin{align}
E[Z^{2}]-2cE[Z]+c^{2} &= (\sigma_{z}^{2}+\mu_{z}^{2})-2c\mu_{z}+c^{2}\\[0.7em]
&= c^{2}-2\mu_{z}c+(\sigma_{z}^{2}+\mu_{z}^{2})\label{cの目的関数}
\end{align}

が得られます。式($\ref{cの目的関数}$)は下に凸の二次関数であるため,平方完成すると式($\ref{cの目的関数}$)を最小にする$c$は$\mu_{z}$で与えられることが分かります。これを式($\ref{目的関数}$)に適用すると,

\begin{align}
a &= E[Y]-b_{1}E[X_{1}]-\cdots-b_{1}E[X_{n}]
\end{align}

となります。式($\ref{主題1}$)を示せました。これを再び式($\ref{目的関数}$)に代入すると,

\begin{align}
I(a,\vb) &= E[\left\{Y-\left(E[Y]-b_{1}E[X_{1}]-\cdots-b_{1}E[X_{n}]\right)-b_{1}X_{1}-\cdots-b_{n}X_{n}\right\}^{2}]\\[0.7em]
&= E[\left\{(Y-E[Y])-b_{1}(X_{1}-E[X_{1}])-\cdots-b_{n}(X_{n}-E[X_{n}])\right\}^{2}]\label{展開前}
\end{align}

$i=j=1,\ldots,n$とおいて式($\ref{展開前}$)を展開すると,$V[Y]$が一項,$-b_{i}\Cov[Y,X_{i}]$が二項ずつ,$b_{i}b_{j}\Cov[X_{i},X_{j}]$が一項現れますので,

\begin{align}
I(a,\vb) &= V[Y]-2\sum_{i=1}^{n}b_{i}\Cov[Y,X_{i}]+\sum_{i=1}^{n}\sum_{j=1}^{n}b_{i}b_{j}\Cov[X_{i},X_{j}]\label{展開後}
\end{align}

となります。式($\ref{展開後}$)の第三項目を

\begin{align}
\sum_{i=1}^{n}\sum_{j=1}^{n}b_{i}b_{j}\Cov[X_{i},X_{j}]
&= \sum_{i=j}b_{i}b_{j}\Cov[X_{i},X_{j}]+2\sum_{i\neq j}\Cov[X_{i},X_{j}]\\[0.7em]
&= \sum_{i=1}^{n}b_{i}^{2}\Cov[X_{i},X_{i}]+2\sum_{i\neq j}b_{i}b_{j}\Cov[X_{i},X_{j}]
\end{align}

と変形して$b_{i}$で偏微分すると,

\begin{align}
\frac{\partial I(a,\vb)}{\partial b_{i}}
&= -2\Cov[Y,X_{i}]+\left(2b_{i}\Cov[X_{i},X_{i}]+2\sum_{i\neq j}b_{j}\Cov[X_{i},X_{j}]\right)\\[0.7em]
&= -2\Cov[Y,X_{i}]+2\sum_{j=1}^{n}b_{j}\Cov[X_{i},X_{j}]
\end{align}

が得られます。これを$0$とおくと,

\begin{align}
\Cov[Y,X_{i}] &= \sum_{j=1}^{n}b_{j}\Cov[X_{i},X_{j}]
\end{align}

が得られます。定義中のノーテーションを用いて行列表記すると,

\begin{align}
\sigma_{XY} &= \Sigma_{XX}b
\end{align}

となります。$\Sigma_{XX}$が正則ならば,$\Sigma_{XX}^{-1}$を左から掛けることで式($\ref{主題2}$)が得られます。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.

目次