【徹底解説】最良線形予測量とは

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

最良線形予測量

実定数a,b1,,bnに対し,Xの線形関数

(1)g(X)=a+b1X1++bnXn

Yを予測する問題を考える。Yとの平均二乗誤差を最小化するg(X)を最良線形予測量とよび,

(2)a=E[Y]b1E[X1]E[Xn](3)b=ΣXX1σXY

で与えられる。ただし,ΣXX(X1,,Xn)の正則な分散共分散行列を表し,b=(b1,,bn)Tとおき,σXY=(Cov[Y,X1],,Cov[Y,Xn])Tとおいた。

Xの線形関数でYを予測する問題は線形回帰とよばれ,機械学習の分野では正規方程式ともよばれます。

証明

平均二乗誤差の定義より,最小化する目的関数をI(a,b)とおくと,

(4)I(a,b)=E[Yab1X1bnXn]

となります。式(4)を最小にするa,b1,,bnを求めるため,一般に確率変数Zに対してE[(Zc)2]を最小にするcE[Z]で与えられることを示しておきます。E[Z]=μzおよびV[Z]=σz2とおき,E[(Zc)2]を期待値の線形性により変形すると,

(5)E[Z2]2cE[Z]+c2=(σz2+μz2)2cμz+c2(6)=c22μzc+(σz2+μz2)

が得られます。式(6)は下に凸の二次関数であるため,平方完成すると式(6)を最小にするcμzで与えられることが分かります。これを式(4)に適用すると,

(7)a=E[Y]b1E[X1]b1E[Xn]

となります。式(2)を示せました。これを再び式(4)に代入すると,

(8)I(a,b)=E[{Y(E[Y]b1E[X1]b1E[Xn])b1X1bnXn}2](9)=E[{(YE[Y])b1(X1E[X1])bn(XnE[Xn])}2]

i=j=1,,nとおいて式(9)を展開すると,V[Y]が一項,biCov[Y,Xi]が二項ずつ,bibjCov[Xi,Xj]が一項現れますので,

(10)I(a,b)=V[Y]2i=1nbiCov[Y,Xi]+i=1nj=1nbibjCov[Xi,Xj]

となります。式(10)の第三項目を

(11)i=1nj=1nbibjCov[Xi,Xj]=i=jbibjCov[Xi,Xj]+2ijCov[Xi,Xj](12)=i=1nbi2Cov[Xi,Xi]+2ijbibjCov[Xi,Xj]

と変形してbiで偏微分すると,

(13)I(a,b)bi=2Cov[Y,Xi]+(2biCov[Xi,Xi]+2ijbjCov[Xi,Xj])(14)=2Cov[Y,Xi]+2j=1nbjCov[Xi,Xj]

が得られます。これを0とおくと,

(15)Cov[Y,Xi]=j=1nbjCov[Xi,Xj]

が得られます。定義中のノーテーションを用いて行列表記すると,

(16)σXY=ΣXXb

となります。ΣXXが正則ならば,ΣXX1を左から掛けることで式(3)が得られます。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.