【徹底解説】マハラノビス距離とユークリッド距離の関係

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

マハラノビス距離とユークリッド距離の関係

いくつかのD次元ベクトルで構成される集合をAとする。いま,あるベクトルxRDの集合Aに対するマハラノビス距離の平方根Dとユークリッド距離の平方根Eを考える。

(1)D=(xμ)TΣ1(xμ),E=xμ2

ただし,μRDは集合Aに属するD次元ベクトルの平均ベクトル,ΣRD×Dは分散共分散行列を表す。xが標準化され,かつΣが分散行分散行列が対角行列である場合,マハラノビス距離Dとユークリッド距離Eは等価になる。

分散共分散行列の定義より,分散共分散行列が対角行列であるとき,xの各次元が無相関となります。したがって,xの各次元が無相関である場合,マハラノビス距離Dとユークリッド距離Eは等価になります。さらに,独立ならば無相関が成り立つため,xの各次元が独立である場合もマハラノビス距離Dとユークリッド距離Eは等価になります。

証明

多変量正規分布の確率密度関数の導出と同様に,ある正則な線形変換ARD×Dによってxの各次元の分布を標準化し,zを定義します。

(2)z=A1(xμ)

標準化を行うための正則な線形変換A1が存在することは,一次元の場合を考えれば明らかとしてよいでしょう。すなわち,分散が非ゼロである状況下においては,一次元のデータの集合を標準化するための線形変換が存在しますから,この変換をD次元のそれぞれに適用するような線形変換を考えればよいのです。ただし,D次元のデータが全て同一のデータである場合は,分散がゼロとなり,各次元の分布を標準化するための線形変換は存在しませんので,正則な線形変換Aも存在しなくなってしまいます。

xを標準化したzの各次元の分散は1になることから,Σが対角行列の場合はzの分散共分散行列はD次元単位行列IDとなります。

(3)E[zzT]=ID

すると,xの共分散行列は

(4)Σ=E[(xμ)(xμ)T](5)=E[(Az)(Az)T](6)=E[AzzTAT](7)=AE[zzT]AT(8)=AIDAT(9)=AAT

と表されます。このとき,xのマハラノビス距離Dzを用いて

(10)D=(xμ)TΣ1(xμ)(11)=(Az)T(AAT)1(Az)(12)=zTAT(AT)1A1Az(13)=zTz=z2=E

と表されます。以上より,共分散行列が対角行列であるならば,標準化されたxに対するマハラノビス距離Dとユークリッド距離Eが等価であることが示されました。

結論を定性的に考察すると,マハラノビス距離はユークリッド距離を各次元の相関を考慮して拡張した概念ですが,各次元に相関がない場合は分散共分散行列を用いた距離の補正は標準化によって均されるということです。逆に言えば,各次元に相関がある場合は,各次元の分布を標準化したとしても相関の影響をなくすことはできないということです。各次元の分布を標準化する行為が,分散共分散行列の対角成分だけをいじる行為に相当しますので,標準化だけでは非対角成分である相関についての調整を行うことはできないのです。したがって,相関の調整を行うためには,非対角成分をいじる必要がありますが,これは回転行列を掛ける行為に相当します。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.