本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
マハラノビス距離とユークリッド距離の関係
いくつかの次元ベクトルで構成される集合をとする。いま,あるベクトルの集合に対するマハラノビス距離の平方根とユークリッド距離の平方根を考える。
ただし,は集合に属する次元ベクトルの平均ベクトル,は分散共分散行列を表す。が標準化され,かつが分散行分散行列が対角行列である場合,マハラノビス距離とユークリッド距離は等価になる。
分散共分散行列の定義より,分散共分散行列が対角行列であるとき,の各次元が無相関となります。したがって,の各次元が無相関である場合,マハラノビス距離とユークリッド距離は等価になります。さらに,独立ならば無相関が成り立つため,の各次元が独立である場合もマハラノビス距離とユークリッド距離は等価になります。
証明
多変量正規分布の確率密度関数の導出と同様に,ある正則な線形変換によっての各次元の分布を標準化し,を定義します。
標準化を行うための正則な線形変換が存在することは,一次元の場合を考えれば明らかとしてよいでしょう。すなわち,分散が非ゼロである状況下においては,一次元のデータの集合を標準化するための線形変換が存在しますから,この変換を次元のそれぞれに適用するような線形変換を考えればよいのです。ただし,次元のデータが全て同一のデータである場合は,分散がゼロとなり,各次元の分布を標準化するための線形変換は存在しませんので,正則な線形変換も存在しなくなってしまいます。
を標準化したの各次元の分散はになることから,が対角行列の場合はの分散共分散行列は次元単位行列となります。
すると,の共分散行列は
と表されます。このとき,のマハラノビス距離はを用いて
と表されます。以上より,共分散行列が対角行列であるならば,標準化されたに対するマハラノビス距離とユークリッド距離が等価であることが示されました。
結論を定性的に考察すると,マハラノビス距離はユークリッド距離を各次元の相関を考慮して拡張した概念ですが,各次元に相関がない場合は分散共分散行列を用いた距離の補正は標準化によって均されるということです。逆に言えば,各次元に相関がある場合は,各次元の分布を標準化したとしても相関の影響をなくすことはできないということです。各次元の分布を標準化する行為が,分散共分散行列の対角成分だけをいじる行為に相当しますので,標準化だけでは非対角成分である相関についての調整を行うことはできないのです。したがって,相関の調整を行うためには,非対角成分をいじる必要がありますが,これは回転行列を掛ける行為に相当します。
参考文献
本稿の執筆にあたり参考にした文献は,以下でリストアップしております。
コメント