本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
フィッシャー・ネイマンの因子分解定理
$X$を離散型確率変数または連続型確率変数とし,$p_{\theta}$を$X$の確率質量関数または確率密度関数とする。以下で定義される統計量
T(X) &= (T_{1}(X),\ldots,T_{k}(X))
\end{align}
が十分統計量であるための必要十分条件は,$p_{\theta}(x)$が
p_{\theta}(x) &= g_{\theta}(T(x))h(x)\label{主題}
\end{align}
の形に分解できることである。ただし,$h(x)$は$\theta$を含まない$x$だけの関数である。
ある統計量が十分統計量かどうかを判別するためには,定義に従って条件つき確率を計算する必要がありました。しかし,一般に条件つき確率の計算は煩雑になることが多いため,ある統計量が十分統計量かどうかを判別するためには,十分統計量の定義と必要十分条件であるフィッシャー・ネイマンの分解定理が利用されることが多いです。
証明
$X$が離散型確率変数の場合と連続型確率変数の場合に分けて証明します。前者は比較的簡単に示すことができますが,後者は測度論を用いた条件つき確率の定義が必要となります。
離散型確率変数の場合
まず,$p_{\theta}$が式($\ref{主題}$)のように分解できるときに$T(X)$が十分統計量であることを証明します。$T(X)$が$t$という実現値をとるとき,$X$の実現値$x$の取りうる値の組み合わせは複数考えられますので,
p_{\theta}(T=t) &= \sum_{x\in\{T(x)=t\}}p_{\theta}(x)\\[0.7em]
&= \sum_{x\in\{T(x)=t\}}g_{\theta}(T(x))h(x)\\[0.7em]
&= g_{\theta}(t)\sum_{x\in\{T(x)=t\}}h(x)\\[0.7em]
\end{align}
が成り立ちます。これを十分統計量の定義に用いられる条件つき分布に代入すると,条件つき確率の定義より,
p_{\theta}(X=x|T=t) &= \frac{p_{\theta}(X=x,T=t)}{p_{\theta}(T=t)}\\[0.7em]
&= \frac{g_{\theta}(t)h(x)}{g_{\theta}(t)\sum_{y\in\{T(y)=t\}}h(y)}\\[0.7em]
&= \frac{h(x)}{\sum_{y\in\{T(y)=t\}}h(y)}
\end{align}
となり,$\theta$に依存する項が約分されますので,$p_{\theta}(X=x|T=t)$が$\theta$に依存しないことが分かります。したがって,$T(X)$は十分統計量です。以上で,$p_{\theta}$が式($\ref{主題}$)のように分解できるときに$T(X)$が十分統計量であることが示されました。
逆に,$T(X)$が十分統計量であるときに$p_{\theta}$が式($\ref{主題}$)のように分解できることを証明します。条件つき確率の定義より,$p_{\theta}$は
P_{\theta}(X=x) &= P(T=t)\cdot P(X=x|T=t)
\end{align}
と表されます。第一項目は$\theta$に依存する可能性はあるため,$g_{\theta}(t)$とおきます。ただし,$t$は$T(X)$が取り得る値であり,$X$の実現値$x$を用いて$T(x)$と表すことができることに注意してください。第二項目は$T(X)$は十分統計量であることから,$\theta$に依存せず$x$だけに依存する形で$h(x)$と記述することができます。以上より,
P_{\theta}(X=x) &= g_{\theta}(T(x))h(x)
\end{align}
が得られます。以上で,$T(X)$が十分統計量であるときに$p_{\theta}$が式($\ref{主題}$)のように分解できることが示されました。
連続型確率変数の場合
(現在作成中です。測度論を用いない確率統計のコンテンツ作成完了後に着手します。)
参考文献
本稿の執筆にあたり参考にした文献は,以下でリストアップしております。
コメント