本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
連続修正と半目盛り修正
$X_i(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に独立に従うとする。
Z &= X_1 + X_2 + \cdots + X_n
\end{align}
に対して,次の近似が成り立つ。
P(Z \leq x) \approx \Phi \left( \frac{x + \frac{1}{2} - np}{\sqrt{np(1-p)}} \right) \quad (x \in { 0,1,\cdots, n }) \label{continuity_correction}
\end{align}
また,同様に考えると$P(a \leq X \leq b)$は次の近似が成り立つ。
P(a \leq X \leq b) &\approx P\left( \frac{a - \frac{1}{2} - np}{\sqrt{np(1 - p)}} \leq z \leq \frac{a + \frac{1}{2} - np}{\sqrt{np(1 - p)}} \right)
\end{align}
ほとんど正規近似と同じですが,$x$の取りうる値が異なります。正規近似のときは$x$は実数全体を取りましたが,連続修正では$x$が$Z$の取りうる値のときを考えます。後ほど説明を加えますが,二項分布は離散型確率分布ですので,$x$が$Z$の取りうる値を取るというのは,$x \in { 0,1,\cdots, n }$と書くことができます。
証明
$x \in { 0,1,\cdots, n }$のとき,正規近似を利用すると近似として一番小さいものを使っていることになります。というのも,ある$x$に対して$x^{\prime} \in (x, x+1)$となるような$x^{\prime}$を考えます。この$x^{\prime}$に対して$P(Z\leq x) = P(Z\leq x^{\prime})$が成り立つため
P(Z\leq x) &= \Phi\left( \frac{x^{\prime} - np}{\sqrt{np(1-p)}}\right)
\end{align}
とも近似できてしまうからです。確率変数が離散型であるがゆえに起こってしまう弊害ともいえます。この「近似として一番小さいものを使っている」という状況を打破するために,安直ではありますが単純に中間の値を利用して近似しようというアイディアが連続修正です。
式(\ref{continuity_correction})の右辺の分子にある$1/2$は,離散型確率変数の間隔$1$の半分という意味です。注意点としては,「近似として一番小さいものを使っている」という状況を打破する方法は,単に$1/2$を足すだけではないということです。例えば,$x \in { 0,1,\cdots, n }$に対して$P(Z\geq x)$の近似は
P(Z\geq x) &= 1 - P(Z\leq x - 1)\\[0.7em]
&\approx 1 - \Phi \left( \frac{x - \frac{1}{2} - np}{\sqrt{np(1-p)}} \right)
\end{align}
となります。$P(Z\geq x) = 1 - P(Z\leq x - 1)$の変形は$x$が離散型変数であることに注意すれば理解できるかと思います。また,先ほどの例とは異なり,なぜ$1/2$を引いているのかというと,$x^{\prime\prime} \in (x-1, x)$のような$x^{\prime\prime}$を考えているからです。
また,同様に考えると$P(a \leq X \leq b)$は以下のように近似することができます。これを半目盛の補正と呼びます。
P(a \leq X \leq b) &\approx P\left( \frac{a - \frac{1}{2} - np}{\sqrt{np(1 - p)}} \leq z \leq \frac{a + \frac{1}{2} - np}{\sqrt{np(1 - p)}} \right)
\end{align}
参考文献
本稿の執筆にあたり参考にした文献は,以下でリストアップしております。
コメント