【これなら分かる!】ポアソン分布とは

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

ポアソン分布

二項分布$\Bin(n,p)$において,$np=\lambda$を一定に保ったまま$n$を大きくしていくとポアソン分布$\Po (\lambda)$が得られます。$n$を大きくしていく中で$np$を一定に保つということは,$p$をその分小さくしていかなければならないということです。要するに,ポアソン分布は稀にしか起こらない事象を表しているといえます。 ポアソン分布には再生性があります。ロードマップ中ではポアソン分布は二項分布の極限として与えられています。 以下では,$X\in \{0, \ldots, n \}$とします。

\begin{align}
f_{X}(x) &= \frac{\lambda^x}{x!}e^{-\lambda} \\[0.7em]
G_{X}(s) &= e^{\lambda(s-1)} \\[0.7em]
E[X] &= \lambda \\[0.7em]
V[X] &= \lambda
\end{align}

確率質量関数

ポアソン分布は,二項分布において$\mu=np$を一定に保ちながら$n\rightarrow\infty$とすることで導かれます。ここでは,ポアソン分布の確率質量関数を大まかに求める方法と,正確に計算する方法の両方をお伝えしていきます

大まかに計算する方法

ポアソン分布の確率質量関数を大まかに計算する方歩

青色の部分は,分子の方が分母よりもおおよそ「$n$が$x$個分掛けられている分」だけ大きいことから,約分して$n^x$とみなします。$n^x$は$p^x$と同じ括弧の中に入れましょう。すると,緑色の部分は$np$の定義より$\lambda$となります。赤色の指数部分は,$n \rightarrow \infty$のときには$x$と比べて$n$の方が十分に大きいことから,$n-x$は$n$とみなすことができます。いま,$n=\lambda/p$ですので,ネイピア数の定義を利用すると,以下の変形により赤色の部分は$e^{-\lambda}$になります。

\begin{align}
(1-p)^{n-x} &\approx (1-p)^{n} \\[0.7em]
&= \left\{ \left(1+\frac{1}{-n/\lambda} \right)^{-n/\lambda} \right\}^{-\lambda} \\[0.7em]
&\rightarrow e^{-\lambda}
\end{align}

すると,ポアソン分布の確率質量関数は以下のような形になると予想できます。

\begin{align}
f_{X}(x) &= \frac{\lambda^x}{x!}e^{-\lambda}
\end{align}

正確に計算する方法

極限を正確に計算していきます。

\begin{align}
f_{X}(x) &= P(X=x) \\[0.7em]
&= {}_n C _x p^x(1-p)^{1-x} \\[0.7em]
&= \frac{n!}{x!(n-x)!}\left(\frac{\lambda}{n}\right)^x \left( 1-\frac{\lambda}{n} \right)^{n-x}\\[0.7em]
&= \frac{n(n-1)\cdots(n-x+1)}{x!}\left( \frac{\lambda}{n} \right)^x\left(1-\frac{\lambda}{n} \right)^n \left(1-\frac{\lambda}{n} \right)^{-x}\\[0.7em]
&= \frac{\lambda^{x}}{x!}\left(1 – \frac{\lambda}{n} \right)^n
\left(1-\frac{1}{n} \right)\cdots \left(1-\frac{x-1}{n} \right)\left(1-\frac{\lambda}{n} \right)^{-x}\\[0.7em]
&= \frac{\lambda^{x}}{x!}\left\{\left(1 + \frac{1}{-n/\lambda}\right)^{-n/\lambda} \right\}^{-\lambda}
\left(1-\frac{1}{n} \right)\cdots \left(1-\frac{x-1}{n} \right)\left( 1-\frac{\lambda}{n} \right)^{-x}\\[0.7em]
&\longrightarrow \frac{\lambda^x}{x!}e^{-\lambda}\quad(n\rightarrow \infty)
\end{align}

確率母関数

確率母関数の定義に従って計算していきます。以下の$e^{\lambda}$のマクローリン展開を利用します。

\begin{align}
e^{s\lambda} &= 1 + \frac{s\lambda}{1!} + \frac{(s\lambda)^{2}}{2!} + \cdots
\end{align}

実際に計算していきましょう。

\begin{align}
G_{X}(s) &= E[s^x]\\[0.7em]
&= \sum_{x=0}^{\infty} s^x e^{-\lambda}\frac{\lambda^x}{x!}\\[0.7em]
&= e^{-\lambda} \left\{ 1 + \frac{s\lambda}{1!} + \frac{(s\lambda)^{2}}{2!} + \cdots \right\}\\[0.7em]
&= e^{-\lambda} \cdot e^{s\lambda}\\[0.7em]
&= e^{\lambda(s-1)}
\end{align}

平均・分散

離散分布の平均と分散を求める際には「確率母関数の性質」を利用します。ポアソン分布は,期待値と分散が同じ値となります。まず,確率母関数の一階微分から$E[X]$を求めます。

\begin{align}
E[X] &= \left.\frac{d G_{X}(s)}{d s}\right|_{s=1}\\[0.7em]
&= \left. \lambda e^{\lambda(s-1)} \right|_{s=1}\\[0.7em]
&= \lambda
\end{align}

次に,確率母関数の二階微分から$E[X(X−1)]$を求めます。

\begin{align}
E[X(X-1)] &= \left.\frac{d^2 G_{X}(s)}{d s^2}\right|_{s=1}\\[0.7em]
&= \left. \lambda^2 e^{\lambda(s-1)} \right|_{s=1}\\[0.7em]
&= \lambda^2
\end{align}

最後に,分散の定義から分散を求めます。

\begin{align}
V[X] &= E[X^2]-E[X]^2\\[0.7em]
&= E[X(X-1)] + E[X]-E[X]^2\\[0.7em]
&= \lambda^2 + \lambda-\lambda^2\\[0.7em]
&= \lambda
\end{align}

ポアソン分布の平均と分散は,上式のように「確率母関数を微分すると$\lambda$が前に出てきてそれ以外がキレイに消える」という感覚を覚えておくことで非常に素早く導出することができるようになります。

再生性

再生性を示すためには,再生性を示したい分布に従う独立な二つの確率変数を考え,その和のモーメント母関数(離散分布の場合はモーメント母関数)を計算したときに,パラメータが和の形になっていることを示します。

$X \sim \Po (\lambda_x)$,$Y \sim \Po (\lambda_y)$を独立にポアソン分布に従う2つの確率変数とします。 このとき,$X+Y$の確率母関数を考えます。

\begin{align}
G_{X+Y}(s) &= G_{X}(s) \cdot G_{Y}(s) \\[0.7em]
&= e^{\lambda_x(s-1)} \cdot e^{\lambda_y(s-1)} \\[0.7em]
&= e^{(\lambda_x + \lambda_y)(s-1)}
\end{align}

これは,$X+Y$の確率母関数が$\Po (\lambda_x + \lambda_y)$の母関数であることを示しています。つまり,

\begin{align}
X +Y &\sim \Po (\lambda_x + \lambda_y)
\end{align}

であり,ポアソン分布の再生性を示しています。

ロードマップ再来

確率分布のロードマップ

さて,ロードマップに戻ってみましょう。ポアソン分布は二項分布からの極限で表されています。これは,上で説明しましたね。同時に,正規分布がポアソン分布からの極限で表されています。これはどういうことなのでしょうか。端的には,中心極限定理からこの事実を確認できます。

$X_1, \cdots, X_n$をポアソン分布$\Po (\lambda)$に従う独立な変数とします。このとき,

\begin{align}
S_n &= X_1 + \cdots + X_n
\end{align}

を考えると,ポアソン分布の再生性より$E[S_n]=n\lambda$,$V[S_n]=n\lambda$となります。これは$S_n \sim \Po (n\lambda)$とも書けます。

ここで,$n$が十分大きいときを考えます。すると,中心極限定理を利用でき,

\begin{align}
Z &= \frac{S_n-n\lambda}{\sqrt{n\lambda}}
\end{align}

は標準正規分布$\N (0,1)$に収束します。このことは,$n$が十分大きいときには,$Z$に正規化前の分布$\Po (n\lambda)$は正規分布$\N (n\lambda, n\lambda)$に近似できるということを示しています。$n\lambda$を改めて$\lambda$とおくと,$\Po (\lambda)$は正規分布$\N (\lambda, \lambda)$に近似できるということを示しています。これが,ロードマップでポアソン分布から正規分布に伸びる矢印の正体です。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする