【これなら分かる!】確率分布一覧総まとめ

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

もし不適切な内容があれば,記事下のコメント欄又はお問い合わせフォームよりご連絡下さい。

本記事の流れ

本書のロードマップに登場する確率分布を総まとめします。

確率分布のロードマップ

具体的には,以下の特徴をまとめていきます。証明は別ページで行っていきます。

  • 確率質量関数/確率密度関数
  • 確率母関数/モーメント母関数
  • 平均
  • 分散
  • 再生性

雛形

本ページでは,以下の形で確率分布の詳細をお伝えしていきます。

[確率分布名称]

[確率分布の説明]

  • 確率質量関数/確率密度関数
  • 確率母関数/モーメント母関数
  • 期待値
  • 分散

離散一様分布

全ての事象の起こる確率が等しい分布を一様分布と呼びます。特に,確率変数が離散型の場合は離散一様分布と呼びます。離散一様分布には再生性はありません。ロードマップ中では,離散一様分布はベータ分布の特殊な場合に相当しています。以下では,$X \in \{0, \ldots, n\}$とします。

\begin{align}
f_{X}(x) &= \frac{1}{n} \\[0.7em]
G_X(s) &= \frac{s(1-s^{n})}{n(1-s)} \\[0.7em]
E[X] &= \frac{n + 1}{2} \\[0.7em]
V[X] &= \frac{n^2-1}{12}
\end{align}

ベルヌーイ分布

取り得る結果が成功・失敗の$2$つである試行の結果を表す確率分布をベルヌーイ分布と呼びます。ベルヌーイ分布には再生性があります。ロードマップ中では,ベルヌーイ分布は二項分布において試行回数が$1$回という特殊な場合に相当します。以下では,成功する確率を$p \in (0,1)$,確率変数を$X \in \{0, 1\}$とし,$0$が失敗,$1$が成功を表しているものとします。

\begin{align}
f_{X}(x) &= p^x(1-p)^{1-x} \\[0.7em]
G_{X}(s) &= ps + 1-p \\[0.7em]
E[X] &= p \\[0.7em]
V[X] &= p(1-p)
\end{align}

二項分布

取り得る結果が成功・失敗の$2$つである独立な試行を繰り返したとき,成功する回数を表す確率分布を二項分布と呼びます。要するに,二項分布における試行は独立なベルヌーイ試行の繰り返しですので,$Y_1,\ldots,Y_n$が独立に同一の$p\in(0,1)$で指定されるベルヌーイ分布に従っているとき,確率変数

\begin{align}
X &= Y_1+\cdots+Y_n
\end{align}

の従う分布が二項分布であり,$\Bin(n,p)$と書きます。 二項分布には再生性があります。ロードマップ中では二項分布はあらゆる分布の出発点に相当します。以下では,$X \in \{0, \ldots, n \}$とします。

\begin{align}
f_{X}(x) &= {}_n C _x~p^x(1-p)^{1-x} \\[0.7em]
G_{X}(s) &= (ps + 1-p)^n \\[0.7em]
E[X] &= np \\[0.7em]
V[X] &= np(1-p)
\end{align}

ポアソン分布

二項分布$\Bin(n,p)$において,$np=\lambda$を一定に保ったまま$n$を大きくしていくとポアソン分布$\Po (\lambda)$が得られます。$n$を大きくしていく中で$np$を一定に保つということは,$p$をその分小さくしていかなければならないということです。要するに,ポアソン分布は稀にしか起こらない事象を表しているといえます。 ポアソン分布には再生性があります。ロードマップ中ではポアソン分布は二項分布の極限として与えられています。 以下では,$X\in \{0, \ldots, n \}$とします。

\begin{align}
f_{X}(x) &= \frac{\lambda^x}{x!}e^{-\lambda} \\[0.7em]
G_{X}(s) &= e^{\lambda(s-1)} \\[0.7em]
E[X] &= \lambda \\[0.7em]
V[X] &= \lambda
\end{align}

超幾何分布

アタリが$M$個,ハズレが$N-M$個入っているくじ引きから$n$個を引くとき,アタリの個数$X$は超幾何分布に従います。超幾何分布には再生性はありません。ロードマップ上では,超幾何分布は二項分布を非復元抽出として拡張した場合に相当しています。以下では,$X \in \{0, \ldots, n\}$とし,$p=M/N$とおきます。なお,超幾何分布の確率母関数は非常に計算が面倒なので割愛されることが多く,本資料もそれに従います。

\begin{align}
f_{X}(x) &= \frac{{}_M \tilde{C}_{x} \times {}_{N-M} \tilde{C}_{n-x}}{{}_N C_n} \\[0.7em]
E[X] &= np \\[0.7em]
V[X] &= \frac{N-n}{N-1} np(1-p)
\end{align}

ただし,$\tilde{C}$は二項係数を拡張した記号である。

\begin{align}
{}_N \tilde{C} _x &=
\begin{cases}
{}_N C_x & (x=0,\cdots,n)\\[0.7em]
0 & (\text{その他})
\end{cases}
\end{align}

幾何分布

無限に続くベルヌーイ試行において,成功するまでの失敗の回数$X$は幾何分布に従います。幾何分布に再生性はありません。ロードマップ中では,幾何分布は負の二項分布の特殊な場合に相当します。以下では,$X\in\{0, \ldots, n\}$とします。

\begin{align}
f_{X}(x) &= p(1-p)^x \\[0.7em]
G_{X}(s) &= \frac{p}{1-(1-p)s} \\[0.7em]
E[X] &= \frac{1-p}{p}\\[0.7em]
V[X] &= \frac{1-p}{p^2}
\end{align}

負の二項分布

無限に続くベルヌーイ試行において,$r$回成功するまでの失敗の回数を確率変数$X$とするとき,$X$は以下のように表される負の二項分布$\NB (r, p)$に従います。負の二項分布は,ポアソン分布の混合分布にもなっています。負の二項分布には再生性があります。ロードマップ中では負の二項分布は二項分布の極限に相当します。以下では,$X\in\{0, \ldots, n\}$とします。

\begin{align}
f_{X}(x) &= {}_{x+r-1} C_{x}\;p^r (1-p)^{x} \\[0.7em]
G_{X}(s) &= \left\{ \frac{p}{1-(1-p)s} \right\}^r \\[0.7em]
E[X] &= r\frac{1-p}{p} \\[0.7em]
V[X] &= r \frac{1-p}{p^2}
\end{align}

多項分布

二項分布を複数のカテゴリに拡張した分布を多項分布と呼びます。ただし,毎回の試行で各カテゴリーの発生確率を$p_1,\cdots,p_K$とし,これらは

\begin{align}
p_1+\cdots+p_K &= 1
\end{align}

を満たします。この条件により,自由に定められる確率変数は$x_1,\ldots, x_{K-1}$の正整数$K-1$個になります。$K-1$個の確率が決まった時点で,あと$1$つの確率も決まってしまうからです。また,今までは確率母関数の$s$は$1$つでしたが,多項分布では$K-1$個の$x$を考えるため,$s$も$K-1$個用意しなくてはなりません。多項分布には再生性はありません。ロードマップ中では,多項分布は二項分布の多変量拡張に相当します。

\begin{align}
f_{\mX}(\vx) &= \frac{n!}{x_1!\cdots x_K!}~p_1^{x_1}\cdots p_K^{x_K} \\[0.7em]
G_{\mX}(\vs) &= (p_1s_1 + \cdots + p_{K-1}s_{K-1} + p_K)^n \\[0.7em]
E[X_i] &= np_i \\[0.7em]
V[X_i] &= np_i(1-p_i)
\end{align}

連続一様分布

連続型確率変数をとる一様分布は,以下のように表されます。連続一様分布には再生性はありません。ロードマップ中では,離散一様分布同様に幾何分布の特殊な場合に相当します。以下では,$a \leq X \leq b$とします。

\begin{align}
f_{X}(x) &= \frac{1}{b-a} \\[0.7em]
M_{X}(t) &= \frac{e^{tb}-e^{ta}}{t(b-a)} \\[0.7em]
E[X] &= \frac{b+a}{2}\\[0.7em]
V[X] &= \frac{(b-a)^2}{12}
\end{align}

正規分布

二項分布$\Bin (n, p)$において,$p$を一定に保ったまま$n$と$x$を大きくしていくと正規分布$\N (\mu, \sigma^2)$が得られます。直感的には,二項分布の連続バージョンが正規分布です。正規分布には再生性があります。ロードマップ中では,正規分布は二項分布とポアソン分布の極限に相当すると同時に,正規分布は「正規系」の源流となる分布です。以下では,$X \in \bbR$,$T \in \bbR$とします。

\begin{align}
f_{X}(x) &= \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{ -\frac{1}{2\sigma^2} (x-\mu)^2 \right\} \\[0.7em]
M_{X}(t) &= \exp \left( \mu t + \frac{1}{2}\sigma^2t^2 \right) \\[0.7em]
E[X] &= \mu \\[0.7em]
V[X] &= \sigma^2
\end{align}

標準正規分布

確率変数$X \sim \N (\mu, \sigma^2)$に対して,

\begin{align}
Z &= \frac{X-\mu}{\sigma}
\end{align}

とおいたときに,$Z$が従う分布$\N (0, 1)$を標準正規分布と呼びます。正規分布を変数変換によって標準化した分布です。標準分布には再生性があります。ロードマップ中では,標準正規分布は正規分布を標準化したもの相当します。 以下では,$X \in \bbR$,$T \in \bbR$とします。

\begin{align}
f_{X}(x) &= \frac{1}{\sqrt{2\pi}}\exp\left\{ -\frac{1}{2} x^2 \right\} \\[0.7em]
M_{X}(t) &= \exp \left(\frac{1}{2}t^2 \right) \\[0.7em]
E[X] &= 0 \\[0.7em]
V[X] &= 1
\end{align}

対数正規分布

確率変数$X \sim \N (\mu, \sigma^2)$に対して,

\begin{align}
Y &= e^{X}
\end{align}

とおいたときに,$Y$が従う分布を対数正規分布と呼びます。$\log X$が正規分布に従うことが名前の由来になっています。対数正規分布のモーメント母関数は存在しません。対数正規分布には再生性はありません。ロードマップ中では対数正規分布は正規分布からの変数変換に相当します。注意点として,確率密度関数中の$\mu$と$\sigma^2$は正規分布とは異なってそれぞれ平均と分散には対応しません。定義から分かる通り,$X > 0$となります。

\begin{align}
f_{X}(x) &= \frac{1}{\sqrt{2\pi\sigma^2}}\frac{1}{x}\exp\left\{ -\frac{1}{2\sigma^2} (\log x-\mu)^2 \right\} \\[0.7em]
E[X] &= e^{\mu + \sigma^2/2} \\[0.7em]
V[X] &= e^{2\mu + \sigma^2}\left( e^{\sigma^2}-1 \right)
\end{align}

多変量正規分布

多変量正規分布はモーメント母関数から定義されます。多変量正規分布には再生性があります。ロードマップ中では,多変量正規分布は正規分布の多変量化に相当します。上図は$2$次元標準正規分布を表しています。

\begin{align}
f_{\mX}(\vx) &= \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp \left\{ -\frac{1}{2}(\vx-\boldsymbol{\mu})^T \Sigma^{-1}(\vx-\boldsymbol{\mu}) \right\} \\[0.7em]
M_{\mX}(\vt) &= \exp\left( \boldsymbol{\mu}^T\vt + \frac{1}{2}\vt^T\Sigma\vt \right) \\[0.7em]
E[\mX] &= \vmu \\[0.7em]
V[\mX] &= \Sigma
\end{align}

指数分布

ポアソン分布は単位時間あたりの生起確率を表しているのに対し,指数分布は事象の生起間隔の確率を与え,$\Exp (\lambda)$と表します。指数分布に再生性はありません。ロードマップ中では,ガンマ分布の特殊ケース$\Ga (1, \lambda)$に相当します。指数分布の最も合理的な導入方法は,危険率$\lambda$が一定な確率分布として計算する方法で,$x > 0$,$\lambda > 0$で定義されます。

\begin{align}
f_{X}(x) &= \lambda e^{-\lambda x} \\[0.7em]
M_{X}(t) &= \frac{1}{1-t/\lambda} \\[0.7em]
E[X] &= \lambda \\[0.7em]
V[X] &= \lambda^2
\end{align}

ガンマ分布

負の二項分布に現れる階乗をガンマ関数を用いて表した分布をガンマ分布と呼び,$\Ga (n, \lambda)$と表します。ガンマ分布には再生性があります。ロードマップ中では,ガンマ分布は負の二項分布の連続バージョン,そして指数分布の拡張に相当しています。具体的には,指数分布に独立に従う確率変数の和が従う分布として定義されます。 負の二項分布の連続拡張や指数分布の一般化という文脈からも分かる通り,ガンマ分布は$X > 0$で定義されます。また,パラメータ$n$,$\lambda$は正定数で,モーメント母関数は$t < \lambda$の場合にのみ存在します。

\begin{align}
f_{X}(x) &= \frac{\lambda^{n}}{\Gamma(n)}x^n e^{-\lambda x} \\[0.7em]
M_{X}(t) &= \left( \frac{1}{1-t/\lambda} \right)^{n} \\[0.7em]
E[X] &= \frac{n}{\lambda} \\[0.7em]
V[X] &= \frac{n}{\lambda^2}
\end{align}

ただし,$\Gamma(\cdot)$はガンマ関数を表す。

\begin{align}
\Gamma(n) &= \int_0^{\infty}t^{n-1}e^{-t}dt
\end{align}

ベータ分布

ベルヌーイ分布の共役事前分布として導入される分布をベータ分布と呼び,$\Be (a, b)$と表します。ベータ分布はガンマ分布に従う確率変数の変数変換を利用しても導くことができます。ベータ分布には再生性はありません。ロードマップ中では,ベータ分布は二項分布のベイズ共役に相当しています。ベータ分布にはモーメント母関数が存在することはしますが,あまり利用されていないためここでは割愛することにします。ベータ分布は$0 < X < 1$で定義され,$a$と$b$は正定数です。

\begin{align}
f_{X}(x) &= \frac{1}{B(a, b)}x^{a-1}(1-x)^{b-1} \\[0.7em]
E[X] &= \frac{a}{a+b} \\[0.7em]
V[X] &= \frac{ab}{(a+b)^2(a+b+1)}
\end{align}

ただし,$B(\cdot)$はベータ関数を表す。

\begin{align}
B(a, b) &= \int_0^1 x^{a-1}(1-x)^{b-1}dx
\end{align}

ディリクレ分布

ベータ分布を多カテゴリに拡張した分布がディリクレ分布です。ロードマップを見ても分かる通り,ディリクレ分布は多項分布の共役事前分布になっています。多項分布が二項分布を多カテゴリに拡張した分布であることを考えれば自然ですね。ディリクレ分布は,独立な$n$個の事象が$\alpha_i-1$回発生したときに,各事象が起こる確率が$x_i$である確率を与えます。ディリクレ分布には再生性はありません。ロードマップ中ではディリクレ分布はベータ分布の多変量バージョン(つまり多項分布の共役事前分布)に相当します。

\begin{align}
f_{\mX}(\vx) &= \frac{1}{B(\boldsymbol{\alpha})} \prod_{i=1}^{n} x_{i}^{\alpha_{i}-1} \\[0.7em]
E[X_i] &= \frac{\alpha_i}{\sum_i^n \alpha_i} \\[0.7em]
V[X_i] &= \frac{\alpha_i(\sum_i^n \alpha_i – \alpha_i)}{(\sum_i^n \alpha_i + 1)(\sum_i^n \alpha_i)^2}
\end{align}

標準コーシー分布

連続一様分布$U(-\pi/2, \pi/2)$に従う確率変数$Y$に対して,以下の変数変換

\begin{align}
X &= \tan Y
\end{align}

を考えたときに,$X$が従う分布が標準コーシー分布です。標準正規分布よりも裾が重い分布として有名です。導入方法からも分かる通り,$X \in \bbR$です。標準コーシー分布では,期待値や分散,モーメント母関数が定義されません。コーシー分布には再生性はありません。ただし, 独立にコーシー分布に従う確率変数の算術平均に関しては再生性を持ちます。ロードマップ中では,コーシー分布は$T$分布の特殊な場合(自由度$1$)に相当しています。

\begin{align}
f_{X}(x) &= \frac{1}{\pi}\frac{1}{x^2 + 1}
\end{align}

ワイブル分布

指数分布は危険率が$\lambda$で一定の確率分布として導入しましたが,ワイブル分布は危険率が$ct^b$となる場合を考えます。他には,以下で導入される確率変数

\begin{align}
Y &= \frac{X^{b+1}}{b+1}
\end{align}

が指数分布$\Exp (c)$に従うときに,$X$が従う分布として導入する方法もあります。なお,モーメント母関数は$e^x$のテイラー展開とガンマ関数の定義を用いて導出できますが,平均と分散は別の方法(指数分布からの変数変換)を用いて求められますので,今回は割愛します。ワイブル分布には再生性はありません。ロードマップ中では,ワイブル分布は指数分布の一般化に相当します。指数分布同様,ワイブル分布は$X > 0$で定義されます。以下では,$\kappa = (b + 1)^{-1}$とおきます。

\begin{align}
f_{X}(x) &= cx^b \exp \left( -\frac{cx^{b+1}}{b+1} \right) \\[0.7em]
E[X] &= m\Gamma(1 + \kappa) \\[0.7em]
V[X] &= m^2 \left\{ \Gamma(1 + 2\kappa)-\Gamma^2(1+\kappa) \right\}
\end{align}

ただし,$\Gamma(\cdot)$はガンマ関数を表す。

\begin{align}
\Gamma(n) &= \int_0^{\infty}t^{n-1}e^{-t}dt
\end{align}

カイ二乗分布

$Y_1,\ldots,Y_n$が独立に$N(0,1)$に従っているとします。このとき,

\begin{align}
X &= Y_1^2 + \cdots + Y_n^2
\end{align}

が従う分布を自由度$n$のカイ二乗分布と呼び($\chi^2$分布と表記されることもあります),$\chi^2(n)$と表します。カイ二乗分布には再生性があります。ロードマップ中ではカイ二乗分布は標準正規分布の多変量化に相当し,ガンマ分布の特殊な場合に相当します。導入方法からも分かる通り,カイ二乗分布は$X > 0$で定義されます。モーメント母関数は$t < 1/2$の範囲で存在します。

\begin{align}
f_{X}(x) &= \frac{x^{n/2-1}e^{-x/2}}{2^{n/2}\Gamma\left( n/2 \right)} \\[0.7em]
M_{X}(t) &= \left( \frac{1}{1-2t} \right)^{n/2} \\[0.7em]
E[X] &= n \\[0.7em]
V[X] &= 2n
\end{align}

ただし,$\Gamma(\cdot)$はガンマ関数を表す。

\begin{align}
\Gamma(n) &= \int_0^{\infty}t^{n-1}e^{-t}dt
\end{align}

$F$分布

$U$と$V$は独立かつ$U\sim \chi^2(p)$,$V\sim \chi^2(q)$とします。このとき,以下で定義される確率変数

\begin{align}
X &= \frac{U/p}{V/q}
\end{align}

が従う確率分布を自由度$(p,q)$の$F$分布と呼びます。$F$分布のモーメント母関数は存在しません。導入方法からも分かる通り,$F$分布は$X>0$で定義されます。

\begin{align}
f_{X}(x) &= \frac{p^{p/2}q^{q/2}}{B(p/2, q/2)}\frac{x^{p/2-1}}{(px+q)^{(p+q)/2}} \\[0.7em]
E[X] &= \frac{q}{q-2} \\[0.7em]
V[X] &= 2 \left( \frac{q}{q-2} \right)\frac{p+q-2}{p(q-4)}
\end{align}

ただし,$B(\cdot)$はベータ関数を表す。

\begin{align}
B(a, b) &= \int_0^1 x^{a-1}(1-x)^{b-1}dx
\end{align}

$T$分布

$Z$と$W$が独立かつ$Z\sim N(0,1)$,$W\sim \chi^2(n)$とします。このとき,以下で定義される確率変数

\begin{align}
X &= \frac{Z}{\sqrt{W/n}}
\end{align}

が従う分布を自由度$n$の$T$分布と呼びます。$T$分布のモーメント母関数は存在しません。導入方法からも分かる通り,$T$分布は$X \in \bbR$で定義されます。

\begin{align}
f_{X}(x) &= \frac{1}{\sqrt{n}B(n/2, 1/2)}\left( 1+\frac{x^2}{n} \right)^{-(n+1)/2} \\[0.7em]
E[X] &= 0 \\[0.7em]
V[X] &= \frac{n}{n-2}
\end{align}

ただし,$B(\cdot)$はベータ関数を表す。

\begin{align}
B(a, b) &= \int_0^1 x^{a-1}(1-x)^{b-1}dx
\end{align}

ロードマップ外の確率分布

惜しくもロードマップに含めることができなかった主な確率分布を紹介します。

標準ロジスティック分布

正規分布とよく似た形をしていますが,ロジスティック分布の方がより裾の長い分布になっています。確率密度関数は$x \in \bbR$,モーメント母関数は$|t|<1$で定義されます。

\begin{align}
f_{X}(x) &= \frac{\exp(-x)}{\left\{ 1 + \exp(-x) \right\}^2} \\[0.7em]
M_{X}(t) &= \Gamma(1+t) \Gamma(1-t) \\[0.7em]
E[X] &= 0 \\[0.7em]
V[X] &= \frac{\pi^2}{3}
\end{align}

ただし,$\Gamma(\cdot)$はガンマ関数を表す。

\begin{align}
\Gamma(n) &= \int_0^{\infty}t^{n-1}e^{-t}dt
\end{align}

Gompertz分布

生命保険数理の分野でよく利用される分布です。指数分布,ワイブル分布のときと同様に,危険率を$c\exp(bx)$として導かれます。モーメント母関数,平均,分散は複雑なので割愛します。指数分布同様に$x>0$で定義されます。

\begin{align}
f_{X}(x) &= c\exp\left( bx-\frac{c}{b}e^{bx} + \frac{c}{b} \right)
\end{align}

ラプラス分布

ラプラス分布の概形は正規分布に似ていますが,頂点が正規分布よりも尖っています。生物学や経済学のモデリングで利用されることが多いです。両側(二重)指数分布とも呼ばれています。$x \in \bbR$で定義されます。

\begin{align}
f_{X}(x) &= \frac{1}{2b} \exp\left( -\frac{|x-\mu|}{b} \right) \\[0.7em]
M_{X}(t) &= \frac{e^{\mu t}}{1-b^2 t^2} \\[0.7em]
E[X] &= \mu \\[0.7em]
V[X] &= 2b^2
\end{align}

一覧表

最後に一覧表を確認します。赤く塗られている行は連続型確率変数をとる分布を表しています。

主な確率分布一覧
シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする