【これなら分かる!】確率と確率変数に関する定理一覧

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

内容は統計検定1級に準拠しています。もし不適切な内容や誤植があれば,記事下のコメント欄もしくはお問い合わせフォームよりご連絡いただけますと幸いです。

目次

はじめに

統計学の世界では多くの定理が出てきます。まず初めに意識することとしては,定義と定理を切り分けることです。定義に関しては,確率と確率変数に関する定義一覧をご参照ください。定理は定義を元にして出発します。その中にも濃度があって,覚えて理解してしまったほうが早い定理や導出を理解したほうがベターな定理も存在します。大切なのは,一緒くたに定理を暗記しようとせず,手を動かして実際に証明を追ってみることです。今まではポツンと存在していたネイピア数$e$の指数部分が急に意味を持ち始める感覚になればもうこっちのものです。

本記事では定理の証明は行わず,確率と確率変数に関する定理一覧をお伝えしていきます。定理の証明はそれぞれ別ページで行っていきます。

定理一覧

早速以下から定理をお伝えしていきます。

確率の性質(Properties of Probability)

確率$P(\cdot)$は以下を満たす。

  1. 空事象$\phi$に対して$P(\phi)=0$
  2. $A_1, A_2, \ldots, A_n$が互いに排反な事象ならば
    \begin{align}
    P(A_i \cup A_2 \cup \cdots \cup A_n) &= P(A_1) + P(A_2) + \cdots + P(A_n)
    \end{align}
  3. 任意の事象Aに対して$P(A^c)=1-P(A)$
  4. 任意の事象AとBに対して$P(A \cup B) = P(A) + P(B) – P(A \cap B)$

ただし,$A^c$は$A$が起きないという事象を表す。

上で挙げていることは,全て定理です。私自身も,恥ずかしながら確率の定義だと思っていました。

独立の性質(Properties of Independence)

事象$A$と事象Bが独立ならば,以下が成立する。

  1. 事象$A$と事象$B^c$は独立
  2. 事象$A^c$と事象$B^c$は独立

直感的にも成り立ちそうな定理ですよね。AとBが独立であれば,それぞれの余事象に対しても独立であることは成り立ちそうです。

条件付き確率の性質(Properties of Conditional Probability)

$P(A)>0$であるとき,条件付き確率$P(\cdot|A)$について以下が成り立つ。

  1. $P(\cdot|A)$は確率の定義を満たす
  2. $P(B|A)=P(B)$ならば$A$と$B$は独立であり,まだ逆も成り立つ

条件付き確率がしっかりと確率の定義を満たし,独立の定義が少し違った角度から捉えられますよという定理です。No.2に関しては,条件付き確率における独立の概念として,しっかりとおさえておきたい性質です。

ベイズの定理(Bayes’ Theorem)

$A_1, A_2, \ldots, A_n$が$\cup_{i=1}^n A_i = \Omega$を満たす排反な事象ならば,任意の事象$B$に対して次が成立する。

\begin{align}
P(A_i|B) &= \frac{P(B|A_i)P(A_i)}{\sum_{i=1}^n P(B|A_i)P(A_i)}
\end{align}

統計学では外せない定理であるベイズの定理です。ベイズモデリングなどでも利用される定理であるため,統計学に限らず機械学習の分野などでも広く親しまれている定理です。

確率変数の性質(Properties of Random Variable)

確率変数$X$,$Y$と定数$a$,$b$,$c$に対して,次が成り立つ。

  1. $E[aX + bY + c] = aE[X] + bE[Y] + c$
  2. $V[aX + bY + c] = a^2V[X] + b^2V[Y] + 2ab \Cov [X, Y]$
  3. $X$と$Y$が独立ならば$E[X Y] = E[X]E[Y]$
  4. $X$と$Y$が独立ならば$\Cov [X, Y]=0$

期待値計算では欠かせない定理です。なんとなく成り立ちそうだというだけで変形してしまいそうな定理ですが,独立であるという条件を見逃してしまうリスクなどもあるため,一度は手計算で成り立つことを確認してください。

確率母関数の性質(Properties of MGF)

$G_{X}(\cdot)$を$X$の確率母関数とするとき

\begin{align}
G_{X}^{(m)}(1) &\equiv \left.\frac{d^m}{dt^m}M_{X}(t)\right|_{t=1} \\
&= E\left[X(X-1)\cdots(X-m+1)\right]
\end{align}

確率母関数の真骨頂でもある定理です。確率母関数を$m$回微分して$1$を代入する操作は,各種離散分布の期待値や分散を計算する際に用いられます。

モーメント母関数の性質(Properties of MGF)

$M_{X}(\cdot)$を$X$のモーメント母関数とするとき

\begin{align}
M_{X}^{(m)}(0) &\equiv \left.\frac{d^m}{dt^m}M_{X}(t)\right|_{t=0} \\
&= E\left[X^m\right]
\end{align}

モーメント母関数の真骨頂でもある定理です。モーメント母関数を$m$回微分して$0$を代入すると,$X$の$m$次モーメントを計算することができるのです。確率母関数では$t=1$を代入していましたが,モーメント母関数では$t=0$を代入する点に注意が必要です。微分演算と積分の順序交換に関しては「微分演算と期待値の順序交換」をご覧ください。

変数変換(Change of Variables)

離散型確率変数$X$,$Y$に対して,2次元の実数値関数$(U, V)= g(X, Y)$を考える。$g$の逆関数$h$が存在して$(X, Y)= h(U, V)$が成り立つとき,$U$と$V$の同時確率質量関数は

\begin{align}
f_{U V}(u, v) &= f_{X Y}{ h(u, v) }
\end{align}

で与えられる。$X$,$Y$が連続型確率変数であるときは,ヤコビアン

\begin{align}
J(u, v) &= \frac{\partial (h_1(u,v), h_2(u,v))}{\partial(u,v)}\notag \\
&= \left|
\begin{array}{cc}
\frac{\partial h_1(u,v)}{\partial u} & \frac{\partial h_1(u,v)}{\partial v} \\
\frac{\partial h_2(u,v)}{\partial u} & \frac{\partial h_2(u,v)}{\partial v} \\
\end{array}
\right|
\end{align}

を用いて,$U$と$V$の同時確率密度関数は

\begin{align}
f_{U, V}(u,v) &= f_{X, Y}h(u, v) \cdot | J(u,v) |
\end{align}

で与えられる。ただし,ヤコビアンは各点$(u,v)$で0にならないものとする。

逆関数が存在するときの変数変換です。余談ですが,この定理は「簡単のため」2次元で逆関数が存在するときを考えていますが,私たちが統計検定や入試などで解く問題は逆関数が存在する場合がほとんどですので,一旦は例外を考えすぎることなくこの定理をおさえるようにした方がベターだと思います。

チェビシェフの不等式(Chebyshev’s Inequality)

任意の確率変数$Z$と正の実数$\varepsilon$に対して

\begin{align}
P\left\{ |Z – E[Z]| \geq \varepsilon \right\} \leq \frac{V[Z]}{\varepsilon^2}
\end{align}

たまーに高校数学の証明問題でも出てくるチェビシェフの不等式ですが,統計学では大活躍をします。チェビシェフの不等式は「平均からある値以上離れた値をとる確率には上限がある」ということを意味します。例えば,$\varepsilon=2\sigma$を代入すると,チェビシェフの不等式は「平均から標準偏差の2倍離れた値をとる確率は$\frac{1}{4}$以下である」ということを主張しています。これが後の大数の弱法則に繋がっていくのです。

大数の弱法則(Weak Law of Large Numbers)

任意の正の実数$\varepsilon$に対して

\begin{align}
P\left( \left| \frac{1}{n} \sum_{i=1}^nX_i – \mu \geq \varepsilon \right| \right) \rightarrow 0 \quad (n\rightarrow \infty)
\end{align}

ただし,$X_i\;(i=1,2,\ldots,n)$は同じ分布に従う独立な確率変数であり,$E[X_i]=\mu$とおいた。

多くの人がここら辺から統計学が嫌になってくるのではないでしょうか。言っている意味が分からへんと。大丈夫です。対数の弱法則は「サンプル数を多くしていくと標本平均が母平均に近づいていく」ことを示しています。統計学の基本である,サンプル数をとればとるほど(仮定している)真の値に近づいていくはずだという主張を表しているものとも捉えられます。

中心極限定理(Central Limit Theorem)

任意の実数$x$に対して

\begin{align}
P\left( \frac{1}{\sqrt{n}}\sum_{i=1}^n \frac{X_i – \mu}{\sqrt{\sigma^2}}\leq x \right)
\rightarrow \int_{-\infty}^{x}\frac{1}{2\pi}e^{-\frac{t^2}{2}}dt\quad (n \rightarrow \infty)
\end{align}

ただし,$X_i\;(i=1,2,\ldots,n)$は同じ分布に従う独立な確率変数であり,$E[X_i]=\mu$,
$V[X_i]=\sigma^2$とおいた。

最初にして最大の関門,中心極限定理です。あまりにも広く知られているために,統計学の基本定理となっています。主張していることはシンプルながらも,証明には少し手間がかかります。数学アレルギーの人は,この定理を見て「あ。統計学無理や。」となるパターンが多いです。ここを乗り切れば,あとは同じような計算を見かけることが多くなりますので,辛抱です。大数の弱法則が主張していることは,サンプル数を大きくしたときに標本平均が近く値についてでした。その値は母平均でしたね。一方,$n$と$\sigma$が定数であることに注意すると,中心極限定理の主張するところは,サンプル数を大きくしたときの標本平均と母平均の誤差です。つまり,中心極限定理は標本平均が母平均に近くというアイディアを元に,その誤差がどのような分布に従うのかを示した定理になります。結論を言えば,サンプル数を十分に大きくしたときには,標本平均と母平均の誤差は正規分布に従います。

正規近似(Normal Approximation)

$X_i(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に独立に従うとする。$Z=X_1 + X_2 + \cdots + X_n$に対して$n$が十分大きいとき

\begin{align}
P(Z \leq x) \approx \Phi \left( \frac{x – np}{\sqrt{np(1-p)}} \right) \quad (x \in \bbR)
\end{align}

進め方の便宜上「$X_i(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に従う」というような曖昧な書き方をしていますが,分布を知っている方にとっては「$X_i$は二項分布に独立に従う」ということです。つまり,二項分布に独立に従う確率変数の和は,$n$が大きければ正規分布で近似できるというお話が正規近似です。ですので,表題は正確には「二項分布の正規近似」になります。二項分布に関しては,後ほどしっかりと扱っていきます。他にも,$n$が大きくても$p$が小さい場合は正規近似の精度が悪くなってしまうことがあります。その場合は,正規分布の代わりにポアソン分布と呼ばれる分布を導入して近似を行います。これを「(二項分布の)ポアソン近似」と呼びます。こちらも,後ほど詳しく説明します。

連続修正(Continuity Correction)

$X_i(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に独立に従うとする。$Z=X_1 + X_2 + \cdots + X_n$に対して

\begin{align}
P(Z \leq x) \approx \Phi \left( \frac{x + \frac{1}{2} – np}{\sqrt{np(1-p)}} \right) \quad (x \in { 0,1,\cdots, n })
\end{align}

ほとんど正規近似と同じですが,$x$の取りうる値が異なります。正規近似のときは$x$は実数全体を取りましたが,連続修正では$x$が$Z$の取りうる値のときを考えます。後ほど説明を加えますが,二項分布は離散型確率分布ですので,$x$が$Z$の取りうる値を取るというのは,$x \in { 0,1,\cdots, n }$と書くことができます。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする

目次
閉じる