【徹底解説】確率と確率変数に関する定理一覧

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

はじめに

本ページでは,以下の形で定義と管理人のコメントをお伝えしていきます。

[定理名称]

[定理の説明]

[著者コメント]

統計学の世界では多くの定理が出てきます。まず初めに意識することとしては,定義と定理を切り分けることです。定義に関しては,確率と確率変数に関する定義一覧をご参照ください。定理は定義を元にして出発します。

定理の中にも濃度があって,覚えて理解してしまったほうが早い定理と導出を理解したほうがベターな定理があります。大切なのは,一緒くたに全ての定理を暗記しようとするのではなく,一度は必ず手を動かして証明を追ってみることです。今まではポツンと存在していたネイピア数$e$の指数部分が,急に意味を持ち始めるでしょう。本記事では定理の証明は行わず,確率と確率変数に関する定理一覧をお伝えしていきます。定理の証明はそれぞれ別ページで行っていきます。

定理一覧

確率の性質

確率$P(\cdot)$は以下を満たす。

  • 空事象$\phi$に対して
    \begin{align}
    P(\phi) &= 0
    \end{align}
  • $A_1, \ldots, A_n$が互いに排反な事象ならば
    \begin{align}
    P(A_i \cup \cdots \cup A_n) &= P(A_1) + \cdots + P(A_n)
    \end{align}
  • 任意の事象$A$に対して
    \begin{align}
    P(A^c) &= 1-P(A)
    \end{align}
  • 任意の事象$A$と$B$に対して
    \begin{align}
    P(A \cup B) = P(A) + P(B) - P(A \cap B)
    \end{align}

ただし,$A^c$は$A$が起きないという事象を表す。

上で挙げていることは全て定理です。私自身,統計学を学び始める前までは,恥ずかしながらこれらの定理を確率の定義だと思っていました。

独立の性質

事象$A$と事象$B$が独立ならば,以下が成立する。

  • 事象$A$と事象$B^c$は独立
  • 事象$A^c$と事象$B^c$は独立

直感的にも成り立ちそうな定理ですよね。事象$A$と$B$が独立であれば,それぞれの余事象に対しても独立であることは成り立ちそうです。

独立と無相関

確率変数$X$と$Y$が独立ならば無相関である。一方,無相関でも独立とは限らない。ただし,$X$と$Y$がそれぞれ正規分布に従うとき(この時点で独立とは限らない),すなわち$(X, Y)$が$2$次元正規分布に従うとき,独立と無相関は必要十分条件になる。一般に,$(X_1, \ldots, X_n)$が多変量正規分布に従っているとき,$i\neq j$なる全ての$(X_i, X_j)$が無相関ならば全ての$X_i$は独立になる。

独立と無相関を無条件で必要十分条件にしてしまう人が多いように思えます。一般に,独立は無相関の十分条件でしかなく,逆に言えば無相関は独立の必要条件になります。ただし,それぞれの確率変数が正規分布に従っている場合は対角行列の行列式の性質から独立と無相関は同値になります。

条件付き確率の性質

$P(A)>0$であるとき,条件付き確率$P(\cdot|A)$について以下が成り立つ。

  • $P(\cdot|A)$は確率の定義を満たす
  • $P(B|A)=P(B)$ならば$A$と$B$は独立であり,また逆も成り立つ

条件付き確率がしっかりと確率の定義を満たし,独立の定義が少し違った角度から捉えられますよという定理です。2つ目に関しては,条件付き確率における独立の概念として,しっかりと押さえておきたい性質です。

ベイズの定理

$A_1, \ldots, A_n$が$\cup_{i=1}^n A_i = \Omega$を満たす排反な事象ならば,任意の事象$B$に対して次が成立する。

\begin{align}
P(A_i|B) &= \frac{P(B|A_i)P(A_i)}{\sum_{i=1}^n P(B|A_i)P(A_i)}
\end{align}

これより,任意の事象$A$,$B$に対して次が成立する。

\begin{align}
P(A|B) &= \frac{P(A, B)}{P(B)}
\end{align}

統計学では外せない定理であるベイズの定理です。ベイズモデリングなどでも利用される定理であるため,統計学に限らず機械学習の分野などでも広く親しまれている定理です。

確率変数の性質

確率変数$X$,$Y$と定数$a$,$b$,$c$に対して,次が成り立つ。

\begin{align}
E[aX + bY + c] &= aE[X] + bE[Y] + c \\[0.7em]
V[aX + bY + c] &= a^2V[X] + b^2V[Y] + 2ab \Cov [X, Y] \\[0.7em]
\Cov[X, a] &= 0 \\[0.7em]
\Cov [aX_{1}+bY_{1}, cX_{2}+dY_{2}] &= ac\Cov[X_{1}, Y_{1}] + ad\Cov[X_{1}, Y_{2}] \notag\\[0.7em]
&\quad\quad+ bc\Cov[X_{2}, Y_{1}] + bd\Cov[X_{2}, Y_{2}]
\end{align}

特に,$X$と$Y$が独立ならば,次が成り立つ。

\begin{align}
E[X Y] &= E[X]E[Y] \\[0.7em]
\Cov [X, Y] &= 0
\end{align}

期待値計算では欠かせない定理です。なんとなく成り立ちそうだというだけで変形してしまいそうな定理ですが,独立であるという条件を見逃してしまうリスクなどもあるため,一度は手計算で成り立つことを確認してください。

条件付き期待値と条件付き分散の性質

確率変数$X$,$Y$に対して,次が成り立つ。

\begin{align}
E_Y \left[ E_{X|Y} [X | Y] \right] &= E_X [X] \\[0.7em]
E_Y \left[ V_{X|Y}[X | Y] \right] + V_Y \left[ E_{X|Y}[X | Y] \right] &= V_X[X] \\[0.7em]
V_{X|Y}[X | Y] &= E_{X|Y}[X^2 | Y] - E_{X|Y}[X | Y]^2
\end{align}

条件付き期待値や条件付き分散を通常の期待値や分散に変換したい際に利用される定理です。期待値に関しては「条件づけている側の確率変数について期待値を取れば条件付けが外れる」と捉えると分かりやすいです。最後は条件付き分散を表しています。

偏相関係数

「$Z$の影響を除いた$X$」と「$Z$の影響を除いた$Y$」の相関係数を偏相関係数と呼び,以下で表される。

\begin{align}
\rho_{x|z, y|z} &= \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{\sqrt{1 - \rho_{xz}^2}\sqrt{1 - \rho_{yz}}}
\end{align}

ただし,$\rho_{xy}$,$\rho_{yz}$,$\rho_{xz}$は通常の相関係数を表す。

偏相関係数を定義にとして捉えるかどうかを悩んだのですが,本書では相関係数の定義を用いて多変量正規分から偏相関係数を導出できるという立場を取ることにしました。

3変量正規分布の条件付き期待値・分散

確率変数$(X, Y, Z)$が平均ベクトルを$(\mu_x, \mu_y, \mu_z)$,分散共分散行列を正定値行列

\begin{align}
\begin{pmatrix}
\sigma_x^2 & \sigma_{xy} & \sigma_{xz} \\
\sigma_{xy} & \sigma_y^2 & \sigma_{yz} \\
\sigma_{xz} & \sigma_{yz} & \sigma_z^2 \\
\end{pmatrix}
\end{align}

とする$3$変量正規分布に従うとき,条件付き期待値と分散は以下のように表される。

\begin{align}
E[X | Y=y] &= \mu_x + \frac{\sigma_{xy}}{\sigma_y^2}(y - \mu_y) \\[0.7em]
V[X | Y=y] &= \sigma_x^2(1 - \rho_{xy}^2)
\end{align}

ただし,$\sigma_a^2$は確率変数$A$の分散,$\sigma_{ab}$は確率変数$A$と$B$の共分散,$\rho_{ab}$は$A$と$B$の相関係数を表している。 特に,

\begin{align}
\sigma_x^2=\sigma_y^2=\sigma_z^2 = 1
\end{align}

かつ

\begin{align}
\mu_x=\mu_y=\mu_z=0
\end{align}

のとき,$2$変数で条件付けられた期待値と分散は以下のようになる。

\begin{align}
E[X | Y=x, Z=z] &= \frac{\rho_{xy} - \rho_{xz}\rho_{yz}}{1-\rho_{yz}^2}y + \frac{\rho_{xz} - \rho_{xy}\rho_{yz}}{1 - \rho_{yz}^2}z \\[0.7em]
V[X | Y=x, Z=z] &= 1 - \frac{\rho_{xy}^2 - 2\rho_{xy}\rho_{yz}\rho_{xz} + \rho_{xz}^2 }{1-\rho_{yz}^2}
\end{align}

多変量正規分布の中でも,特に$2$次元正規分布と$3$次元正規分布の条件付き期待値と分散は頻出です。既知の内容として扱われるケースが多いので,本書では定理として採り上げることにしました。

確率母関数の性質

$G_{X}(\cdot)$を$X$の確率母関数とするとき

\begin{align}
G_{X}^{(m)}(1) &\equiv \left.\frac{d^m}{dt^m}M_{X}(t)\right|_{t=1} \\[0.7em]
&= E\left[X(X-1)\cdots(X-m+1)\right]
\end{align}

確率母関数の真骨頂でもある定理です。確率母関数を$m$回微分して$1$を代入する操作は,各種離散分布の期待値や分散を計算する際に用いられます。

モーメント母関数の性質

$M_{X}(\cdot)$を$X$のモーメント母関数とするとき

\begin{align}
M_{X}^{(m)}(0) &\equiv \left.\frac{d^m}{dt^m}M_{X}(t)\right|_{t=0} \\[0.7em]
&= E\left[X^m\right]
\end{align}

モーメント母関数の真骨頂でもある定理です。モーメント母関数を$m$回微分して$0$を代入すると,$X$の$m$次モーメントを計算することができるのです。確率母関数では$t=1$を代入していましたが,モーメント母関数では$t=0$を代入する点に注意が必要です。

変数変換

離散型確率変数$X$,$Y$に対して,$2$次元の実数値関数

\begin{align}
(U, V) &= \vg(X, Y) \\[0.7em]
&= \left( g_1(X, Y), g_2(X, Y) \right)
\end{align}

を考える。$\vg$の逆関数$\vh$が存在して

\begin{align}
(X, Y) &= \vh(U, V) \\[0.7em]
&= \left( h_1(U, V), h_2(U, V) \right)
\end{align}

が成り立つとき,$U$と$V$の同時確率質量関数は

\begin{align}
f_{U V}(u, v) &= P\left\{ \vg(X, Y) = (u, v) \right\} \\[0.7em]
&= f_{X Y} \left\{ \vh(u, v) \right\}
\end{align}

で与えられる。$X$,$Y$が連続型確率変数であるときは,ヤコビアン

\begin{align}
J(u, v) &= \frac{\partial \left( h_1(u,v), h_2(u,v) \right)}{\partial(u,v)} \\[0.7em]
&= \left|
\begin{array}{cc}
\partial h_1(u,v) / \partial u & \partial h_1(u,v) / \partial v \\
\partial h_2(u,v) / \partial u & \partial h_2(u,v) / \partial v \\
\end{array}
\right|
\end{align}

を用いて,$U$と$V$の同時確率密度関数は

\begin{align}
f_{U, V}(u,v) &= f_{X, Y} \left(\vh(u, v)\right)\cdot | J(u,v) |
\end{align}

で与えられる。ただし,ヤコビアンは各点$(u,v)$で$0$にならないものとする。

逆関数が存在するときの変数変換です。離散型確率変数の場合は,逆関数を求めてそのまま代入するだけで変数変換を行うことができます。一方で,連続型確率変数の場合は少し厄介です。一言で表せば「元の確率関数に変数変換後の変数を代入してヤコビアンを掛けたものが変換後の確率関数になる」ことを示しています。確率変数の変数変換を用いることで,種々の確率分布を組み合わせながら拡張性の高い議論が可能になります。変数変換を用いなければ見えてこない確率分布同士の関係性もありますので,必ず押さえておかなければならない定理です。余談ですが,この定理は「簡単のため」2次元で逆関数が存在するときを考えていますが,私たちが統計検定や入試などで解く問題は逆関数が存在する場合がほとんどですので,一旦は例外を考えすぎることなくこの定理をおさえるようにした方がベターだと思います。

チェビシェフの不等式

任意の確率変数$Z$と正の実数$\varepsilon$に対して

\begin{align}
P\left( \left| Z - E[Z] \right| \geq \varepsilon \right) \leq \frac{V[Z]}{\varepsilon^2}
\end{align}

たまーに高校数学の証明問題でも出てくるチェビシェフの不等式ですが,統計学では大活躍をします。チェビシェフの不等式は「平均からある値以上離れた値をとる確率には上限がある」ということを意味します。例えば,$\varepsilon=2\sigma$を代入すると,チェビシェフの不等式は「平均から標準偏差の$2$倍離れた値をとる確率は$1/4$以下である」ということを主張しています。これが後の大数の弱法則に繋がっていくのです。

大数の弱法則

任意の正の実数$\varepsilon$に対して

\begin{align}
P\left( \left| \frac{1}{n} \sum_{i=1}^nX_i - \mu \geq \varepsilon \right| \right) \rightarrow 0 \quad (n\rightarrow \infty)
\end{align}

ただし,$X_i\;(i=1,2,\ldots,n)$は同じ分布に従う独立な確率変数であり,$E[X_i]=\mu$とおいた。

多くの人がここら辺から統計学が嫌になってくるのではないでしょうか。言っている意味が分からへんと。対数の弱法則は「サンプル数を多くしていくと標本平均が母平均に近づいていく」ことを示しています。統計学の基本である,サンプル数をとればとるほど(仮定している)真の値に近づいていくはずだという主張を表しているものとも捉えられます。

中心極限定理

任意の実数$x$に対して

\begin{align}
P\left( \frac{1}{\sqrt{n}}\sum_{i=1}^n \frac{X_i - \mu}{\sqrt{\sigma^2}}\leq x \right)
\rightarrow \int_{-\infty}^{x}\frac{1}{2\pi}e^{-\frac{t^2}{2}}dt\quad (n \rightarrow \infty)
\end{align}

ただし,$X_i\;(i=1,2,\ldots,n)$は同じ分布に従う独立な確率変数であり,$E[X_i]=\mu$,
$V[X_i]=\sigma^2$とおいた。

最初にして最大の関門,中心極限定理です。あまりにも広く知られているために,統計学の基本定理となっています。主張していることはシンプルながらも,証明には少し手間がかかります。数学アレルギーの人は,この定理を見て「あ。統計学無理や。」となるパターンが多いです。ここを乗り切れば,あとは同じような計算を見かけることが多くなりますので,辛抱です。大数の弱法則が主張していることは,サンプル数を大きくしたときに標本平均が近づく値に関してでした。その値は母平均でしたね。一方,$n$と$\sigma$が定数であることに注意すると,中心極限定理の主張するところは,サンプル数を大きくしたときの標本平均と母平均の誤差です。つまり,中心極限定理は標本平均が母平均に近くというアイディアを元に,それらの誤差がどのような分布に従うのかを示した定理になります。結論を言えば,サンプル数を十分に大きくしたときには,標本平均と母平均の誤差は正規分布に従います。

正規近似

$X_i(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に独立に従うとする。

\begin{align}
Z &= X_1 + X_2 + \cdots + X_n
\end{align}

に対して$n$が十分大きいとき,

\begin{align}
P(Z \leq x) \approx \Phi \left( \frac{x - np}{\sqrt{np(1-p)}} \right) \quad (x \in \bbR) \label{gauss_approx}
\end{align}

進め方の便宜上「$X_i~(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に従う」というような曖昧な書き方をしていますが,要するに「$X_i$は二項分布に独立に従う」ということです。つまり,二項分布に独立に従う確率変数の和は,$n$が大きければ正規分布で近似できるというお話が正規近似です。ですので,定理の名前は「二項分布の正規近似」とした方が正確かもしれません。二項分布に関しては,後ほどしっかりと扱っていきます。他にも,$n$が大きくても$p$が小さい場合は正規近似の精度が悪くなってしまうことがあります。その場合は,正規分布の代わりにポアソン分布と呼ばれる分布を導入して近似を行います。これを「(二項分布の)ポアソン近似」と呼びます。こちらも,後ほど詳しく説明します。

連続修正と半目盛り修正

$X_i(i=1\cdots n)$が期待値$p$,分散$p(1-p)$となるような分布に独立に従うとする。

\begin{align}
Z &= X_1 + X_2 + \cdots + X_n
\end{align}

に対して,次の近似が成り立つ。

\begin{align}
P(Z \leq x) \approx \Phi \left( \frac{x + \frac{1}{2} - np}{\sqrt{np(1-p)}} \right) \quad (x \in { 0,1,\cdots, n }) \label{continuity_correction}
\end{align}

また,同様に考えると$P(a \leq X \leq b)$は次の近似が成り立つ。

\begin{align}
P(a \leq X \leq b) &\approx P\left( \frac{a - \frac{1}{2} - np}{\sqrt{np(1 - p)}} \leq z \leq \frac{a + \frac{1}{2} - np}{\sqrt{np(1 - p)}} \right)
\end{align}

ほとんど正規近似と同じですが,$x$の取りうる値が異なります。正規近似のときは$x$は実数全体を取りましたが,連続修正では$x$が$Z$の取りうる値のときを考えます。後ほど説明を加えますが,二項分布は離散型確率分布ですので,$x$が$Z$の取りうる値を取るというのは,$x \in { 0,1,\cdots, n }$と書くことができます。

有限母集団における標本平均の期待値と分散

大きさ$N$の有限母集団から抽出される観測値を$X_1, \ldots, X_n$とする。このとき,標本平均

\begin{align}
\overline{X} &= \frac{1}{n} \sum_{i=1}^n X_i
\end{align}

の期待値と分散は以下のように表される。

\begin{align}
E[\overline{X}] &= \mu \\[0.7em]
V[\overline{X}] &= \frac{N-n}{N-1} \frac{\sigma^2}{n}
\end{align}

超幾何分布の平均と分散を簡単に導出するために利用できる定理です。無限母集団の場合の標本平均の分散は$\sigma^2/n$になりますが,有限母集団の場合は前に$(N-n)/(N-1)$が付いていますね。この項を有限修正と呼びます。また,有限母集団の定義では観測値が大文字の$X$を使って表されていることからも分かる通り,観測値$X_1, \ldots, X_n$は確率変数であることに注意してください。無限母集団の場合は観測値を$x$のように小文字を用いて表していましたが,有限母集団の場合は抽出操作自体が確率的な操作とみなされますので,観測値が確率変数になります。

多変量正規分布間のKLダイバージェンス

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!

コメント

コメントする

※ Please enter your comments in Japanese to distinguish from spam.

目次