【徹底解説】確率と確率変数に関する定義一覧

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。

不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。

目次

はじめに

本ページでは,以下の形で定義と管理人のコメントをお伝えしていきます。

[定義名称]

[定義の説明]

[著者コメント]

定義は定理とは異なり,多少天下り的に理解する必要があります。統計学を始めたての頃では,定義を眺めているだけでは何も起きません。一方で,丸暗記するだけでも統計学を楽しく学ぶことはできません。バランスが難しいところですが,特に理解しておきたいポイントに関しては著者コメントを付けるようにしていますので,ぜひ参考にして下さい。

定義

事象

試行に対する結果の集合のことを事象と呼ぶ。 また,試行に対する一つ一つの結果を根本事象または標本点と呼ぶ。

何らかのアクションとその結果の集まりを事象と呼びます。ポイントは,集合として定義されている点です。よくある誤解は「サイコロを投げる」ことを事象としてしまうことです。サイコロを投げることはアクションでしかなく,その結果である「5の目が出た」という事実の集まりが事象と呼ばれています。

確率

以下の3つを満たす$P(\cdot)$を確率という。

  • 任意の事象$A$に対して
    \begin{align}
    0 \leq P(A) \leq 1
    \end{align}
  • 全事象$\Omega$に対して
    \begin{align}
    P(\Omega) &= 1
    \end{align}
  • $A_1, \cdots$が排反な事象ならば
    \begin{align}
    P\left(\bigcup_{i=1}^{\infty}A_i\right)=\sum_{i=1}^{\infty}P(A_i)
    \end{align}

これは皆さんよくご存知の定義です。確率は$0$以上$1$以下の値をとります。確率は足したら$1$になります。「排反」という言葉には少し引っかかるかもしれませんが,一旦は「お互いがお互いを影響し合わない」と捉えればOKです。お互いがお互いを影響し合わない事象の和集合は,足し算で確率が定義されますよということを一番下の項目では主張しています。

独立

2つの事象$A$と$B$が以下を満たすとき,$A$と$B$は独立であるという。

\begin{align}
P(A \cap B) &= P(A)P(B)
\end{align}

独立という概念は,確率の掛け算によって定義されています。2つの事象の(積集合の)確率が,各々が起こる確率の掛け算として定義されるときに,この2つの事象が独立であると定義されます。2つ以上の$n$個の事象に対しては,その中の任意の$m$個の事象に対して上記定義式が成立するときに,$n$個の事象は独立であるとします。

排反

事象$A$と事象$B$に対して,

\begin{align}
P(A\cap B) &= \phi
\end{align}

が成り立つとき,$A$と$B$は排反であるという。

先ほど説明した「お互いがお互いを影響し合わない」を数学的に記述したものです。言い換えると共通部分が空集合であることを排反と呼びます。同時に起こる事象が存在しないので,お互いに影響を与えないということです。2つ以上の$n$個の事象に対しては,その中の任意の$m$個の事象に対して上記定義式が成立するときに,$n$個の事象は排反であるとします。

条件付き確率

事象$A$と事象$B$に対して,$A$が起こったという条件のもとで$B$が起こる確率を$A$を与えたときの$B$の条件付き確率といい,以下で与えられる。

\begin{align}
P(B|A) &= \frac{P(A\cap B)}{P(A)}
\end{align}

引っかかる人が多い概念だと思います。「起こったという条件のもとってなに?」って思いませんか。私もそう思います。条件って何やねんと。私はいつも条件を「情報(ヒント)が与えられたという設定」と言い換えています。条件付き確率とは,何らかの情報(ヒント)が与えられた場合に定義される確率のことを指しているのです。

確率変数

ある確率に基づいた試行の結果により値が定まるような変数を確率変数という。とりうる値がとびとびであるような確率変数を離散型確率変数,連続的なものとなる確率変数を連続型確率変数という。

確率変数はあくまでも変数だということに注意してください。一方で,この後説明する実現値は実際の値を表しています。

実現値

実際の試行の結果として観察された値のことを実現値という。

確率変数がとりうる値が変化する変数であったのに対し,実現値は実際の観測値を表しています。例えば,$P(X=x)$というのは,確率変数$X$が$x$という値をとる確率を表しています。大文字は確率変数,小文字は実現値と理解しましょう。ややこしいのは,下で説明する確率関数の中身には小文字の実現値を渡します。関数に渡すのは変数だから実現値ではおかしいのではないかという声が聞こえてきそうですが,以下で説明する通り,確率関数は$P(X=x)=f_{X}(x)$と定義されます。確率関数では実現値を変数とみなして扱っているという点に注意してください。

確率関数

離散型確率変数$X$に対して

\begin{align}
f_{X}(x) &= P(X=x)
\end{align}

で定義される非負関数$f_{X}(\cdot)$を確率質量関数と呼ぶ。また,$X$が連続型確率変数のときは

\begin{align}
\int_{a}^{b} f_{X}(x) dx &= P(a\leq X \leq b)
\end{align}

で定義される非負関数$f_{X}(\cdot)$を確率密度関数と呼ぶ。

引っかかりやすいポイントですね。「確率関数?質量?密度?」となると思います。確率分布を定義するためには関数を定義する必要があり,そのために確率関数というものが持ち出されたという捉え方をしましょう。関数を離散型と連続型で場合分けすることで,シグマと積分を使い分けることができ,うまい具合に枠組みが整理されるという利点があります。このような背景から,離散型の関数である確率質量関数と,連続型の関数である確率密度関数が出てきたのです。質量は離散,密度は連続を表しているものとして考えてOKです。

確率分布

確率変数のとりうる値と確率との対応関係を確率分布と呼ぶ。

注目して欲しいのは,対応関係のことを確率分布と呼んでいる点です。確率分布は,確率変数が離散であれ連続であれ定義されます。厳密には,確率分布は測度論を用いて定義されますが,今回はパスします。

累積分布関数

離散型変数$X$に対して,

\begin{align}
F_{X}(x) &= P(X \leq x) \\[0.7em]
&= \sum_{k:x_k\leq x}f_{X}(x_k)
\end{align}

で定義される関数$F_{X}(\cdot)$を累積分布関数と呼ぶ。ただし,$\sum_{k:x_k\leq x}$は$x_k \leq x$なる$k$で和をとるという意味である。また,$X$が連続型変数の場合には

\begin{align}
F_{X}(x) &= P(X \leq x) \\[0.7em]
&= \int_{-\infty}^{x} g_{X}(t)dt
\end{align}

で定義される関数$F_{Y}(\cdot)$を累積分布関数と呼ぶ。

私自身,統計学を習い始めた頃は「累積分布関数なんて何で定義する必要があるんだろう」と思っていました。必ずと言っていいほど,統計学のテキストでは累積分布関数が定義され,紹介されていますよね。それに対する現時点での私の答えは「$X \leq x$となるような$X$を対象とする操作が行われることが多いから」です。そのため,累積分布関数を定義することで,見通しよく数学的な組み立てができるようになる場面が多々あるのです。累積分布関数の値は,下側確率とも呼ばれています。

同時分布

複数の確率変数$X$,$Y$に対して定義される確率分布を同時分布と呼ぶ。 このときの$X$の分布をその周辺分布と呼ぶ。

確率変数の数が1つ増えれば,当然ですがシグマや積分の数は1つ増えます。上記定義では確率変数が二つのケースを扱いましたが,三つ以上に拡張することも可能です。

期待値

離散型確率変数$X$に対して

\begin{align}
E[g(X)] &= \sum_{k=1}^{\infty} g(x_k)f_{X}(x_k)
\end{align}

を$g(X)$の期待値と呼ぶ。ただし,$g(\cdot)$は適当な関数である。また,$X$が連続型確率変数の場合は

\begin{align}
E[g(X)] &= \int_{-\infty}^{\infty} g(x)f_{X}(x) dx
\end{align}

を$g(X)$の期待値と呼ぶ。

出ました。確率・統計の超有名概念である期待値です。中学生の頃にも習った通り,みなさんもうお馴染みだと思います。大学で勉強する統計学は,この期待値をバンバン利用して体系を作っていきます。直感的には「平均してどれくらいの個数$X$がもらえるか」を表す概念です。

条件付き期待値

離散型確率変数$X$に対して

\begin{align}
E[g(X) | Y = y] &= \sum_{k=1}^{\infty} g(x_k) f_{X|Y}(x_k | y)
\end{align}

を$g(X)$の期待値と呼ぶ。ただし,$g(\cdot)$は適当な関数である。また,$X$が連続型確率変数の場合は

\begin{align}
E[g(X) | Y = y] &= \int_{-\infty}^{\infty} g(x)f_{X|Y}(x | y) dx
\end{align}

を$g(X)$の期待値と呼ぶ。

条件付き期待値はその名の通り条件付き確率を用いて定義されます。条件付き分散は分散の定義と条件付き期待値の定義を用いて導出されます。

モーメント

離散型確率変数$X$に対して,$g(x_k)=x_k^m$としたときの期待値を$X$の$m$次モーメントと呼ぶ。ただし,$m$は自然数とする。また,$X$が連続型確率変数の場合は,$g(x)=x^m$としたときの期待値を$X$の$m$次モーメントと呼ぶ。

統計学の理論はわざわざモーメントという用語を定義しなくても発展させることはできると思います。一方で,モーメントを導入することで,後に説明する確率母関数やモーメント母関数と微分操作を組み合わせることで計算を劇的に楽にすることができるだけでなく,歪度や尖度などと親和性の高い議論が可能になります。そのような意味でも,上記のモーメントを天下り的にも定義しておく必要があるのです。モーメントは確率変数のべき乗に対して定義される値であるため,別名「積率」とも呼ばれています。

確率母関数

離散型確率変数$X$が非負の整数値であるときに

\begin{align}
G_{X}(t) &\equiv E[t^{X}]\\
&= \sum_{x=0}^{\infty} t^xf_{X}(x)
\end{align}

は$|t|\leq 1$で存在し,$G_{X}(\cdot)$を確率母関数と呼ぶ。

確率母関数は離散型確率変数に対して定義される関数です。確率母関数や以下で説明するモーメント母関数からは,便利な定理をたくさん導出できます。主に期待値や分散の計算過程で利用される場合が多いです。

モーメント母関数

一般の確率変数$X$に対して

\begin{align}
M_{X}(t) &\equiv E[e^{tX}]
\end{align}

を考えることができる。$M_{X}(t)$が$t=0$の適当な近傍で存在するとき,$M_{X}(\cdot)$をモーメント母関数と呼ぶ。

ポイントなのは「モーメント母関数は存在しない可能性もある」という点です。モーメント母関数が存在しない場合には,以下で説明する特性関数を利用する場合があります。モーメントが積率と呼ばれていることから,モーメント母関数は積率母関数と呼ばれることもあります。

特性関数

特性関数$\phi_X(t)$は以下のように定義される。

\begin{align}
\phi_X(t) &= E\left[e^{itX}\right]
\end{align}

なお,特性関数の複素共役を利用すると,以下が成り立つ。

\begin{align}
\overline{\phi_X(-t)}
&= \overline{E[e^{-itX}]} \\[0.7em]
&= E\left[\overline{e^{-itX}}\right] \notag \\[0.7em]
&= E\left[e^{itX}\right] \\[0.7em]
&= \phi_X(t) \label{特性関数の複素共役}
\end{align}

特性関数はモーメント母関数の複素拡張です。本書では,中心極限定理の証明やコーシー分布の導出に利用しています。特性関数と確率密度関数はフーリエ変換対になっていることが知られています。

分散

一般の確率変数$X$に対して

\begin{align}
V[X] &= E[(X - E[X])^2] \\[0.7em]
&= E[X^2] - E[X]^2
\end{align}

で定義される$V[X]$を$X$の分散と呼ぶ。また,$\sqrt{V[X]}$を$X$の標準偏差と呼ぶ。

分散や標準偏差はデータのばらつきを表す分布の特性値です。また,期待値も分散もモーメントの関数になっている点が重要です。分散は平均値まわりの2次モーメントとして定義されています。以下で説明する歪度や尖度もモーメントを通して理解したいです。

歪度

一般の確率変数$X$に対して

\begin{align}
\frac{E\left[(X - E[X])^3\right]}{V[X]^{\frac{3}{2}}}
\end{align}

で定義される値を$X$の歪度と呼ぶ。

歪度の分母は標準偏差の$3$乗,分子は平均値まわりの$3$次モーメントです。分布がどれだけ非対称的かを表した特性値です。

尖度

一般の確率変数$X$に対して

\begin{align}
\frac{E\left[(X - E[X])^4\right]}{V[X]^{2}}
\end{align}

で定義される値を$X$の尖度と呼ぶ。

尖度の分母は標準偏差の$4$乗,分子は平均値まわりの$4$次モーメントです。分布がどれだけ尖っているかを表した特性値です。

共分散

一般の確率変数$X$,$Y$に対して

\begin{align}
\Cov [X, Y] &\equiv E[(X - E[X])(Y - E[Y])] \\[0.7em]
&= E[X Y] - E[X]E[Y]
\end{align}

で定義される$\Cov[X, Y]$を$X$と$Y$の共分散と呼ぶ。

共分散は確率変数間の相関を測る指標として利用されます。

相関係数

一般の確率変数$X$,$Y$に対して

\begin{align}
\rho[X, Y] &\equiv \frac{\Cov [X, Y]}{\sqrt{V[X]} \sqrt{V[Y]}}
\end{align}

で定義される$\rho[X, Y]$を$X$と$Y$の相関係数と呼ぶ。

共分散を正規化した値が相関係数になります。

有限母集団の平均と分散

大きさ$N$の有限母集団を考え,各個体の特性値を$a_1, \ldots, a_N$とする。この有限母集団の母平均$\mu$と母分散$\sigma^2$は以下のように定義される。

\begin{align}
\mu &= \frac{1}{N} \sum_{i=1}^N a_i \\[0.7em]
\sigma^2 &= \frac{1}{N} \sum_{i=1}^N (a_i-\mu )^2
\end{align}

なお,有限母集団から$1$個の観測値$X_1$を無作為抽出すると,無限母集団のときと同様に母平均$\mu$と母分散$\sigma^2$は以下のように定義される。

\begin{align}
\mu &= E[X_1] \\[0.7em]
\sigma^2 &= V[X_1]
\end{align}

復元抽出の場合には,独立かつ同一の分布から抽出された確率変数が観測されるとみなすことができるため,有限母集団と無限母集団の区別をする必要はありませんでした。一方で,非復元抽出の場合には,有限母集団と無限母集団の区別をする必要があるため,上記定義が持ち込まれるという訳です。ただし,結局のところ,非復元抽出でも母平均・母分散の定義に関しては有限母集団と無限母集団の整合性は取れています。

参考文献

本稿の執筆にあたり参考にした文献は,以下でリストアップしております。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする

※スパム対策のためコメントは日本語で入力してください。

目次
目次
閉じる