【これなら分かる!】確率と確率変数に関する定義一覧

zuka

こんにちは。
zuka(@beginaid)です。

本記事は「これなら分かる!はじめての数理統計学」シリーズ第2章の内容です。

内容は統計検定1級に準拠しています。もし不適切な内容や誤植があれば,記事下のコメント欄もしくはお問い合わせフォームよりご連絡いただけますと幸いです。

目次

はじめに

以下の形で定義と管理人のコメントをお伝えしていきます。定義は定理とは異なり,多少天下り的に理解する必要があります。統計学を学びたての頃から定義を眺めていても何も起きません。一方で,丸暗記するだけでも統計学を楽しく学ぶことはできません。あんばいが難しいところですが,特に理解しておきたいポイントに関してはコメントを付けるようにしていますので,ぜひ参考にして下さい。

定義

早速以下から定義をお伝えしていきます。

事象(Event)

試行に対する結果の集合のことを事象と呼ぶ。

何らかのアクションとその結果の集まりを事象と呼びます。ポイントは「集合」として定義されている点です。私たちのイメージでは「サイコロを投げる」ことが事象と呼ばれているような雰囲気がありますが,実はそうではないんですね。サイコロを投げることはアクションでしかなく,その結果である「5の目が出た」という事実の集まりが事象と呼ばれています。

確率(Probability)

以下の3つを満たす$P(\cdot)$を確率という。

  1. 任意の事象Aに対して$0 \leq P(A) \leq 1$
  2. 全事象$\Omega$に対して$P(\Omega)$=1
  3. $A_1, A_2, \cdots$が排反な事象ならば$P(\bigcup_{i=1}^{\infty}A_i)=\sum_{i=1}^{\infty}P(A_i)$

これは皆さんよくご存知の定義です。確率は0以上1以下の値をとりますよね。もちろん,確率は足したら1になります。「排反」という言葉には少し引っかかるかもしれませんが,一旦は「お互いがお互いを影響し合わない」と捉えればOKです。つまりは,お互いを影響し合わない事象に対しては,足し算で確率が定義されますよということをNo.3は主張しています。

独立(Independent)

2つの事象AとBが以下を満たすとき,AとBは独立であるという。

\begin{align}
P(A \cap B) &= P(A)P(B)
\end{align}

独立という概念は確率の掛け算によって定義されています。つまり,2つの事象を一緒に考えるときに,各々が起こる確率の掛け算として2つの事象の(積集合の)確率が定義されるときに,この2つの事象が独立であることが事後的に定義されます。ちなみに,2つ以上の$n$個の事象に対しては,その中の任意の$m$個の事象に対して上記定義式が成立するときに,$n$個の事象は独立であるとします。

条件付き確率(Conditional Probability)

事象Aと事象Bに対して,Aが起こったという条件のもとでBが起こる確率をAを与えたときのBの条件付き確率といい,以下で与えられる。

\begin{align}
P(B|A) &= \frac{P(A\cap B)}{P(A)}
\end{align}

条件付き確率は最初に引っかかる人が多い概念だと思います。「起こったという条件のもとってなに?」って思いませんか。私もそう思います。条件って何やねんと。私はいつも条件を「情報(ヒント)が与えられたという設定」と言い換えています。つまり,条件付き確率とは,何らかの情報(ヒント)が与えられた場合に定義される確率のことを指しているのです。

確率変数(Random Variable)

確率変数のとりうる値と確率との対応関係を確率分布と呼ぶ。

注目して欲しいのは,対応関係のことを確率分布と呼ぶとしている点です。確率分布は確率変数が離散的であれ連続的であれ定義されます。ちなみに,厳密には確率分布は測度論で定義されますが,今回はパスします。

確率関数(Probability Function)

離散型確率変数$X$に対して

\begin{align}
f_{X}(x) &= P(X=x)
\end{align}

で定義される関数$f_{X}(\cdot)$を確率質量関数と呼ぶ。また,$X$は連続型確率変数のときは

\begin{align}
\int_{a}^{b} f_{\mY}(x) dx &= P(a\leq X \leq b)
\end{align}

で定義される関数$f_{X}(\cdot)$を確率密度関数と呼ぶ。

引っかかりやすいポイントですね。「確率関数?質量?密度?」となると思います。実は,確率分布を定義するためには関数を定義する必要があり,そのために確率関数というものが持ち出されたという見方があります。関数を離散型と連続型で場合分けすることで,シグマと積分を使い分けることができ,うまい具合に枠組みが整理されるという利点があります。そこで,離散型の関数である確率質量関数と,連続型の関数である確率密度関数が出てきたのです。質量は離散,密度は連続を表しているものとして考えてOKです。

累積分布関数(Cumulative Distribution Function)

離散型変数$X$に対して,

\begin{align}
F_{X}(x) &= P(X \leq x) \\
&= \sum_{k:x_k\leq x}f_{X}(x_k)
\end{align}

で定義される関数$F_{X}(\cdot)$を累積分布関数と呼ぶ。ただし,$\sum_{k:x_k\leq x}$は$x_k \leq x$なる$k$で和をとるという意味である。また,$X$が連続型変数の場合には

\begin{align}
F_{X}(x) &= P(X \leq x)\\
&= \int_{-\infty}^{x} g_{\mX}(t)dt
\end{align}

で定義される関数$F_{\mY}(\cdot)$を累積分布関数と呼ぶ。

私自身,統計学を習い始めた頃は「累積分布関数なんて何で定義する必要があるんだろう」と思っていました。必ずと言っていいほど,統計学のテキストでは累積分布関数が定義され,紹介されていますよね。それに対する現時点での私の答えは「$X \leq x$となるような$X$を対象とする操作が行われることが多いから」です。別名,下側確率とも呼ばれています。そのため,累積分布関数を定義することで,見通しよく数学的な組み立てができるようになる場面が多々あるのです。また,定義式から累積分布関数を確率変数に関して微分すると,確率関数となることが分かります。この操作は頻出ですので,ぜひおさえておきましょう。

同時分布(Joint Probability Distribution)

複数の確率変数に対して定義される確率分布を同時分布と呼ぶ。

これまで確認してきた定義は,複数の確率変数についても定義されます。確率変数の数が1つ増えれば,当然ですがシグマや積分の数は1つ増えます。

期待値(Expected Value)

離散型確率変数$X$に対して

\begin{align}
E[g(X)] &= \sum_{k=1}^{\infty} g(x_k)f_{X}(x_k)
\end{align}

を$g(X)$の期待値と呼ぶ。ただし,$g(\cdot)$は適当な関数である。また,$X$が連続型確率変数の場合は

\begin{align}
E[g(X)] &= \int_{-\infty}^{\infty} g(x)f_{X}(x) dx
\end{align}

を$g(X)$の期待値と呼ぶ。

出ました。確率・統計の超有名概念である期待値です。中学生の頃にも習った通り,みなさんもうお馴染みだと思います。大学で勉強する統計学は,この期待値をバンバン利用して体系を作っていきます。直感的には「平均してどれくらいの個数$X$がもらえるか」を表す概念です。

モーメント(Moment)

離散型確率変数$X$に対して,$g(x_k)=x_k^m$としたときの期待値を$X$の$m$次モーメントと呼ぶ。ただし,$m$は自然数とする。また,$X$が連続型確率変数の場合は,$g(x)=x^m$としたときの期待値を$X$の$m$次モーメントと呼ぶ。

統計学の計算はモーメントを経由しなくても発展させることは可能な場合が多いです。しかし,モーメントを導入することで,筋が通った議論をすることが可能になります。そのような意味でも,上記のモーメントを天下り的にも定義しておく必要があるのです。モーメントは確率変数のべき乗に対して定義される値であるため,別名「積率」とも呼ばれています。

確率母関数(Probability Generating Function)

離散型確率変数$X$が非負の整数値であるときに

\begin{align}
G_{X}(t) &\equiv E[t^{X}]\\
&= \sum_{x=0}^{\infty} t^xf_{X}(x)
\end{align}

は$|t|\leq 1$で存在し,$G_{X}(\cdot)$を確率母関数と呼ぶ。

確率母関数は離散型確率変数に対して定義される関数です。便利な定理がたくさんあるため,以下で説明するモーメント母関数と同様に計算過程で利用される場合が多いです。

モーメント母関数(Moment Generating Function)

一般の確率変数$X$に対して

\begin{align}
M_{X}(t) &\equiv E[e^{tX}]
\end{align}

を考えることができる。$M_{X}(t)$が$t=0$の適当な近傍で存在するとき,$M_{X}(\cdot)$をモーメント母関数と呼ぶ。

ポイントなのは「モーメント母関数は存在しない可能性もある」という点です。モーメント母関数が存在しない場合には,複素数領域に拡張した特性関数と呼ばれる関数が利用される場合があります。ちなみに,特性関数と確率密度関数はフーリエ変換対になっていることが知られています。モーメントは積率と呼ばれていることから,モーメント母関数は積率母関数と呼ばれることもあります。

分散(Variance)

一般の確率変数$X$に対して

\begin{align}
V[X] &= E[(X – E[X])^2]\\
&= E[X^2] – E[X]^2
\end{align}

で定義される$V[X]$を$X$の分散と呼ぶ。また,$\sqrt{V[X]}$を$X$の標準偏差と呼ぶ。

分散や標準偏差はデータのばらつきを表す分布の特性値です。また,期待値も分散もモーメントの関数になっている点が重要です。分散は平均値まわりの2次モーメントとして定義されています。以下で説明する歪度や尖度もモーメントを通して理解したいです。

歪度(Skewness)

一般の確率変数$X$に対して

\begin{align}
\frac{E[(X – E[X])^3]}{(V[X])^{\frac{3}{2}}}
\end{align}

で定義される値を$X$の歪度と呼ぶ。

歪度の分母は標準偏差の3乗,分子は平均値まわりの3次モーメントです。分布がどれだけ非対称的かを表した特性値です。

尖度(Kurtosis)

一般の確率変数$X$に対して

\begin{align}
\frac{E[(X – E[X])^4]}{(V[X])^{2}}
\end{align}

で定義される値を$X$の尖度と呼ぶ。

尖度の分母は標準偏差の4乗,分子は平均値まわりの4次モーメントです。分布がどれだけ尖っているかを表した特性値です。

共分散(Covariance)

一般の確率変数$X$,$\mY$に対して

\begin{align}
{\rm cov}[X, \mY] &\equiv E[(X – E[X])(\mY – E[\mY])]\\
&= E[X \mY] – E[X]E[\mY]
\end{align}

で定義される${\rm cov}[X, \mY]$を$X$と$\mY$の共分散と呼ぶ。

確率変数間の相関を測る指標として利用されるのが,この共分散です。

相関係数(Correlation Coefficient)

一般の確率変数$X$,$\mY$に対して

\begin{align}
\rho[X, \mY] &\equiv \frac{{\rm cov}[X, \mY]}{\sqrt{V[X]} \sqrt{V[\mY]}}
\end{align}

で定義される$\rho[X, \mY]$を$X$と$\mY$の相関係数と呼ぶ。

共分散を正規化したような値が相関係数になります。

シェアはこちらからお願いします!
URLをコピーする
URLをコピーしました!

コメント

コメントする

目次
閉じる