本記事は「これなら分かる!はじめての数理統計学」シリーズに含まれます。
不適切な内容があれば,記事下のコメント欄またはお問い合わせフォームよりご連絡下さい。
はじめに
本稿では,竹村 彰通著「新装改訂版 現代数理統計学」に記載されている演習問題の解答解説を行います。竹村先生により公式の解答が公開されていますが,略解となっていますので所々文脈が追いきれない箇所があります。そのため,ここでは極力行間を詰めた解答解説を心掛けます。
2.1
$k$次モーメントに関する計算練習問題です。モーメントの計算は確率母関数やモーメント母関数を用いた期待値や分散の導出で必須となるため,マスターしておきましょう。
簡単のため,$X$は離散型確率変数とします。連続型に拡張する場合は,総和を積分とすればよいです。$E[X]=\mu$とおき,原点まわりの$k$次モーメントを$\mu_{k}^{\prime}$とおくと,定義と二項定理より平均まわりの$k$次モーメントは
E[(X-\mu)^{k}]
&= E\left[\sum_{i=0}^{k}{}_{k}C_{i}X^{i}(-\mu)^{k-i}\right]\\[0.7em]
&= \sum_{i=0}^{k}{}_{k}C_{i}(-1)^{k-i}E[X^{i}]\mu^{k-i}\\[0.7em]
&= \sum_{i=0}^{k}{}_{k}C_{i}(-1)^{k-i}\mu^{\prime}_{i}\mu^{k-i}
\end{align}
と表されます。同様に,平均まわりの$k$次モーメントを$\mu_{k}$とおくと,原点まわりの$k$次モーメントは
E[X^{k}]
&= E[(X-\mu+\mu)^{k}]\\[0.7em]
&= E\left[\sum_{i=0}^{k}{}_{k}C_{i}(X-\mu)^{i}\mu^{k-i}\right]\\[0.7em]
&= \sum_{i=0}^{k}{}_{k}C_{i}E[(X-\mu)^{i}]\mu^{k-i}\\[0.7em]
&= \sum_{i=0}^{k}{}_{k}C_{i}\mu_{i}\mu^{k-i}
\end{align}
と表されます。統計学では頻繁に行われる変形ですが,無理やり二項定理の形に変形する箇所がポイントです。
2.2
期待値の定義には確率関数を通した$X$も適用可能であることを示す問題です。我々が普段,疑問を抱かずに行なっている操作の妥当性を数学的に裏付けます。
期待値は確率変数$X$に対して定義されますので,$Y=g(X)$から$X$を得るために逆像を用います。すなわち,
A_{y} &= \{x\mid g(x)=y\}
\end{align}
を考えます。$g$の逆関数を用いずに逆像を用いる理由は,$g^{-1}$が存在するとは限らないからです。いま,$x\in A_{y}$ごとに$Y$の期待値を考えると,$p_{Y}(y)=p(Y=y)=p(x)$となりますので,
E[Y] &= \sum_{y}yp_{Y}(y) = \sum_{y} \sum_{x\in A_{y}}g(x)p(x) = \sum_{x}g(x)p(x) = E[g(X)]
\end{align}
が得られ,$E[Y]=E[g(X)]$が示されました。
2.3
一般に,モーメントが存在するかどうかは分かりませんが,ある次元のモーメントの存在が確約された状況においては,その次元以下のモーメントも存在することを示す問題です。確率母関数やモーメント母関数の性質で$n$次モーメントを$n$回微分しますので,「$n$次モーメントが存在するならば$n-1$次以下のモーメントも存在する」というのは直感にも反しませんし,我々も無意識的に仮定していた定理といえます。
$X$が連続型確率変数の場合を考えます。離散型を考える場合は,積分を総和に置き換えればよいです。$X$の確率密度関数を$f(x)$とおくと,$k$次モーメント
\int_{-\infty}^{\infty}x^{k}f(x)dx
\end{align}
が存在するならば,期待値の収束性より被積分関数の絶対値$|x^{k}|$の積分も収束します。以下では,$|x^{h}|$の期待値が存在することを示します。$|x|<1$の場合は$|x^{h}|<1$となりますので,$|x^{h}|$の積分は収束します。したがって,$x^{h}$の期待値である$h$次モーメントは存在します。$|x|\geq1$の場合は$|x^{h}|\leq|x^{k}|$となりますので,$x^{k}$よりもオーダーが小さい$x^{h}$の積分は収束します。したがって,$x^{h}$の期待値である$h$次モーメントは存在します。
2.4
2.4〜2.6は分布関数の逆関数に関する問題になります。現代数理統計学で特に詳しく扱われているトピックになっており,当書の特徴的な内容になっています。2.4では,分布関数の逆関数を用いて定義される区間が閉区間として表されることを示す問題です。この事実は,右側極限と左側極限が一致しない点におけるパーセント点を定義するために利用されます。
書籍の本文中に$x_{L}\leq x_{R}$となることは示されていますので,$I_{u}=[x_{L},x_{R}]$であることを示すためには,$I_{u}$の任意の要素$x$が$x_{L}\leq x$かつ$x\leq X_{R}$を満たすことを示せばよいです。これは$I_{u}$の定義に着目すると簡単に分かります。まず,$x$は$P(X\leq x)=F(x)\geq u$を満たしますので,$x_{L}=F_{L}^{-1}(u)$の定義
x_{L} &= \min\{x\mid F(x)\geq u\}
\end{align}
より$x_{L}$は$x$の最小値そのものになり,$x_{L}\leq x$となります。同様に,$x$は$P(X\geq x)\geq 1-u$を満たしますので,$x_{R}=F_{R}^{-1}(u)$の定義
x_{R} &= \max\{x\mid P(X\geq x)\geq 1-u\}
\end{align}
より$x_{R}$は$x$の最大値そのものになり,$x_{R}{\geq}x$となります。よって,$I_{u}$の任意の要素$x$に対して$x_{L}{\leq}x{\leq}x_{R}$が得られますので,$I_{u}$は閉区間$[x_{L},x_{R}]$となります。
2.5
2.4〜2.6は分布関数の逆関数に関する問題になります。現代数理統計学で特に詳しく扱われているトピックになっており,当書の特徴的な内容になっています。2.5では,上側確率に対応する分布関数においても,下側確率に対応する分布関数と同様に確率積分変換が定義されることを示す問題です。
書籍の本文中で$F_{L}^{-1}(U)$が分布$F$に従うことは示されています。そこで,$F_{L}^{-1}(U)$と$F_{R}^{-1}(U)$の対称性を利用しましょう。$X$に対する上側確率というのは,$X$が従う確率関数$f$を左右対称に反転させた際の下側確率に相当しますので,$X$に対する上側確率は$-X$に対する下側確率と等価になります。さらに,$f$を左右反転させると最小値として定義される$F_{L}^{-1}(U)$は最大値に,最大値として定義される$F_{R}^{-1}(U)$は最小値となります。したがって,$X$を$-X$としてみなしたときは,$F_{R}^{-1}(U)$の定義
F_{R}^{-1}(u) &= \sup\left\{ x\mid P(X\geq x)\geq 1-u \right\}\label{上側確率}
\end{align}
において,$P(X\geq x)$は下側確率$F(x)$とみなせ,$\max$は$\min$とみなせます。
あとは,$1-u$が$u$と等価であることを示すことができれば,$F_{R}^{-1}(U)$も$F_{L}^{-1}(U)$と同様に分布$F$に従うことが示されます。実際に示すのは簡単で,$U$が$[0,1]$上の一様分布に従っていることに注意すると,$1{-}U$は定義域を$[0,1]$から$[0,1]$に恒等変換しているだけですので,$1{-}U$は$[0,1]$上の一様分布に従うことが分かります。したがって,式($\ref{上側確率}$)における$1{-}u$は一様分布に従う確率変数$U$の実現値$u$としてみなせます。以上より,一様分布に従う$U$に対し,$X$の上側確率に対する分位点関数が$-X$の下側確率に対する分位点関数と等価であることが示されましたので,$F_{R}^{-1}(U)$も分布$F$に従います。
次に,$X_{R}=X_{L}$であることを示します。書籍の本文中で$X_{L}\leq X_{R}$は示されていますので,$X_{L}<X_{R}$と仮定した場合に矛盾が起きることを示しましょう。矛盾としては,上で示したばかりの「$X_{L}$と$X_{R}$は同一の分布に従う」ことに対する矛盾を導き出せばよさそうです。
$X_{L}{<}X_{R}$なる$X_{L}$と$X_{R}$が存在する場合,すなわち$P(X_{L}{<}X_{R}){>}0$と仮定した場合は,$X_{L}$と$X_{R}$の間にある$x$が存在して$P(X_{L}{<}x{<}X_{R}){>}0$が成り立ちます。この条件を利用するため,天下り的ですが,$P(X_{L}{\leq}x)$の$X_{R}$に対する周辺確率を考えます。
P(X_{L}\leq x) &= P(X_{L}\leq x, X_{R}\leq x) + P(X_{L}\leq x, X_{R}> x) \\[0.7em]
&= P(X_{L}\leq x, X_{R}\leq x) + P(X_{L}\leq x< X_{R})\\[0.7em]
&> P(X_{L}\leq x, X_{R}\leq x)
\end{align}
$X_{L}$と$X_{R}$の対称性に着目し,$P(X_{R}\leq x)$の$X_{L}$に対する周辺確率も考えます。
P(X_{R}\leq x) &= P(X_{R}\leq x, X_{L}\leq x) + P(X_{R}\leq x, X_{L}> x) \\[0.7em]
&= P(X_{R}\leq x, X_{L}\leq x) + P(X_{R}\leq x< X_{L})
\end{align}
ここで,$X_{R}\leq X_{L}$であることから, $P(X_{R}\leq x< X_{L})=0$となります。以上より,
P(X_{L}\leq x) > P(X_{L}\leq x, X_{R}\leq x) = P(X_{R}\leq x)
\end{align}
となり,$P(X_{L}\leq x)\neq P(X_{R}\leq x)$が得られます。これは$X_{L}$と$X_{R}$が同一の分布に従うことに矛盾します。したがって,$X_{R}=X_{L}$となります。
2.6
2.4〜2.6は分布関数の逆関数に関する問題になります。現代数理統計学で特に詳しく扱われているトピックになっており,当書の特徴的な内容になっています。2.6では,連続型確率変数と離散型確率変数における分位点関数の振る舞いの違いを考察させています。
下側確率に対する分位点関数の定義より,$F_{L}^{-1}(u){=}X_{L}$は$F(x){\geq}u$を満たす$x$の集合ですので,$F(X_{L}){\geq}u$が成り立ちます。また,$F_{R}^{-1}(u){=}X_{R}{\geq}X_{L}$となりますので,$F$の単調増加性に注意すると$F(X_{R}){\geq}u$となります。なお,問2.5より$X_{L}{=}X_{R}$を利用しても直ちに導かれます。
同様に,下側確率に対する分位点関数の定義より,$X_{L}$より小さい値を取る$X$は必ず$u$以下の値を取ることが分かります。すなわち,$P(X{<}X_{L}){\leq}u$となります。また,問2.5より$X_{L}{=}X_{R}$が得られていますので$P(X{<}X_{R}){\leq}u$もただちに得られます。
さて,$F$が連続のときは分位点関数を下側確率と上側確率に分ける必要はありません。そこで,確率積分変換により$F_{L}^{-1}(U)$が$F$に従うことを利用すると,$F^{-1}(u)$は$X$と書けますので,$F(F^{-1}(u)){=}F(X){=}U$となります。したがって,$F(X)$と$U$は同一の分布,すなわち$[0,1]$上の一様分布に従います。
もし$X$が離散型確率変数である場合は,$F(X)$は有限個の値しか取りませんので,$F(x){=}u$となる$x$を選ぶのではなく,$F(x){\geq}u$となる$x$を定義域の中から選びます。その際,最小の$x$を選ばなければいけないこと注意してください。$F(x)=u$とならい例として,$1/2$をパラメータとするベルヌーイ分布の分布関数を考えます。$F(x)$の値は$0,1/2,1$のいずれかですので,$[0,1]$の値を取り得る$u$とは必ずしも一致しません。$u{=}1/4$を考えた場合には,$F(x){\geq}1/4$を満たす最小の$x$を定義域から選びます。パラメータ$p$のベルヌーイ分布の分布関数は,
F(x) &=
\begin{cases}
0&(x< 0)\\[0.7em]
1-p&(0\leq x< 1)\\[0.7em]
1&(1\leq x)
\end{cases}
\end{align}
となりますので,$F(x){\geq}1/2$となる最小の$x$として$x{=}0$を選びます。これは$F(x){=}u$となっていません。逆に言えば,$F$が連続である場合は常に$F(x){=}u$となる$x$が存在しますので,このような小細工をしなくても済みます。
下側確率や上側確率に対する分布関数は,分布関数が不連続であったり平坦な箇所があったりした場合に「$F(x){\geq}u$となるように」$x$を選ぶという恣意的なルールを定義として定めている訳です。逆に,分布関数が連続の場合は,このルールは「$F(x){=}u$となるように」シンプルに定められるということです。
2.7
ポアソン分布の平均と分散を求め,二項分布との関連性を考察する問題です。
ポアソン分布の確率母関数を求めます。$e^{s\lambda}$のマクローリン展開より,
G(s)
&= E[s^{X}] \\[0.7em]
&= \sum_{x=0}^{\infty}\frac{(s\lambda)^{x}}{x!}e^{-\lambda}\\[0.7em]
&= e^{-\lambda}\cdot e^{s\lambda}\\[0.7em]
&= e^{\lambda(s-1)}
\end{align}
が得られます。確率母関数の性質より,
E[X]
&= G^{\prime}(1)\\[0.7em]
&= \left. \lambda e^{\lambda(s-1)}\right|_{s=1}\\[0.7em]
&= \lambda
\end{align}
が得られます。同様に,
E[X(X-1)]
&= G^{\prime\prime}(1)\\[0.7em]
& = \left. \lambda^{2} e^{\lambda(s-1)}\right|_{s=1}\\[0.7em]
&= \lambda^{2}
\end{align}
が得られます。したがって,
V[X]
&= E[X(X-1)] + E[X] - E[X]^{2}\\[0.7em]
&= \lambda^{2}+\lambda-\lambda^{2}\\[0.7em]
&= \lambda
\end{align}
が得られます。次に,小数法則との関連を調べます。小数法則とは二項分布のポアソン分布への収束のことを指します。ポアソン分布は二項分布で$np=\lambda$を一定に保ちながら$n\rarr\infty$としたときに得られる分布でした。$n\rarr\infty$に対して$np$を一定に保つということは$p\rarr 0$となります。さて,二項分布の平均は$np$で分散は$np(1-p)$でしたので,$np=\lambda$と$p\rarr 0$より,ポアソン分布の平均は$\lambda$で分散も$\lambda$となることが分かります。
2.8
負の二項分布の平均と分散を求める問題です。幾何分布の拡張を考えると楽に求められます。
負の二項分布の定義は「無限に続くベルヌーイ試行において$r$回成功するまでの失敗の回数」です。一方,幾何分布の定義は「無限に続くベルヌーイ試行において$1$回成功するまでの失敗の回数」です。したがって,幾何分布に従う$r$個の独立な確率変数$X_{1},\ldots,X_{r}$を考えたときに,$Y=X_{1}+\cdots+X_{r}$は負の二項分布に従います。したがって,負の二項分布の期待値は
E[Y] &= E[X_{1}+\cdots+X_{r}]\\[0.7em]
&= E[X_{1}]+\cdots+E[X_{r}]
\end{align}
のように幾何分布の期待値の和で表され,負の二項分布の分散は
V[Y] &= V[X_{1}+\cdots+X_{r}]\\[0.7em]
&= V[X_{1}]+\cdots+V[X_{r}]
\end{align}
のように幾何分布の分散の和で表されます。ただし,分散の線形性は$X_{1},\ldots,X_{r}$が独立であることを利用しました。ゆえに,幾何分布の期待値と分散を求めることにより,負の二項分布の期待値と分散を求めることができます。幾何分布の確率質量関数は
p(X=x) &= p(1-p)^{x}
\end{align}
と表されますので,確率母関数は
G(s) &= E[s^{X}]\\[0.7em]
&= \sum_{x=0}^{\infty}p\left\{(1-p)s\right\}^{x}\\[0.7em]
&= p\left\{1-(1-p)s\right\}^{-1}
\end{align}
と表されます。確率母関数の性質より,
E[X]
&= G^{\prime}(1)\\[0.7em]
&= \left. p(1-p)\left\{1-(1-p)s\right\}^{-2} \right|_{s=1}\\[0.7em]
&= (1-p)p^{-1}
\end{align}
が得られます。同様に,
E[X(X-1)]
&= G^{\prime\prime}(1)\\[0.7em]
& = \left. 2p(1-p)^{2}\left\{1-(1-p)s\right\}^{-3}\right|_{s=1}\\[0.7em]
&= 2(1-p)^{2}p^{-2}
\end{align}
が得られます。したがって,
V[X]
&= E[X(X-1)] + E[X] - E[X]^{2}\\[0.7em]
&= 2(1-p)^{2}p^{-2}+(1-p)p^{-1}-(1-p)^{2}p^{-2}\\[0.7em]
&= (1-p)p^{-2}\left\{2(1-p)+p-(1-p)\right\}\\[0.7em]
&= (1-p)p^{-2}
\end{align}
が得られます。以上より,負の二項分布に従う確率変数$Y$の期待値と分散は
E[Y] = r(1-p)p^{-1},\quad V[Y] = r(1-p)p^{-2}
\end{align}
となります。
2.9
標準正規分布が確率分布としての振る舞いをすることを証明し,標準正規分布からの変数変換を通じて正規分布の平均と分散を求める問題です。
標準正規分布の確率密度関数$\phi(x)$は偶関数であることから$x\phi(x)$は奇関数となり,
\int_{-\infty}^{\infty}x\phi(x)dx &= 0
\end{align}
が示されます。一方,$\phi(x)^{\prime}(x)=-x\phi(x)$が成り立つことに注意すると,$x^{2}\phi(x)$は偶関数となり,
\int_{-\infty}^{\infty}x^{2}\phi(x)dx &= 2\int_{0}^{\infty}x^{2}\phi(x)dx\\[0.7em]
&= 2\int_{0}^{\infty}x(-\phi(x))^{\prime}dx\\[0.7em]
&= 2\bigl[-x\phi(x)\bigr]_{0}^{\infty}+2\int_{0}^{\infty}\phi(x)dx
\end{align}
が得られます。$x\rarr\infty$のとき,$\phi(x)$の$0$への収束オーダは$O(e^{-x^2})$で,$x$の$\infty$への収束オーダ$O(x)$よりも大きい(収束のスピードが早い)ため,第一項目は$0$となります。第二項目の積分は標準正規分布の正の部分を表していますので,$1/2$となります。したがって,
\int_{-\infty}^{\infty}x^{2}\phi(x)dx &= 2\cdot 1/2 = 1
\end{align}
が得られます。いま,$Y=\mu+\sigma X$とおくと,$Y$は$X$を並行移動してスケールを拡大・縮小した分布となるため,正規分布に従います。このとき,$Y$の期待値は
E[Y] &= E[\mu+\sigma X] = \mu+\sigma E[X] = \mu
\end{align}
となり,$Y$の分散は
V[Y] &= V[\mu+\sigma X] = V[\sigma X] = \sigma^{2}
\end{align}
となります。
2.10
ガンマ関数の階乗としての性質を利用することにより,ベータ分布の平均と分散を求める問題です。
ガンマ関数の階乗としての性質とベータ関数とガンマ関数の関係性を利用すると,ベータ分布の平均は,
E[X]
&= \int_{0}^{1}\frac{1}{B(a,b)}x\cdot x^{a-1}(1-x)^{b-1}\\[0.7em]
&= \frac{1}{B(a,b)}\int_{0}^{1}x^{a}(1-x)^{b-1}\\[0.7em]
&= \frac{1}{B(a,b)}\cdot B(a+1,b)\\[0.7em]
&= \frac{1}{B(a,b)}\cdot \frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}\\[0.7em]
&= \frac{1}{B(a,b)}\cdot \frac{a\Gamma(a)\Gamma(b)}{(a+b)\Gamma(a+b)}\\[0.7em]
&= \frac{1}{B(a,b)}\cdot \frac{a}{a+b}\cdot B(a,b)\\[0.7em]
&= \frac{a}{a+b}
\end{align}
と求められます。同様に,二次モーメントは
E[X]
&= \int_{0}^{1}\frac{1}{B(a,b)}x^{2}\cdot x^{a-1}(1-x)^{b-1}\\[0.7em]
&= \frac{1}{B(a,b)}\int_{0}^{1}x^{a+1}(1-x)^{b-1}\\[0.7em]
&= \frac{1}{B(a,b)}\cdot B(a+2,b)\\[0.7em]
&= \frac{1}{B(a,b)}\cdot \frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)}\\[0.7em]
&= \frac{1}{B(a,b)}\cdot \frac{a(a+1)\Gamma(a)\Gamma(b)}{(a+b)(a+b+1)\Gamma(a+b)}\\[0.7em]
&= \frac{1}{B(a,b)}\cdot \frac{a(a+1)}{(a+b)(a+b+1)}\cdot B(a,b)\\[0.7em]
&= \frac{a(a+1)}{(a+b)(a+b+1)}
\end{align}
と求められます。したがって,ベータ分布の分散は
E[X^{2}]-E[X]^{2}
&= \frac{a(a+1)}{(a+b)(a+b+1)}-\frac{a^{2}}{(a+b)^{2}}\\[0.7em]
&= \frac{a(a+1)(a+b)-a^{2}(a+b+1)}{(a+b)^{2}(a+b+1)}\\[0.7em]
&= \frac{ab}{(a+b)^{2}(a+b+1)}
\end{align}
と求められます。
2.11
与えられた確率関数に対する基準か定数と確率母関数を求め,それらを用いて期待値と分散を求める問題です。
問題文では「対数関数のテーラー展開を参照して」と書かれていますので,指示通りに対数関数のテーラー展開を求めてみましょう。確率分布の多項式近似が目的ですので,原点まわりのテーラー展開,すなわちマクローリン展開を利用します。ただし,$\log(x)$は$x=0$で定義されないため,$x$軸方向に$-1$だけ並行移動した$\log(x+1)$を考えます。
\log(x+1)
&= \frac{x}{1!}+\frac{-x^{2}}{2!}+\frac{2x^{3}}{3!}+\frac{-3!x^{4}}{4!}+\cdots\\[0.7em]
&= \sum_{n=1}^{\infty}\frac{(-1)^{n-1}x^{n}}{n}
\end{align}
これでは与えられた確率関数の形と一致しませんので,もう一工夫します。$(-1)^{n-1}$の項を出現させないためには,対数関数の中身にある$x$の係数を負にすればよいです。実際に,
\log(-x+1)
&= -\frac{x}{1!}-\frac{x^{2}}{2!}-\frac{2x^{3}}{3!}-\frac{3!x^{4}}{4!}-\cdots\\[0.7em]
&= -\sum_{n=1}^{\infty}\frac{x^{n}}{n}
\end{align}
が得られます。マイナスが余計についてしまったため,最終的には$-\log(-x+1)$のマクローリン展開を考えればよいことが分かります。すなわち,
\frac{1}{c(\theta)} &= \sum_{x=1}^{\infty}\frac{\theta^{x}}{x} = -\log(-\theta+1)
\end{align}
が得られます。したがって,基準化定数は$c(\theta)=-1/\log(-\theta+1)$となります。さらに,確率母関数は
E[s^{X}] &= c(\theta)\frac{(s\theta)^{x}}{x} = \frac{\log(-\theta s+1)}{\log(-\theta+1)}
\end{align}
となります。確率母関数の性質より,
E[X]
&= G^{\prime}(1)\\[0.7em]
&= \left. \frac{1}{\log(-\theta+1)}\cdot\frac{-\theta}{(-\theta s+1)} \right|_{s=1}\\[0.7em]
&= \frac{-\theta}{(-\theta+1)\log(-\theta+1)}
\end{align}
が得られます。同様に,
E[X(X-1)]
&= G^{\prime\prime}(1)\\[0.7em]
& = \left. \frac{1}{\log(-\theta+1)}\cdot\frac{-\theta^{2}}{(-\theta s+1)^{2}}\right|_{s=1}\\[0.7em]
&= \frac{-\theta^{2}}{(-\theta+1)^{2}\log(-\theta+1)}
\end{align}
が得られます。したがって,
V[X]
&= E[X(X-1)] + E[X] - E[X]^{2}\\[0.7em]
&= \frac{-\theta^{2}}{(-\theta+1)^{2}\log(-\theta+1)}+\frac{-\theta}{(-\theta+1)\log(-\theta+1)}-\frac{\theta^{2}}{(-\theta+1)^{2}\left\{\log(-\theta+1)\right\}^{2}}\\[0.7em]
&= \frac{-\theta^{2}\log(-\theta+1)-\theta(-\theta+1)\log(-\theta+1)-\theta^{2}}{(-\theta+1)^{2}\left\{\log(-\theta+1)\right\}^{2}}\\[0.7em]
&= \frac{-\theta\left\{\log(-\theta+1)+\theta\right\}}{(-\theta+1)^{2}\left\{\log(-\theta+1)\right\}^{2}}
\end{align}
が得られます。
2.12
対数正規分布と正規分布がモーメント母関数を通して美しく対応することを利用する問題です。
対数正規分布の確率密度関数は変数変換により求められ,平均と分散は正規分布のモーメント母関数と対数正規分布の$n$次モーメントが等価であることにより求められます。まずは確率密度関数から求めます。$X{=}\log Y$より$dx/dy{=}1/y$が得られます。ゆえに,正規分布の確率密度関数を$f(x)$,対数正規分布の確率密度関数を$g(y)$とすると,$f(x)dx{=}g(y)dy$を変形することにより以下が成り立ちます。
g(y) = f(x) \frac{dx}{dy} = \frac{f(\log y)}{y}
\end{align}
従って,$g(y)$は以下のように表されます。
g(y) &= \frac{1}{\sqrt{2\pi \sigma^2}y} \exp\left\{-\frac{(\log y - \mu)^{2}}{2 \sigma^{2}}\right\}
\end{align}
次に,平均と分散を求めます。$X{=}\log Y$を利用して$X$のモーメント母関数を変形すると,
M_{X}(t) &= E[e^{tX}]\\[0.7em]
&= E[e^{t\log Y}]\\[0.7em]
&= E[Y^{t}]
\end{align}
が得られます。つまり,$X$のモーメント母関数$M_{X}(t)$が$Y$の$t$次モーメント$E[Y^{t}]$と等価になります。そこで,正規分布のモーメント母関数を求めましょう。モーメント母関数の定義より,
M_{X}(t) &= E[e^{tX}] \\[0.7em]
&= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left\{-\frac{(x-\mu)^2}{2 \sigma^2} + tx\right\} dx \\[0.7em]
&= \frac{1}{\sqrt{2\pi \sigma^2}} \int_{-\infty}^{\infty}\exp\left\{-\frac{1}{2\sigma^2}\left( x^2 + -2\mu x + 2\sigma^2tx + \mu^2 \right) \right\} dx \\[0.7em]
&= \frac{1}{\sqrt{2\pi \sigma^2}} \int_{-\infty}^{\infty}\exp\left[-\frac{1}{2\sigma^2}\left\{ x-(\mu + \sigma^2t)\right\}^2 + \mu t + \frac{\sigma^2 t^2}{2} \right] dx \\[0.7em]
&= \exp\left(\mu t + \frac{\sigma^2 t^2}{2} \right)\frac{1}{\sqrt{2\pi \sigma^2}} \int_{-\infty}^{\infty}\exp\left[-\frac{1}{2\sigma^2}\left\{ x-(\mu + \sigma^2t)\right\}^2 \right] dx \\[0.7em]
&= \exp\left(\mu t + \frac{\sigma^2 t^2}{2} \right)
\end{align}
が得られます。ただし,最終行では正規分布の確率密度関数の積分が$1$となることを利用しました。したがって,$Y$の平均は
E[Y] &= M_{X}(1) = \exp\left(\mu + \frac{\sigma^{2}}{2} \right)
\end{align}
と得られます。同様に,$Y$の分散は
E[Y^{2}]-E[Y]^{2}&= M_{X}(2) - M_{X}(1) \\[0.7em]
&= \exp\left(2\mu + 2\sigma^{2} \right) - \exp\left(2\mu + \sigma^{2} \right)\\[0.7em]
&= \exp\left(2\mu + \sigma^{2} \right)\left(e^{\sigma^{2}}-1\right)
\end{align}
と得られます。
2.13
分布の混合と過分散の関係を考察する問題です。条件付き期待値と条件付き分散に関する理解が必要になります。
$g(\lambda)$に従う確率変数を$\Lambda$とおきます。表記の便宜上$E[\Lambda]{=}\mu$,$V[\Lambda]{=}\sigma^{2}$とおくと,条件付き平均値と条件付き分散に関する定理より,
E_{Y}[Y] = E_{\Lambda}[E_{Y|\Lambda}[Y|\Lambda]] = E_{\Lambda}[\Lambda] = \mu
\end{align}
が得られます。ただし,ポアソン分布のパラメータを確率変数とした$\Lambda$が与えられた状況下におけるポアソン分布の期待値は$\Lambda$であることを利用しました。同様に,
V_{Y}[Y] &= E_{\Lambda}[V_{Y|\Lambda}[Y|\Lambda]] + V_{\Lambda}[E_{Y|\Lambda}[Y|\Lambda]]\\[0.7em]
&= E_{\Lambda}[\Lambda] + V_{\Lambda}[\Lambda]\\[0.7em]
&= \mu + \sigma^{2}
\end{align}
も得られます。ただし,パラメータ$\Lambda$が与えられた状況下におけるポアソン分布の期待値に加え,分散も$\Lambda$であることを利用しました。$\sigma^{2}{>}0$より$V[Y]{>}E[Y]$が示されましたので,ポアソン分布と比較して$Y$の分布は過分散となります。
問題文に$X$という確率変数が出てきますが,分布の混合を記述するために持ち出された確率変数だと推測されます。日本語的には,わざわざ$X$を持ち出さずとも分布の混合は表現できるはずですので,次版では修正される可能性があります。
2.14
2.13と同様に,分布の混合と過分散の関係を考察する問題です。
二項分布に従う確率変数を$Y$の成功確率に対応する確率変数を$P$とし,$P$が従う分布を$g(p)$とおきます。問題文の指示としては$E[Y]/n=p$となっていますが,この指示の意味を考えてみましょう。「$Y$は二項分布に従う」とは書かれていません。今回求められている条件に沿うように,$Y$は二項分布と成功確率の分布の混合分布に従うとします。問2.13と同様に,二項分布のパラメータを確率変数とした$P$が与えられた状況下における二項分布の期待値は$nP$です。また,$E_{P}[P]{=}p$とおくことにします。このとき$E[Y]{=}E[nP]=np$となり,本文で与えられた指示と整合性を取ることができます。
さて,表記の便宜上$V[P]{=}\sigma^{2}$とおくと,条件付き平均値と条件付き分散に関する定理より,
V_{Y}[Y] &= E_{P}[V_{Y|P}[Y|P]] + V_{P}[E_{Y|P}[Y|P]]\\[0.7em]
&= E_{P}[nP(1-P)] + V_{P}[nP]\\[0.7em]
&= nE_{P}[P]-nE_{P}[P^{2}] + n^{2}V_{P}[P]\\[0.7em]
&= nE_{P}[P]-n\left(V_{P}[P]+E_{P}[P]^{2}\right) + n^{2}V_{P}[P]\\[0.7em]
&= np-n\sigma^{2}+np^{2}+n^{2}\sigma^{2}
\end{align}
が得られます。これより,
V_{Y}[Y]-np(1-p) = \left(np-n\sigma^{2}+np^{2}+n^{2}\sigma^{2}\right) - np(1-p) = n(n-1)\sigma^{2}
\end{align}
が得られます。二項分布は$n\geq 2$となりますので,$V_{Y}[Y]{>}np(1-p)$が示されました。したがって,二項分布の成功確率を混合した分布は,二項分布と比較して過分散となります。
コメント