統計学入門～二項分布について～

こんばんは。あいびすです。プログラミング言語Rと統計学を勉強中なのでその勉強過程のメモとして、今回から統計学入門についての記事を更新していこうかなと思います。初回は二項分布について焦点を当てていきたいと思います。

1．そもそも二項分布とは？
確率統計の教科書には確率分布の項の最初に出てくる離散的な確率分布のうちの1つです。統計学の教科書には次のような説明がなされています。

二項分布とは、2種類の事象A,Bがありそれぞれの出現確率をp,1-pとし、同じ条件で独立にn回繰り返す試行を考えます（この試行をベルヌーイ試行という。）。kをAの出現回数、n-kをBの出現回数とします。このときAがn回中k回起きる確率f(x)は以下のように表されます。
${ \displaystyle f(x)={}_n C _k p^k(1-p)^{n-k} }$
この確率分布のことを 二項分布(binomial distribution)*1 という。

例えば、コインを10回投げてそのうち表が出る回数をk、表の出る確率を(1/2)としたとき、

${ \displaystyle {}_{10} C _k (\frac{1}{2})^k(\frac{1}{2})^{n-k} }$

となりkの値によって表の出る確率が変化します。ではどのように変化していくかグラフを書いて確認してみましょう。プログラミング言語Rのコンソール画面で、

> x<-0:10
> plot(x,dbinom(x,10,0.5), type="h", lwd=5, col="tomato1",xlab="表の出た回数", ylab="表の出る確率", cex.lab=1, cex.main=2)

と入力すればこの例の二項分布のグラフが出てくるはずです。

f:id:bislogyaruka:20160330113321p:plain

2.そもそもなぜ二項分布なんて考えるの？
　二項分布はポアソン分布や正規分布といった統計で重要な確率分布を導くことができます（導出の過程は今回説明しません）。これらの分布は、めったに起こらない事象の確率（交通事故の件数や台風など）を記述したり、学力試験の偏差値を割り出すのに用いられています。加えて、二項分布に従う乱数「二項乱数」も発生させることができます。
　また、二項分布のパラメータpを変化させることで、ポアソン分布や正規分布に似てくることが分かります。

3．二項分布の重要な情報は？
確率分布を理解するうえで重要なものは、期待値と分散*2です。よってこれらを求めていきます。導出方法は2通りがあります。定義に基づき計算する方法とモーメント母関数を用いる方法です。まずは、定義通り計算してみます。

①定義通り求める。
期待値 ${\mu}$ 、分散 ${{\sigma}^2}$ を定義にしたがって求めます。

${\mu}$
= ${\sum_{k=0}^n k {}_n C _k p^k(1-p)^{n-k}}$
= ${np\sum_{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1}(1-p)^{n-k}}$
= ${np(p+(1-p))^{n-1}}$ =np

V[X]
= ${E(X-\mu)^2}$
= ${E(X^2)-2\mu E(X)+E(X)^2}$
= ${E(X^2)-E(X)^2}$

となります。

${r {}_{n} C _{r}=n {}_{n-1} C _{r-1}}$ , ${\sum_{k=0}^n (p+(1-p))^k =1}$

に注意して

${E(X^2)}$
= ${\sum_{k=0}^n k^2 {}_n C _k p^k(1-p)^{n-k}}$
= ${np\sum_{k=1}^n k {}_{n-1} C _{k-1} p^{k-1}(1-p)^{n-k}}$
= ${np\sum_{k=1}^n (k-1){}_{n-1} C _{k-1}p^{k-1}(1-p)^{n-k}+np\sum_{k=1}^n {}_{n-1} C _{k-1}p^{k-1}(1-p)^{n-k}}$
= ${np^2\sum_{k=2}^n (n-1){}_{n-2} C _{k-2}p^{k-2}(1-p)^{n-k}+np\sum_{k=1}^n {}_{n-1} C _{k-1} p^{k-1}(1-p)^{n-k}}$
= ${n(n-1)p^2+np}$

となり、V(X)=np(1-p)となります。

いかがでしょうか。非常にめんどくさいですよね。ここでこの計算を簡単にする方法があります。

②モーメント母関数を使う。

モーメント母関数とは、 ${M_X(t)=E(e^{tX})}$ で定義される関数のことです。この関数で期待値や分散が求めることができることを確認してみます。

${e^{tX}=1+tX+(tX)^2/2!+…}$

となり両辺の期待値をとると、

${E(e^{tX})=1+tE(X)+t^2E(X^2)+…}$

となります。ここで、

${\mu_i=E(X^i)}$

とします。上の式の両辺を微分して、t=0を代入して整理すると、

${E(X)=\mu_1}=M_X'(0),V(X)=M_X"(0)-M_X'(0)^2$

となり形式的な計算で求めることができるようになります。実際、二項分布の期待値と分散をモーメント母関数を用いて求めると以下のようになります。

${M_X(t)}$
= ${E(e^{tX})}$
= ${\sum_{x=0}^n e^{tx} {}_{n} C _{k}p^k(1-p)^{n-k}}$
= ${\sum_{x=0}^n {}_{n} C _{k}(pe^t)^k (1-p)^{n-k} }$
= ${(pe^t+(1-p))^n}$