ベイズの定理 - 統計学備忘録（R言語のメモ）

ベイズの定理とは「観測値（データ）で条件付けられた、母数の分布を与える定理」です

#Rのサンプル　women$height　を使用します
x <- women$height
#標本平均
me <- mean(women$height)
=65
#標本標準偏差
sd <- sqrt(sum((x - mean(x))^2) / length(x))
=4.32

女性の伸長（インチ）の平均65、標準偏差4.32を正規分布の母数と見立ててしまえば、95％予測区間を導き出すことは簡単です．
しかし、x～N(65,4.3)の分布が真の分布とは言えません．x～N(64,4.5)やx～N(66,4.6)などの母分散も考えられます．つまり、母数（平均や標準偏差）も分布することが考えられます．

確率密度関数 f(母数|観測値) の分布

例として母数を平均値, 標準偏差とします

$f (θ|x) = f ( 平均値, 標準偏差 | x )$

平均値, 標準偏差とデータxは独立していないので条件付き分布となります

条件付き分布

f (x,θ) ≠ f(x)*f(θ)
# x が与えられた場合
  f (x,θ) = f(x)*f (θ|x)
# θ が与えられた場合
  f (x,θ) = f (x|θ)*f(θ)

分布に関するベイズの定理

観測値（データ）で条件付けられた、母数の分布を与える定理

f (x,θ) = f(x)*f (θ|x)より
f (θ|x) = f (x,θ) ÷ f(x)
        = f (x|θ)*f(θ) ÷ f(x)

上記式より

$f (θ|x)$ =事後分布, $\ \$ $f(x|θ)$ =尤度, $\ \$ $f(θ)$ =事前分布, $\ \$ $f(x)$ =正規化定数

$f (θ|x) = \frac{f (x|θ)*f(θ)}{ f(x)}$

確率に関するベイズの定理

Aを得られた結果とします．Bをその原因とします．
例）5つの袋に赤白の玉が入り混ざっています．どれかの袋から玉が取られたとします．

取り出した玉＝結果A
どの袋から取り出したか＝原因B

結果Aが得られた原因Ｂを推定します．袋が5つなのでB1, B2, B3, B4, B5 が原因となります．ベイズの定理では、結果Aであったときに原因が、B1またはB2またはB3またはB4またはB5 である確率を算出することになります．

ベイズの定理
$P( Bi | A ) = \frac{P(Bi)P(A|Bi)}{P(A)} = \frac{P(Bi)P(A|Bi)}{ΣP(Bi)P(A|Bi)}$

証明
A = A∩Ω =A∩(B1∪B2∪…∪Bi)
=(A∩B1)∪(A∩B2)∪...∪(A∩B1)
∴ $P(A) = ΣP(Bi)P(A|Bi)$

例）ベイズの逆確率
袋B1または袋B2から一つの球を取り出します．
B1には白玉３個、赤玉2個
B2には白玉1個、赤玉３個
取り出した球が赤だった場合(事象A)、袋がB1である確率、B2である確率を求めよ．

f:id:yoshida931:20180117184454p:plain:w300

正規化

f:id:yoshida931:20180316120813p:plain:w300

$P(赤)＝ ΣP(Bi)P(赤|Bi)=P(B1)P(赤|B1)+P(B2)P(赤|B2)=\frac{1}{2}*\frac{2}{5}+ \frac{1}{2}*\frac{3}{4}$

# 赤玉を引いた袋がB1である確率(ベイズの逆確率)   
  P(B1|A)= (1/2)*(2/5) / ((1/2)*(2/5) + (1/2)*(3/4)) = 0.3478261
# 赤玉を引いた袋がB2である確率(ベイズの逆確率)   
  P(B2|A)= (1/2)*(3/4) / ((1/2)*(2/5) + (1/2)*(3/4)) = 0.6521739
#正規化しているので
  P(B1|A) + P(B2|A) = 1

参考文献
豊田秀樹; はじめての統計データ分析ベイズ的＜ポストp値時代＞の統計学, 朝倉書店, 2016