理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

Fisherの直接法

投稿日:2017-10-25、最終更新日:2018-05-02

Fisherの正確確率検定やFisherの直接確率検定、他にFisherの正確検定などと呼ばれています(統一してくれれば良いのにといつも思います).もともとカイ二乗検定は近似法でP値を求めています.一つのセルに度数が4以下が存在する場合には近似法の精度が落ちるため、直接P値を計算します.

超幾何分布

非復元抽出
袋の中にA+B個の玉が入っています.赤玉A個、白玉B個.その袋からn個取り出したときの赤玉の数をxとします.
f:id:yoshida931:20180502165147p:plain:w300

個数 残り 総数
赤玉 x A-x A
白玉 n-x B-(n-x) B
n A+B-n A+B

赤玉数A、白玉数B、個数nを与えることで、周辺和がすべて固定される
4つのセルのなかで、一つを決めると、他のセルも決まる(自由度は1)

赤玉の数がx個となる確率 P(X=x)=\frac{_AC_x\times_BC_{n-x}}{_{A+B}C_n}

上記クロス表のxが従う分布を超幾何分布といいます.
つまり、周辺和を与えたときの分割表が得られる確率分布のことです.

Fisherの直接法ではこの確率を使用します. それでは参考・引用文献の例題を参考にして勉強していきます. 上記のような2×2表が生起する確率を直接求めることになります.

Fisherの直接法

例) 小規模な二群並行ランダム化試験

有効 無効
対照群 7 8 15
試験群 12 2 14
合計 19 10 29

帰無仮説H_0: 対照群が有効となる確率 = 試験群が有効となる確率
対立仮説H_1: 対照群が有効となる確率 < 試験群が有効となる確率

上記のような実験結果から試験群の有効率が対照群の有効率より大きいことを証明します.まずは何も考えずRを使用してカイ二乗検定を行ってみます.

da <- c(7,12,8,2)
md <- matrix(da,2,2)

 md
     [,1] [,2]
[1,]    7    8
[2,]   12    2

ch <- chisq.test ( md, correct=F )
  
    Pearson's Chi-squared test

data:  md
X-squared = 4.8871, df = 1, p-value = 0.02706

Warning message:
In chisq.test(md, correct = F) :  カイ自乗近似は不正確かもしれません 

yoshida931.hatenablog.com

次に直接法で計算してみます.
対立仮説H_1: 対照群が有効となる確率 < 試験群が有効となる確率の方向を示すデータの確率を求めます.

     [有効] [無効]
[対照群]    7   8    15
[試験群]    12  2    14
                    29

c>12 となる確率が対立仮説の方向を強く示すデータとなります

a,b,c,d = 7,8,12,2
a,b,c,d = 6,9,13,1
a,b,c,d = 5,10,14,0

それぞれが生起する確率を求めます

c1 <- choose(15,7)
c2 <- choose(14,12)
c3 <- choose(29,19)
c1*c2/c3
 = 0.02923538

c21 <- choose(15,6)
c22 <- choose(14,13)
c23 <- choose(29,19)
c21*c22/c23
= 0.003498251

c31 <- choose(15,5)
c32 <- choose(14,14)
c33 <- choose(29,19)
 = 0.000149925

p-value = c31*c32/c33+c21*c22/c23+c1*c2/c3
        = 0.03288356

#Rの関数を使用
mx=matrix(c(7, 8, 12, 2), nrow=2, byrow=T)
#ここで帰無仮説を「対照群の有効割合は、試験群の有効割合より小さい   "less" 」とします.
#大きいことを証明したい場合には、"greater"となります
fisher.test(mx,alternative = "less")  

    Fisher's Exact Test for Count Data

data:  mx
p-value = 0.03288
alternative hypothesis: true odds ratio is less than 1
95 percent confidence interval:
 0.00000 0.86222
sample estimates:
odds ratio 
 0.1565941 

p-value=0.03288356
対照群の有効数が12以上になる確率は <0.05 ということになりました.したがって、「a,b,c,d = 7,8,12,2」というサンプルは、帰無仮説のもとで起こりえない(有意水準0.05)組合せで、対照群が有効となる確率 < 試験群が有効となる確率という結果になります.

参考・引用

バイオ統計の基礎―医薬統計入門 (バイオ統計シリーズ)

バイオ統計の基礎―医薬統計入門 (バイオ統計シリーズ)