投稿日:2017-10-25、最終更新日:2019-07-29
Fisherの正確確率検定やFisherの直接確率検定、他にFisherの正確検定などと呼ばれています(統一してくれれば良いのにといつも思います).もともとカイ二乗検定は近似法でP値を求めています.一つのセルに度数が4以下が存在する場合には近似法の精度が落ちるため、直接P値を計算します.
超幾何分布
非復元抽出
袋の中にA+B個の玉が入っています.赤玉A個、白玉B個.その袋からn個取り出したときの赤玉の数をxとします.
色 | 個数 | 残り | 総数 |
---|---|---|---|
赤玉 | x | A-x | A |
白玉 | n-x | B-(n-x) | B |
n | A+B-n | A+B |
赤玉数A、白玉数B、個数nを与えることで、周辺和がすべて固定される
4つのセルのなかで、一つを決めると、他のセルも決まる(自由度は1)
赤玉の数がx個となる確率
上記クロス表のxが従う分布を超幾何分布といいます.
つまり、周辺和を与えたときの分割表が得られる確率分布のことです.
Fisherの直接法ではこの確率を使用します. それでは参考・引用文献の例題を参考にして勉強していきます. 上記のような2×2表が生起する確率を直接求めることになります.
#確率密度関数 dhyper(x, A, B, n)
Fisherの直接法
例) 小規模な二群並行ランダム化試験
群 | 有効 | 無効 | 計 |
---|---|---|---|
試験群 | 12 | 2 | 14 |
対照群 | 7 | 8 | 15 |
合計 | 19 | 10 | 29 |
帰無仮説:
対照群が有効となる確率 = 試験群が有効となる確率
対立仮説:
対照群が有効となる確率 < 試験群が有効となる確率
上記のような実験結果から試験群の有効率が対照群の有効率より大きいことを証明します.まずは何も考えずRを使用してカイ二乗検定を行ってみます.
da <- c(12,7,2,8) md <- matrix(da,2,2) [,1] [,2] [1,] 12 2 [2,] 7 8 ch <- chisq.test ( md, correct=F ) Pearson's Chi-squared test data: md X-squared = 4.8871, df = 1, p-value = 0.02706 Warning message: In chisq.test(md, correct = F) : カイ自乗近似は不正確かもしれません
次に直接法で計算してみます.
対立仮説:
対照群が有効となる確率 < 試験群が有効となる確率
の方向を示すデータの確率を求めます.
[有効] [無効] [試験群] 12 2 14 [対照群] 7 8 15 29 a≧12 となる確率が対立仮説の方向を強く示すデータとなります 1) a,b,c,d = 12, 2, 7, 8 2) a,b,c,d = 13, 1, 6, 9 3) a,b,c,d = 14, 0, 5, 10 それぞれが生起する確率を求めます 1) A1 <- choose(14, 12) B1 <- choose(15, 7) A1B1 <- choose(29, 19) A1*B1/A1B1 = 0.02923538 2) A2 <- choose(14, 13) B2 <- choose(15, 6) A2B2 <- choose(29, 19) A2*B2/A2B2 = 0.003498251 3) A3 <- choose(14, 14) B3 <- choose(15, 5) A3B3 <- choose(29,19) A3*B3/A3B3 = 0.000149925 p-value = A1*B1/A1B1+A2*B2/A2B2+A3*B3/A3B3 = 0.03288356 #Rの関数を使用 mx=matrix(c(12,7,2,8),2,2) [,1] [,2] [1,] 12 2 [2,] 7 8 #ここで帰無仮説を「試験群の有効割合は対照群の有効割合より大きい "greater" 」とします. #小さいことを証明したい場合には、"less"となります fisher.test(mx, alternative = "greater") Fisher's Exact Test for Count Data data: mx p-value = 0.03288 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 1.159797 Inf sample estimates: odds ratio 6.385936
p-value=0.03288356
対照群の有効数が12以上になる確率は <0.05 ということになりました.したがって、「a,b,c,d =12.2,7,8」というサンプルは、帰無仮説のもとで起こりえない(有意水準0.05)組合せで、対照群が有効となる確率 < 試験群が有効となる確率
という結果になります.
#幾何分布の確率密度関数で上側P値を求めてみます sum(dhyper(12:14, 14, 15, 19)) = 0.03288
参考・引用