理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

並べ替え検定

正確なp値 ( exact p value )
特定の確率分布をもとに推定を行うのではなく、p値の計算において母集団の未知のパラメータやサンプリング誤差が入らないため計算上も正しいp値が得られる.

並べ替え検定 ( permutation test )
例)x群とy群を比較する
x<-c ( 5,9 )  平均 = 7
y<-c ( 6,12,14,16 )  平均 = 12
xとyは同じ母集団からのサンプリングと考えます.それぞれのグループへの割付の際にたまたま差が生じました.なおxyは正規分布には従いません.

帰無仮説H0:xとyに差はない
対立仮説H1xよりyが大きい

並べ替え検定の考え方
もしH0が正しいと考えるとき、このサンプリングの平均差がどの程度大きいのかを考えます.(  5 , 6 , 9 , 12 , 14 , 16 )  がマークされている、6個の同質の玉が袋に入っていると考えます.帰無仮説は、どのように取り出してもx(2個)とy(3個)が示す増加量が等しいということになります.

         f:id:yoshida931:20170710183718p:plain

取り出し方は、8C3 = choose ( 6 , 2 ) の15通りあります.帰無仮説が正しいとすると、15通り全てが「xとyは等しい」ということになります.xの平均は7、yの平均は12なので、y-x=5となります.つまり15通り中、差が平均の差5より大きくなる確率を正確なp値として考えます.差が5以上になるのは2通りなので、片側検定のp値は2/15 =0.1333333 、両側検定のp値は 4/15 = 0.2666667 となります.

f:id:yoshida931:20170711162633p:plain


Rでは以下のような計算式になります
install.packages("coin")
perm.test ( x , y , conf.int = TRUE , exact = TRUE , alternative = "less" )

Mann-Whitney U検定(別名、ウィルコクソン順位和検定)を使用しても同じp値になります
install.packages("exactRankTests")
wilcox.exact(x,y,alternative="less")

ウィルコクソン検定
x<-c ( 5,9 )   平均 = 7
y<-c ( 6,12,14,16 )   平均 = 12
帰無仮説:xの母平均=yの母平均
対立仮設:xの母平均<yの母平均 (片側確率)
上記のデータに全て順位をつけます
xp <- c ( 1 , 3 ) m=2個
yp <- c ( 2 , 4 , 5 , 6 )  n=4個

近似値でもとめてみます
p値=P(Z<= { xの順位和-m ( m + n + 1 ) / 2 } / √{ m*n * ( m + n + 1 ) / 12 } )
Zは標準正規分布に従う確率変数.
p値=P(Z<= ( 4 - 2*7/2 ) / sqrt ( 2*4*7/12 ) =  - 1.38873
pnorm ( - 1.38873 
=  0.08245743となり並び替え検定の結果と異なります.
少数のデータから正規近似によってp値を算出すると、近似の精度が悪いp値が算出されるので注意が必要です.したがって、サンプルサイズが小さい場合には上述のようなexact p valueを求めます.
wilcox.exact(x,y,alternative="less")
または
perm.test ( x , y , conf.int = TRUE , exact = TRUE , alternative = "less" )

 

水本 篤(2010)より引用
コンピュータの発達により、並べ替え検定や正確確率検定を行うのは無理ではなくなったので、わざわざp値の近似値を求める従来のパラメトリック検定やノンパラメトリック検定よりも、直観的かつ、かわりやすい結果が得られるといえるだろう.

 

参考
柳川 堯 , 荒木 由布子; バイオ統計の基礎―医薬統計入門,近代科学社 ,2010,p162-164
水本 篤:統計数理研究所共同研究リポート 238『言語コーパス分析における数理データの統計的処理手法の検討』(2010) pp. 1–14