有意差とは・・・?
乱数を発生させて、set.seed( )で記憶させてシミュレーションしてみます
乱数なので再現できませんが、set.seed( )を使用することで再確認できます
set.seed(1) #もう一度確かめたいときはset.seed( )で乱数を記憶させておきます.( )の中は何でもOK. x20 <- rnorm(20,3.25,2.25) #平均3.25,標準偏差2.25のデータ(乱数)20個 set.seed(2) y20 <- rnorm(20,2.12,1.95) #平均2.12,標準偏差1.95のデータ(乱数)20個 t.test(x20,y20) #独立した2群の差の検定を実施してみます Welch Two Sample t-test data: x20 and y20 t = 1.808, df = 37.999, p-value = 0.07852 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.1409049 2.4959643 sample estimates: mean of x mean of y 3.678679 2.501149 ♯ p-value = 0.07852 危険率0.05でも有意差は認められませんでした・・・
次に同じ平均値、同じ標準偏差で100個ずつ用意して、検定してみます
set.seed(3) x100 <- rnorm(100,3.25,2.25) set.seed(4) y100 <- rnorm(100,2.12,1.95) t.test(x100,y100) Welch Two Sample t-test data: x100 and y100 t = 3.6836, df = 196.81, p-value = 0.0002971 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.4491119 1.4841008 sample estimates: mean of x mean of y 3.274830 2.308224 P = 0.0002971 危険率0.01でも有意差あり!
統計量(この場合はt値)を考えれば当然の結果なのですが、
まだこのことに気づかずに有意差のみで議論している理学療法士も多いようです.
独立した2群であれば、それぞれのサンプルを増やすことで有意差を出すことが可能になります!
では、箱ひげ図で確認してみます
boxplot(x20,y20,x100,y100,xaxt="n") name<-c("x20","y20","x100","y100") axis(side=1,at=c(1,2,3,4),labels=name)
x20とy20に有意差がなくて、x100とy100に有意差がある・・・ようには見えませんね!
平均値と標準偏差が等しい正規分布からの乱数ですので、同じような箱ひげ図になるのは当然です.
x20とy20に有意差がなくて、x100とy100に有意差があるという結果の理解に苦しみます.
ここに数字のマジックが隠れています.
どのように有意差検定を実施しているのか、理解することが必要になります.
以下のページで、n増加→統計量大→p値小の構図が理解できると思います.
さて次はどうでしょうか?
# x20,y20の平均値は同じで、標準偏差を1/10にしてみましょう set.seed(5) x202 <- rnorm(20,3.25,0.225) set.seed(6) y202 <- rnorm(20,2.12,0.195) t.test(x202,y202) Welch Two Sample t-test data: x202 and y202 t = 15.657, df = 37.994, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.8960426 1.1621642 sample estimates: mean of x mean of y 3.186874 2.157771 # p-value = 2.2e-16 危険率0.01でも有意差あり!
箱ひげ図で確認してみましょう.
平均値が同じでも、ばらつき(分散、標準偏差)に違いがあれば統計結果は異なります.
有意差に一喜一憂するのではなく、サンプル数や分散、またそのデータがもつ性質をよく考えて、差を考察するべきです.P値よりも信頼区間や効果量などが比較の参考になるでしょう.
yoshida931.hatenablog.com