理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

Z検定

Z検定
投稿日2017.9.19

記号の定義

母平均μx, 母分散σx, 標本x, サイズm, 標本平均xa
母平均μy, 母分散σy, 標本y, サイズn, 標本平均ya

平均値のZ検定

2標本平均の差の検定 - 統計学備忘録 since2016より
平均値の標準誤差=\sqrt{V(xa)=\frac{σx^2}{m}}\ =\ \frac{サンプルの標準偏差}{\sqrt{サンプルサイズ}}
Z=\frac{(xa-μx)}{\sqrt{\frac{σx^2}{m}}}

問題 xa=38,σx=15, n=100, α=0.05 で次の帰無仮説を検定せよ!
帰無仮説H0:μx = 40 対立仮説H1:μx ≠ 40
(出典:村上 正康,安田 正実; 統計学演習, 培風館,1989,p119)
上記のような問題は次のように書き換えて記憶しておくとよいと思います.(現実的ではないのですが)十分大きなサンプル(n=100)の平均が38、分散が15だった場合に、その母集団の平均は40であることを有意水準0.05で検定せよ.
以下Rで計算してみます

z <- (38 - 40) / sqrt(15^2/100)
- 1.959964 = -1.33
qnorm(0.025,lower.tail = T)
= - 1.959964
z>- 1.959964のため帰無仮説は採択される
pnorm(z,lower.tail = T)
= 0.09121122

f:id:yoshida931:20170919125119j:plain:w500
水色の部分の面積が0.09121122ということになります.したがって、有意水準0.05で母集団の平均は40であると言えます.またサンプル数が少ない場合にはt分布を使用した検定になります.ちなみにこの図の描き方は・・・polygonという関数を使うらしいです.http://cse.naro.affrc.go.jp/takezawa/r-tips/r/51.html

plot(dnorm, -4, 4, xaxt="n")
xvals <- seq(-4, -1.33, length=10)        # -4以上-1.33以下 領域をx軸方向に10個の多角形(台形)に等分割
dvals <- dnorm(xvals)             # 対応するグラフの高さ
polygon(c(xvals,rev(xvals)),
        c(rep(0,10),rev(dvals)),col=5)            # 塗りつぶす
name<-c("-1.96","-1.33","0")
axis(side=1,at=c(-1.96,-1.33,0),labels=name)         #指定した場所にnameを挿入

平均値の差のZ検定

平均値の差の標準誤差
V(xa-xy)=V(xa)+V(xy)   分散の加法性
V(xa)=\frac{σx^2}{m}, V(ya)=\frac{σy^2}{n}

平均値の標準誤差 = {\sqrt{\frac{σx^2}{m}+\frac{σy^2}{m}}}

Z=\frac{(xa-ya)-(μx-μy)}{\sqrt{\frac{σx^2}{m}+\frac{σy^2}{m}}}

問題 xa=22.31, xy=21.54, σx=3.8, σx=3.2, m=50, n=40, α=0.05 で次の帰無仮説を検定せよ.また2群の差の95%信頼区間を求めてよ.
帰無仮説H0:μx = μy 対立仮説H1:μx ≠ μy
(出典:村上 正康,安田 正実; 統計学演習, 培風館,1989,p119)
上記のような問題は次のように書き換えて記憶しておくとよいと思います.
m=50、平均22.31、分散3.8 と n=40、平均21.54、分散3.2 の2群には差がないことを有意水準0.05で検定せよ.

z <- (22.31-21.54)/sqrt(3.8^2/50 + 3.2^2/40)
z = 1.043211
qnorm(0.025,lower.tail = F)
= 1.959964
  #  z<1.959964のため、帰無仮説は採択され、2群には差がないという検定結果になります
2群の差の95%信頼区間は
(22.31-21.54) - 1.959964 * sqrt(3.8^2/50 + 3.2^2/40)
=-0.6766606
(22.31-21.54) + 1.959964 * sqrt(3.8^2/50 + 3.2^2/40) 
= 2.216661
  # -0.6766606 < 2群の差 < 2.216661 より2群には差がないことが推測できます.

比率のZ検定

確率変数Xが二項分布B(n,p)に従う場合、期待値E[X]=np, 分散V[X]=np(1-p)となります.nがある程度大きい場合に、比率pの推定値としてp'=x/n を用います. n=5の場合yesが3回でたらP(YES)=3/5.
p'の期待値はE(p')=p
p'の分散はV(p')=V(x/n)=\frac{V(x)}{n^2}=\frac{np(1-p)}{n^2}=\frac{p(1-p)}{n}

比率の標準誤差={\sqrt{\frac{p(1-p)}{n}}}

z=\frac{p'-p}{\sqrt{\frac{p(1-p)}{n}}}

問題  ある月に1020人を調査したところ内閣支持率は57%でした.内閣支持率の95%信頼区間を推定せよ.

z <- (0.57 - p)/sqrt(0.57*0.43/1020) # ~N(0,1)
pmi <- 0.57-z*sqrt(0.57*0.43/1020) # 下限
pma <- 0.57+z*sqrt(0.57*0.43/1020) # 上限
z <- qnorm(0.025,lower.tail = F) # p値0.025のときのZ値
0.5396178 < p < 0.6003822

比率の差のZ検定

比率の標準誤差={\sqrt{\frac{p(1-p)}{n}}} より比率の分散は\frac{p(1-p)}{n}
例としてYes, Noの割合を考えます.サイズmのA群のyesの比率をp1, サイズnのB群のyesの比率をp2とします.p1-p2の期待値はE(p1-p2), p1-p2の分散はV(p1-p2)=V(p1)+V(p2)・・・分散の加法性より.

比率の差の標準誤差=\sqrt{{\frac{p1*(1-p1)}{m}+\frac{p2*(1-p2)}{n}}}

A群、B群の母集団の比率をP1、P2とした場合

z = \frac{(p1-p2)-(P1-P2)}{\sqrt{\frac{p1*(1-p1)}{m}+\frac{p2*(1-p2)}{n}}}

どんなときに使用するか?まずはクロス表から考えてみます.
問題 男性530人、女性580人にある質問した場合に、yesと答えた割合は男性0.24、女性0.30だった.慌て者は迷わず女性が多いと考えると思います.この回答結果に有意差(α=0.05)はあるのでしょうか?帰無仮説H0:P1=P2

z <- (0.25-0.30)/sqrt(0.25*0.75/530+0.30*0.70/580)
z = -1.868793
qnorm(0.025, lower.tail = T)
= -1.959964
z > -1.959964
-0.1024393 < P1-P2 < 0.002439296
したがって帰無仮説は採択され、男女の割合に差は認められない.

仮説検定のP値や信頼区間は「自分があわて者である」かどうかを教えてくれる.それをどう活かすかというところにこそ、あなたの経験と勘を活かせばいいのである.

西内 啓; 統計学が最強の学問である[実践編]---データ分析のための思想と方法, ダイヤモンド社, 2014