理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

平均と分散

平均と分散

投稿日2016.11.9

更新日2017.8.25

 

未だにピンときてない自分のために 更新します

( 1 , 2 , 3 , 4 , 5 , 6 ) がデータxの場合

x<-c( 1 , 2 , 3 , 4 , 5 , 6 )

データxの平均

sum( x ) / length( x )

= mean( x )

= 3.5

データxの二乗平均

sum( x^2 ) / length( x )

= 15.16667

データxの分散

sum( ( x - mean ( x ) ) ^2 ) / length ( x )

= sum( x^2 ) / length ( x ) - ( mean ( x ) ) ^2

= var( x )*( length ( x ) -1 ) / length ( x )

= 2.916667

データxの標準偏差

sqrt( データxの分散 )

= sqrt( ( 1/length( x ) )*sum( (x-mean(x))^2 ) )

= sqrt( sum( x^2 ) / length ( x ) - ( mean ( x ) ) ^2)

= 1.707825

 

( 1 , 2 , 3 , 4 , 5 , 6 ) が確率変数の場合 (例:離散型)

f(x) は確率密度関数

例)サイコロ 

X=(1,2,3,4,5,6)

その期待値 E[X]は…

E[X] = ∑x*f(x) 

= 1*(1/6)+2*(1/6)+3*(1/6)+4*(1/6)+5*(1/6)+6*(1/6)

= (1/6)*sum(x)

= 3.5

その分散 V[X]

V[X] = E{ ( X - E[X] )^2 }

= ∑( x - E[X] )^2 * f(x) 

= (1-3.5)^2*(1/6)+(2-3.5)^2*(1/6)+(3-3.5)^2*(1/6)+(4-3.5)^2*(1/6)+(5-3.5)^2*(1/6)+(6-3.5)^2*(1/6)

= E[X^2]-(E[X])^2

= (1/6)*sum(x^2)-( (1/6)*sum(x))^2

= 2.916667

 

上記の「データXの場合」と同じなのですが、もしサイコロに細工がしてあれば答えは違います.例えば、X=6の確率だけ1/3 だったら、当然期待値は大きくなります.

 

E[X] = 1*(1/6)+2*(1/6)+3*(1/6)+4*(1/6)+5*(1/6)+6*(1/5)

= 3.7

V[X] = (1-3.7)^2*(1/6)+(2-3.7)^2*(1/6)+(3-3.7)^2*(1/6)+(4-3.7)^2*(1/6)+(5-3.7)^2*(1/6)+(6-3.7)^2*(1/5)

= 3.133

分散の演算の重要な性質

V( 定数 ) = 0

V( X + 定数 ) = V(X)

V( cX ) = c^2*V(X)

証明  var.jpg - Google ドライブ

( 1 , 2 , 3 , 4 , 5 , 6 ) が標本の場合・・・統計的推測

 母集団から分析のために選びだされた要素、またはその属性値を標本(サンプル)と呼ぶ.東京大学出版会;統計学入門,2004,p176)

標本( 1 , 2 , 3 , 4 , 5 , 6 )が、母集団分布( 母平均 μ , 母分散 σ^2 )に従う独立な確率変数と考えてみます.

標本平均 = ( 1 + 2 + 3+ 4 + 5 + 6 ) / 6 = 3.5

 

標本平均の期待値

E[ 標本平均 ]  

=  E ( ( 1 + 2 + 3+ 4 + 5 + 6 ) / 6 )

=   ( E(1) + E(2) + E(3) + E(4) + E(5) + E(6) )  /  6

=  ( 母平均+母平均+母平均+母平均+母平均+母平均 ) / n

=  母平均

つまり E[ 標本平均 ]  = 母平均

 

標本平均の分散

V[ 標本平均 ]  
= V ( ( 1 + 2 + 3+ 4 + 5 + 6 ) / 6 )

=V  ( 1 + 2 + 3+ 4 + 5 + 6 )  /  6 ^2

=(母分散+母分散+母分散+母分散+母分散+母分散) /  n ^2

母分散 / n

n → ∞ の場合、V[ 標本平均 ]  は0に近づいていき標本平均は母平均に収束していきます.

 

標本分散

s^2 = {(1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2} / (6 - 1)
= sum( ( x-sum ( x ) / length( x ) ) ^2 ) / ( length( x ) - 1 )

= var( x )

= 3.5

 

 

標本分散の期待値

E[s^2] = 母分散 σ^2

したがってs^2 を 母分散 σ^2の不偏推定量不偏分散という.

sを不偏標準偏差ともいう.

 

なぜn-1で割るのか?

n-1で除すること.jpg - Google ドライブ

 

不偏ではない標準偏差

S^2 = {(1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2} / 6
= var( x )*( length( x ) - 1 ) / length( x )

= 2.916667

高校数学より

分散={(1-平均)^2+(2-平均)^2+(3-平均)^2+(4-平均)}/4

これを地道に分解したら

=(1^2+2^2+3^2+4^2)/4 - 平均^2 になる!

つまり(不偏ではない)分散 =

(sum(x^2) / length(x)) - ( mean (x) )^2

 

標準誤差

平均値の標準誤差とは「同じ条件で複数回調査と平均値の算出を繰り返した場合の平均値の標準偏差」である(西内 啓; 統計学が最強の学問である[実践編],ダイヤモンド社, 2014

 

データx = ( x1 , x2 ,・・・ , xn )

データxの平均 = xa

 

平均値の分散 (真の平均値とのズレの期待値)=E [ (平均xa - 母平均μ ) ^2 ]

= V[xa]

= V [ ( x1 + x2 +・・・ + xn ) / n ]

= V [ ( x1 + x2 +・・・ + xn) ]  / n^2

=   ( V[x1] + V[x2] +・・・+V[xn] ) / n^2

= n*σ^2 / n^2

= σ^2 / n

平均値の標準誤差 SE

= √ 平均値の分散

= σ / √ n

 

標本xの標本分布は正規分布N( μ , σ^2 / n )に従います

Z = ( 標本平均 - 母平均 ) / SE

 

しかし推定の場合には母分散は未知の場合が多い.そこで・・・

 

標本平均の標準誤差 se

標本平均の分散の不偏推定量はs^2

se^2  =  s^2  /  n

se  =  s / √ n

 

このseを使用してt統計量を求めます

t = ( 標本平均 - 母平均 ) / se

これは正規分布には従わず、自由度n-1のt分布に従います.