理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

単回帰分析

投稿日2017.2.2
更新日2017.8.1


線形回帰分析
説明変数と目的変数を直線関係で傾向を示す。
説明変数と目的変数との関係を直線でモデル化する回帰分析。

 

非線形回帰分析
非線形関係でモデル化する回帰分析。
説明変数と目的変数を非直線的関係で傾向を示す。

以下のように定義します
観測値 ( xi , yi )
観測値の平均値 ( my , mx )

 

母回帰方程式を Yi = B0 + B1 * Xi  + Ei とします
   (Xiは確率変数ではなく確定した値)
母回帰係数 B0、 B1 
誤差項 Ei 期待値=0、分散=σ^2 (一定)

 

最小二乗法による回帰係数の決定
母回帰方程式の誤差項の二乗和(平方和)を最小にする回帰係数 β0 , β1 をもとめま
Yi = B0 + B1 * Xi  + Ei
誤差項 Ei = Yi -  B0 - B1 * Xi 
ここで ∑Ei ^2  =  S   とします
このSを最小にするβ0 , β1B0 , B1の推定値とします.

残差と誤差についてはこちら
27-3. 予測値と残差 | 統計学の時間 | 統計WEB

 

Ei = Yi -  B0 - B1 * Xi    より
S = ∑( Yi - ( B0 + B1 * Xi ) )^2
Sを最小にするB0B1を求めることで回帰直線を得る
SはパラメータB0B1の二次関数で最小値が存在します
そこでB0B1偏微分し、0に等しいとします

f:id:yoshida931:20170317200530p:plain

b0=B0,b1=B1として読んでください
いつか綺麗に書き直します

 

標本回帰係数 β1 , β0  
偏回帰係数   β1 = ∑ ( Xi - X平均 )*( Yi - Y平均 )  ÷  ∑ ( Xi - X平均 )
y切片   β0 = Y平均 - β1 * X平均

標本回帰方程式、標本回帰直線(予測式)
y' = β0 + β1*xi 

f:id:yoshida931:20170801140902p:plain

 

次のサンプルを使って考えていきます
yi<-c(114,124,143,158,166)
xi<-c(35,45,55,65,75)
         出典)統計学入門 ,東京大学出版会,p42,1991

 

平均を求めます
my <- mean ( yi )
141
mx <- mean ( xi )
55

最小二乗法より偏回帰係数を求めます
β1 <- sum ( ( yi - my ) * ( xi - mx ) ) / sum ( ( xi - mx )^2 )
1.38

Y切片
β0<- my - β1  * 55

65.1

回帰モデル
y' = 65.1 + 1.38 xi

 

平方和の分解
観測値の平方和(全変動)をSyとします
Sy = ∑ ( yi - my ) ^2
   = ∑ { ( yi - y' ) + ( y' - my ) } ^2
   = ∑ ( yi - y') ^2 + ∑ ( y' - my ) ^2 + ∑ ( yi - y' ) * ( y' - my )
となります
ここで∑ ( yi - y' ) * ( y' - my ) を考えてみます
予測値と残差の相関は0になります(証明は省略)
∑ ( yi - y' ) * ( y' - my ) = 0 

 

全変動
Sy
=  ∑ ( yi - y' ) ^2 + ∑ ( y' - my ) ^2
=1936

 

回帰により説明されない変動( 残差二乗和、誤差二乗和 
自由度 = 1
Se = ∑ ( yi - y' ) ^2   
=31.6

 

回帰により説明される変動
自由度 = (データ数 - 1) -1 = 5 - 2 = 3
SR∑ ( y' - my ) ^2
=1904.4

 f:id:yoshida931:20170801142946p:plain

 


この回帰方程式に実測値 ( xi , yi ) を当てはめると、
回帰式の値と実測値の間にはズレが生じます
ei = yi - y' = yi - ( β0 + β1*xi  ) 
ei : 回帰残差 (誤差とは異なります)

 

推定値の標準誤差 (Residual standard error)
誤差項 Ei の分散 σ^2 は、回帰方程式のあてはまりの良さ表します.
その値を回帰残差で推定します

                   f:id:yoshida931:20170802082254p:plain
s2 = ( ∑ ei ^ 2  ) ÷ ( n - 2 ) 
s2 <- ( sum ( ei ^ 2 ) ) / ( 5 - 2 )
sqrt ( s2 ) = 3.24551
sのことを推定値の標準誤差といい、この値が小さければ小さいほど回帰式は良く適合していると考えます.

 

単回帰の決定係数
観測値の平方和(全変動)Sy は回帰方程式で説明できる変動と説明できない変動に分けられる.決定係数は回帰方程式で説明できる変動の割合です.ピアソンの相関係数の二乗と同じ値.よいモデルは、残差二乗和 Se = ∑ ( yi - y' ) ^2 が小さく、寄与率が1に近いほど、よいモデルと言える.(重回帰の場合には、必ずしもそうではない)

 

決定係数(寄与率)
R^2 = 1 - ( ∑ ei ^ 2  ) ÷ ( ∑ ( yi - my )^2 )
  = ( ∑ ( y' - my ) ^2 ) / ( ∑ ( yi - my ) ^2 )
  = SR / Sy

      = 回帰方程式で説明できる変動の割合SR ÷ 全変動Sy 

sum( ( 65.1 + 1.38 * xi - my ) ^2 ) / sum ( ( yi - my ) ^2 )
0.9836777

        = (cor(yi,xi))^2      # "pearson" (default),

 

偏回帰係数の検定
帰無仮説:母集団において説明変数が目的変数を全く説明していない.(β1=0

母回帰係数 B0、 B1 の検定を行うためには、回帰係数 β0 , β1 の標本分布について知る必要があります.
β1の標本分布は

f:id:yoshida931:20170801163549p:plain

に従います.(証明省略)

ガウス・マルコフの定理を理解後に証明します

σ^2は未知なので回帰残差を使用してt 統計量を求めます.

f:id:yoshida931:20170814130832p:plain

 

サンプル
yi<-c(114,124,143,158,166)
xi<-c(35,45,55,65,75)
xiが
yiを説明するかどうかを検定してみます.
帰無仮説 H0 : β1=0 、xiはyiと正の相関がありそうなので、対立仮説は H1 : β1>0 となります.
サンプルのt値を求めてみます. 
s= Se / ( n - 2 ) = sum ( (yi - ( 65.1+1.38 * x) )^2) / ( 5 - 2) = 10.53333
xの偏差平方和 = sum( ( xi - mean( xi ) )^2) = 1000
t = 1.38 / sqrt ( 10.53333 / 1000 ) = 13.4461
p値 = (1 - pt ( 13.4461, 3 ) )*2 = 0.000889

有意水準1%で回帰係数 β1 の値が信頼できるので、ほぼ確実に母回帰係数B1は0ではないと言える.したがって「説明変数xが目的変数yに影響を与えており、回帰方程式は有意である」ことが考えられる.結果の解釈が重要になります.この結果から「サンプルデータが直線上にある」という結果にはなりません.

 

分散分析
F分布を利用して求めた回帰式が予測に役立つかどうかを検定します

帰無仮説は H0 「求められた回帰モデル y=65.1+1.38x では、x を説明変数として Y の変動は説明できない」

X^2とY^2 がそれぞれ自由度m1とm2のカイ二乗分布に従う互いに独立な確率変数の場合.F =  ( X^2 / m1 ) / ( Y^2 / m2 )  は自由度( m1 , m2 ) のF分布に従う.

 

 単回帰分析の分散分析表
f:id:yoshida931:20170801173907p:plain
F( 1 , n-2 ) は、自由度 [ n-2 , 1 ] のF分布に従う確率分布です.有意水準5%でp値≦0.05のときには、回帰モデルは目的変数yの変動の説明に有意に役立っていると判定しいます.

 

サンプルのF値を求めてみます
1904.4 / ( 31.6 / ( 5 - 2 ) ) = 180.7975

 

Rの関数を使って確認してみます
yi<-c(114,124,143,158,166)
xi<-c(35,45,55,65,75)
summary(lm(formula=yi~xi) )

Call:
lm(formula = yi ~ xi)
Residuals:
   1    2    3    4    5
 0.6 -3.2  2.0  3.2 -2.6

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  65.1000     5.8284   11.17 0.001538 **
xi            1.3800     0.1026   13.45 0.000889 ***
---
Signif. codes: 
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.246 on 3 degrees of freedom
Multiple R-squared:  0.9837,    Adjusted R-squared:  0.9782
F-statistic: 180.8 on 1 and 3 DF,  p-value: 0.0008894

 

散布図と回帰直線
plot(xi,yi)
abline(lm(yi~xi))

f:id:yoshida931:20170613173429p:plain

 

参考) 豊田秀樹 (著, 編集);回帰分析入門 (Rで学ぶ最新データ解析) ,東京図書 ,2012