理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

単回帰分析

赤文字のみRで実行

 

線形回帰分析
説明変数と目的変数を直線関係で傾向を示す。
説明変数と目的変数との関係を直線でモデル化する回帰分析。

非線形回帰分析
非線形関係でモデル化する回帰分析。
説明変数と目的変数を非直線的関係で傾向を示す。

 

ここでは単回帰分析について解説します
以下のように定義します
観測値 ( xi , yi )
観測値の平均値 ( ya , xa )
予測式 y'= b0 + b1*xi

最小二乗法を用いて回帰係数を求めます
残差の二乗和(残差平方和)を最小にする回帰係数をもとめます

残差ei ( yi - y' )
残差平方和 Q( b0 , b1 )

Q(b0,b1) = ∑(yi-y')^2 = ∑{yi-(b0+b1*xi)}^2    最小二乗基準

Q(b0,b1) を最小にするb0とb1を求めることで回帰直線を得る

Q(b0,b1) はパラメータb0b1の二次関数で最小値が存在します
そこでb0b1偏微分し、0に等しいとします

 

f:id:yoshida931:20170317200530p:plain
Y=b0+b1*x1
この式をyのx上への回帰方程式、あるいは回帰直線といいます

b0 : y切片
b1 : 偏回帰係数

 

例)
統計学入門 ,東京大学出版会,p42,1991より
yi<-c(114,124,143,158,166)
xi<-c(35,45,55,65,75)

 

平均を求めます
(ya<-mean(yi))
141
(xa<-mean(xi))
55

 

偏回帰係数
B<-sum( (yi-ya)*(xi-xa) )/sum( (xi-xa)^2)
1.38

 

Y切片
A<-ya-1.38*55
65.1

y=65.1+1.38x

 

平方和の分解
次に平方和を分解してみます
観測値の平方和(または総平方和)をSyとします
Sy = ∑(yi-ya)^2
   = ∑{(yi-y')+(y'-ya)}^2
   = ∑(yi-y')^2+∑(y'-ya)^2+∑(yi-y')*(y'-ya)
となります
ここで∑(yi-y')*(y'-ya)を考えてみます
予測値と残差の相関は0になります(証明は省略)
ry'ei=Sy'ei/Sy'*Sei=0
Sy'ei=∑(yi-y')*(y'-ya)=0となります

したがって
     Sy     = ∑(yi-y')^2 + ∑(y'-ya)^2
     Sy     =    Sei      +    SR
観測値の平方和 =  残差平方和   +  回帰による平方和

 

決定係数
回帰直線で説明できる部分の割合
R^2 = SR / Sei
Se=0,R^2=1 完全に説明できる
SR=0,R^2=0 全く説明できない

さきほどの例の決定係数を求めてみます

決定係数<-sum( (65.1+1.38*xi-ya)^2)/sum( (yi-ya)^2)
0.9836777

 

Rの関数を使って確認してみます
summary(lm(formula=yi~xi) )

 

Call:
lm(formula = yi ~ xi)

Residuals:
   1    2    3    4    5
 0.6 -3.2  2.0  3.2 -2.6

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  65.1000     5.8284   11.17 0.001538 **
xi            1.3800     0.1026   13.45 0.000889 ***
---
Signif. codes: 
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.246 on 3 degrees of freedom
Multiple R-squared:  0.9837,    Adjusted R-squared:  0.9782
F-statistic: 180.8 on 1 and 3 DF,  p-value: 0.0008894

 

散布図と回帰直線
plot(xi,yi)
abline(lm(yi~xi))

f:id:yoshida931:20170613173429p:plain

参考) 豊田秀樹 (著, 編集);回帰分析入門 (Rで学ぶ最新データ解析) ,東京図書 ,2012