理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

単回帰分析

投稿日2017.2.2
更新日2017.7.1


線形回帰分析
説明変数と目的変数を直線関係で傾向を示す。
説明変数と目的変数との関係を直線でモデル化する回帰分析。

非線形回帰分析
非線形関係でモデル化する回帰分析。
説明変数と目的変数を非直線的関係で傾向を示す。

 
以下のように定義します
観測値 ( xi , yi )
観測値の平均値 ( ya , xa )
予測式 y' = b0 + b1*xi

 

f:id:yoshida931:20170701220403p:plain

最小二乗法を用いて回帰係数を求めます
残差の二乗和(残差平方和)を最小にする回帰係数をもとめます

     yi = b0 + b1*xi + ei
     残差ei ( yi - y' )
     残差平方和 Q( b0 , b1 )


最小二乗基準

Q(b0,b1) = ∑ ei ^2  =  ∑ { yi - ( b0 b1xi ) }^2    


最小二乗法
Q(b0,b1) を最小にするb0とb1を求めることで回帰直線を得る
Q(b0,b1) はパラメータb0b1の二次関数で最小値が存在します
そこでb0b1偏微分し、0に等しいとします

 

f:id:yoshida931:20170317200530p:plain
Y=b0+b1*x1
この式をyのx上への回帰方程式、あるいは回帰直線といいます
b0 : y切片
b1 : 偏回帰係数

 

Rを使ってみます
出典)統計学入門 ,東京大学出版会,p42,1991
yi<-c(114,124,143,158,166)
xi<-c(35,45,55,65,75)

平均を求めます
(ya<-mean(yi))
141
(xa<-mean(xi))
55

偏回帰係数
B<- sum ( ( yi - ya ) * ( xi - xa ) ) / sum ( ( xi - xa )^2 )
1.38

Y切片
A<- ya - 1.38 * 55
65.1
y=65.1+1.38x

平方和の分解
観測値の平方和(全変動)をSyとします
Sy = ∑ ( yi - ya ) ^2
   = ∑ { ( yi - y' ) + ( y' - ya ) } ^2
   = ∑ ( yi - y' ) ^2 + ∑ ( y' - ya ) ^2 + ∑ ( yi - y' ) * ( y' - ya )
となります
ここで∑ ( yi - y' ) * ( y' - ya ) を考えてみます
予測値と残差の相関は0になります(証明は省略)
∑ ( yi - y' ) * ( y' - ya ) = 0 

したがって
     Sy     =  ∑ ( yi - y' ) ^2 + ∑ ( y' - ya ) ^2

∑ ( yi - y' ) ^2
回帰により説明されない変動( 残差二乗和、誤差二乗和 
自由度 = 1

∑ ( y' - ya ) ^2
回帰により説明される変動
自由度 = データ数 - 1 = 10 - 1

分散分析
X^2とY^2 がそれぞれ自由度nとmのカイ二乗分布に従う互いに独立な確率変数の場合.
F =  ( X^2 / n ) / ( Y^2 / m )  は自由度( n , m ) のF分布に従う.
F = ( 回帰により説明される変動 / n ) / ( 残差二乗和 / m )

単回帰の決定係数
回帰変動が全変動に対する割り合い. 
よいモデルは、残差二乗和が小さい.つまり∑ ( yi - y' ) ^2 が小さい.  
ピアソンの相関係数の二乗と同じ値.
1に近いほど、よいモデルである.(重回帰の場合には、必ずしもそうではない)

決定係数   R^2 = 1 - ( ∑ ( yi - y' ) ^2 /  ∑ ( yi - ya ) ^2 )
                        = ( ∑ ( y' - ya ) ^2 ) / ( ∑ ( yi - ya ) ^2 )

決定係数を求めてみます
決定係数<-sum( (65.1+1.38*xi-ya)^2)/sum( (yi-ya)^2)
0.9836777

Rの関数を使って確認してみます
yi<-c(114,124,143,158,166)
xi<-c(35,45,55,65,75)
summary(lm(formula=yi~xi) )

Call:
lm(formula = yi ~ xi)

Residuals:
   1    2    3    4    5
 0.6 -3.2  2.0  3.2 -2.6

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  65.1000     5.8284   11.17 0.001538 **
xi            1.3800     0.1026   13.45 0.000889 ***
---
Signif. codes: 
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.246 on 3 degrees of freedom
Multiple R-squared:  0.9837,    Adjusted R-squared:  0.9782
F-statistic: 180.8 on 1 and 3 DF,  p-value: 0.0008894

 

散布図と回帰直線
plot(xi,yi)
abline(lm(yi~xi))

f:id:yoshida931:20170613173429p:plain

参考) 豊田秀樹 (著, 編集);回帰分析入門 (Rで学ぶ最新データ解析) ,東京図書 ,2012