理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

Rstudioの小ネタ (パッケージやファイルの保存方法)

Rstudioを閉じても、PC再起動してもファイルの読み込みやインストールしたパッケージは残せます (ただしパッケージは休んでいますので、起動するときにはlibraryで起こしましょう) データ処理する前に必ず行う作業は以下の通りです まずRstudioを起動さ…

Rで簡単 多重ロジスティック回帰分析

サンプルはRのmtcarsを使用します.車に詳しくないので回帰分析に相応しいサンプルか分かりませんが、学習のため数値のみ使用させていただきます. サンプルから直接取り込み dat <- mtcars[,c(8,2,5,6)] #ここがポイント8列目を応答変数として、2列目・5列目…

ロジスティック回帰分析(説明変数が単一かつ連続の場合)

投稿日:2018.2.13 最終更新日:2018.5.17 ロジット関数とロジスティック関数 準備として関数の特徴を押さえておきます ロジット関数 (標準)ロジスティック関数ロジット関数の逆関数= mathwords.net サンプルirisより 品種"virginica=1"、"別の品種=0"という…

相関係数のイメージ

パッケージmvtnormを使用して相関係数0.0, 0.2, 0.5, 0.7, 0.8, 0.9のグラフを作成してみます install.packages("mvtnorm") library(mvtnorm) 共分散行列.分散を全て1に設定しているので共分散=相関係数となります. sigma00 <- matrix(c(1,0,0,1), ncol=…

変数の呼称について(目的変数と説明変数)

それぞれの研究界のご意見はあると思うのですが・・・ ややこしや 目的変数 は以下のように呼ばれています 目的変数 objective variable 応答変数 response variable 反応変数 reaction variable(response variable ) 結果変数 outcome variable 従属変数 …

2変量の正規分布をグラフでイメージ(persp)

また、ここで勉強させていただきました. http://cse.naro.affrc.go.jp/minaka/R/R-binormal.html 忘れないように要点のみ転記させていただます.まさに備忘録. 今回はRの関数perspを使用して、密度関数の数式から3Dのグラフを描いてみます 確率変数x1…

2変量の正規分布をグラフでイメージ(scatterplot3d)

ここで勉強させていただきました. http://cse.naro.affrc.go.jp/minaka/R/R-binormal.html 忘れないように要点のみ転記させていただます. 必要なパッケージをインストールします install.packages("mvtnorm") library(mvtnorm) install.packages("scatterp…

Fisherの直接法

投稿日:2017-10-25、最終更新日:2018-05-02 Fisherの正確確率検定やFisherの直接確率検定、他にFisherの正確検定などと呼ばれています(統一してくれれば良いのにといつも思います).もともとカイ二乗検定は近似法でP値を求めています.一つのセルに度数が4以…

逆関数のグラフ

の逆関数は y <- function(x){ x } y1 <- function(x){ 2*x-2 } y2 <- function(x){ (x+2)/2 } plot(y,xlim = c(-2,4),ylim=c(-2,4),col=2,ann=FALSE, axes=FALSE) #ann軸ラベル axes軸 par(new=T) plot(y1,xlim = c(-2,4),ylim=c(-2,4),ann=FALSE, axes=FAL…

分散共分散行列 相関のあるサンプル作成

データセットから分散共分散行列を求めてみます x1 <- c(151, 164, 146, 158) x2 <- c(48, 53, 45, 61) x3 <- c(8, 11, 8, 9) data <- data.frame(x1,x2,x3) #分散共分散行列 var(data) x1 x2 x3 x1 62.25000 38.250000 10.333333 x2 38.25000 48.916667 4.3…

正規分布の重ね描き

text関数でグラフに文字の挿入 curve(dnorm(x, -2, 4), from=-10, to=10, ylim=c(0,0.4),ylab ="") text(-5, 0.1, "N(-2,4)") par(new=T) curve(dnorm(x,3, 1), from=-10, to=10, ylim=c(0,0.4),ylab ="") text(1.5, 0.3, "N(3,1)") par(new=T) curve(dnorm(…

データ取り込みと保存

クリップボードから一覧表の形式に取り込み エクセルなどの一覧表から必要な部分をコピーします. その後、いかのような操作でRに取り込むことができます. #x のなかに一覧表として取り込みます x <- read.table("clipboard",header = T) #xを確認すると I…

ベータ分布

完全独習 ベイズ統計学入門作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2015/11/20メディア: 単行本(ソフトカバー)この商品を含むブログ (6件) を見る この本を参考にベータ分布を勉強します. ベータ分布:ベータ関数により導かれる分布. ベイ…

カッパ係数

個人的によく利用させていただいております以下のHPをもとに、今回はカッパ係数について少し勉強してみます 統計学入門−第5章 まずはHPに掲載してある次のサンプルデータを使用して、Rを使って処理してみます 分類数が2つの場合 rater01<-c(rep(1,40),rep(2,…

データフレームからの抽出 2

準備 下のデータをコピーして、Rでフレームにします 実験A 10 6 10 9 10 実験B 10 5 5 12 4 実験C 5 4 11 4 6 実験D 9 5 2 3 1 コピーして、データフレームに取り込み (x <- read.table("clipboard",row.names = 1)) V2 V3 V4 V5 V6 実験A 10 6 10 9 10 実験…

分散分析の基本

最終更新日:2018.3.5 まだ理解できていない.なので書き直し・・・ 一元配置分散分析 言葉の整理 要因(factor), 因子(factor):実験結果に影響を与える要素.それぞれの分野で使い分ける場合もあるので注意.このブログでは要因と因子の区別をせず「要因」で統…

共分散構造分析(パス図の描き方)

Rを使ったパス図作成の方法を忘れないうちに簡単に書いておきます 青木先生のデータを借用しまして勉強していきます. R -- 因子分析(factanal を援用する) dat <- matrix(c( -1.89, -0.02, 0.42, 1.23, -1.53, 0.06, 1.81, -0.59, -0.75, -0.12, 2.58, -0…

信頼区間のプロット

同じサイズのデータサンプルからt分布を利用した信頼区間の作図 まずは3×4の場合(サンプルサイズ3を4回実施する) x <- matrix(NA,nrow=3,ncol=4) #3×4の空セル for (i in 1:4){ #列数分乱数を代入 x[,i] <- rnorm(3) #標準正規分布の乱数を行数分繰り返…

ベイズの定理でモンティ・ホール問題を考える

最終更新日2018-02-21 モンティ・ホール問題は不完全燃焼だったので、再々挑戦したいと思います. 今回は下記の文献をもとにベイズの定理を使って勉強していきます. はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―作者: 豊田秀樹出版社/メ…

LaTeXでプレゼン

無料ソフトのみで統計からプレゼンまで! spss, word, power pointを使用しないで以下のような2枚のスライドを作ってみました. 使ったもの Hatena Blog R LeTeX 画像は オッズ比の信頼区間 - 統計学備忘録 since2016 からのコピペです %LaTexの記載は以下…

オッズ比の信頼区間

オッズ比、見込み比(odds ratio)または交差積比(cross-product) 前提 比は分母が小さくなると、数値が大きくなりすぎて正規近似の精度が悪くなります.比の対数であれば高い精度で正規近似することが可能になります. したがって、比の対数を考えていく…

リスク比の信頼区間

ポイント:比の対数をとり、正規近似する リスク比は疫学における指標の1つです.一般的には相対危険度(相対リスク,relative risk,RR)として利用されています. xm <- matrix(c("a","b","c","d"), nrow=2, byrow=T) name <- list("暴露"=c("あり(A群)","…

母比率の推定、母比率の差の検定

投稿日2017.6.19 更新日2018.1.30 比率の信頼区間 例)有権者から2,400人を無作為抽出した結果、1,250人は支持していたことがわかった.有権者の支持率の95%信頼区間を求めよ. 出典 日本統計学会 (編集); 日本統計学会公式認定 統計検定2級対応 統計学基…

有意差とは・・・?

乱数を発生させて、set.seed( )で記憶させてシミュレーションしてみます 乱数なので再現できませんが、set.seed( )を使用することで再確認できます set.seed(1) #もう一度確かめたいときはset.seed( )で乱数を記憶させておきます.( )の中は何でもOK. x20 …

平均

算術平均 arithmetin mean (=相加平均) 1回 10人 2回 15人 3回 8人 平均回数は (10*1+15*2+3*8)/(10+15+8) 度数分布からの平均 真の平均の近似値なので多少のズレが生じます 最初と最後の階級が少ない場合には無視して求めます(年収平均など) 無視できない…

移動平均

x <- runif(500,-1,1) #一様分布の乱数500個 plot(y2,type = "l") 二乗平均平方根(RMS) xr <-sqrt( x^2) 移動平均 install.packages("TTR") library(TTR) x5 <- SMA(xr, 5) # 移動平均間隔5 plot(x5,type = "l") x10 <- SMA(xr, 10) # 移動平均間隔10 plot…

データフレームからの抽出

例)ChickWeightからDietの1と3だけ抜き出す subset(ChickWeight,subset = Diet==c(1,3)) 例)iris アヤメ head(iris,5) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 …

二項分布の最尤推定法 

母集団Aの成功率0.7をパラメータとして、この母集団のサンプルから考えていきます.成功率0.7、試行回数10回の二項分布の乱数を1000個生成して母集団Aとします. y <- rbinom(1000,10,0.7) head(y) #最初の6データを確認してみます [1] 6 7 6 4 9 8 #成功率…

ベイズの定理

ベイズの定理とは「観測値(データ)で条件付けられた、母数の分布を与える定理 」です #Rのサンプル women$height を使用します x <- women$height #標本平均 me <- mean(women$height) =65 #標本標準偏差 sd <- sqrt(sum((x - mean(x))^2) / length(x)) =4…

このブログの参考・引用文献

投稿日 2016-10-31最終更新日 2017-12-29 文献:著者五十音順 巨人の肩に乗らねば・・・ 石井一夫 ;Rとグラフで実感する生命科学のための統計入門, 羊土社 ,2017石田 基広 ;改訂3版 R言語逆引きハンドブック ,シーアンドアール研究所; 改訂3版,2016石田 基広 ;R…