理学療法士がまとめたノート

統計学備忘録 since2016

Rを使って統計学を勉強するブログです

分散共分散行列 相関のあるサンプル作成

データセットから分散共分散行列を求めてみます x1 <- c(151, 164, 146, 158) x2 <- c(48, 53, 45, 61) x3 <- c(8, 11, 8, 9) data <- data.frame(x1,x2,x3) #分散共分散行列 var(data) x1 x2 x3 x1 62.25000 38.250000 10.333333 x2 38.25000 48.916667 4.3…

正規分布の重ね描き

text関数でグラフに文字の挿入 curve(dnorm(x, -2, 4), from=-10, to=10, ylim=c(0,0.4),ylab ="") text(-5, 0.1, "N(-2,4)") par(new=T) curve(dnorm(x,3, 1), from=-10, to=10, ylim=c(0,0.4),ylab ="") text(1.5, 0.3, "N(3,1)") par(new=T) curve(dnorm(…

データ取り込みと保存

クリップボードから一覧表の形式に取り込み エクセルなどの一覧表から必要な部分をコピーします. その後、いかのような操作でRに取り込むことができます. #x のなかに一覧表として取り込みます x <- read.table("clipboard",header = T) #xを確認すると I…

ベータ分布

完全独習 ベイズ統計学入門作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2015/11/20メディア: 単行本(ソフトカバー)この商品を含むブログ (6件) を見る この本を参考にベータ分布を勉強します. ベータ分布:ベータ関数により導かれる分布. ベイ…

カッパ係数

個人的によく利用させていただいております以下のHPをもとに、今回はカッパ係数について少し勉強してみます 統計学入門−第5章 まずはHPに掲載してある次のサンプルデータを使用して、Rを使って処理してみます 分類数が2つの場合 rater01<-c(rep(1,40),rep(2,…

データフレームからの抽出 2

準備 下のデータをコピーして、Rでフレームにします 実験A 10 6 10 9 10 実験B 10 5 5 12 4 実験C 5 4 11 4 6 実験D 9 5 2 3 1 コピーして、データフレームに取り込み (x <- read.table("clipboard",row.names = 1)) V2 V3 V4 V5 V6 実験A 10 6 10 9 10 実験…

分散分析の基本

最終更新日:2018.3.5 まだ理解できていない.なので書き直し・・・ 一元配置分散分析 言葉の整理 要因(factor), 因子(factor):実験結果に影響を与える要素.それぞれの分野で使い分ける場合もあるので注意.このブログでは要因と因子の区別をせず「要因」で統…

共分散構造分析(パス図の描き方)

Rを使ったパス図作成の方法を忘れないうちに簡単に書いておきます 青木先生のデータを借用しまして勉強していきます. R -- 因子分析(factanal を援用する) dat <- matrix(c( -1.89, -0.02, 0.42, 1.23, -1.53, 0.06, 1.81, -0.59, -0.75, -0.12, 2.58, -0…

信頼区間のプロット

同じサイズのデータサンプルからt分布を利用した信頼区間の作図 まずは3×4の場合(サンプルサイズ3を4回実施する) x <- matrix(NA,nrow=3,ncol=4) #3×4の空セル for (i in 1:4){ #列数分乱数を代入 x[,i] <- rnorm(3) #標準正規分布の乱数を行数分繰り返…

ベイズの定理でモンティ・ホール問題を考える

最終更新日2018-02-21 モンティ・ホール問題は不完全燃焼だったので、再々挑戦したいと思います. 今回は下記の文献をもとにベイズの定理を使って勉強していきます. はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―作者: 豊田秀樹出版社/メ…

LaTeXでプレゼン

無料ソフトのみで統計からプレゼンまで! spss, word, power pointを使用しないで以下のような2枚のスライドを作ってみました. 使ったもの Hatena Blog R LeTeX 画像は オッズ比の信頼区間 - 統計学備忘録 since2016 からのコピペです %LaTexの記載は以下…

オッズ比の信頼区間

オッズ比、見込み比(odds ratio)または交差積比(cross-product) 前提 比は分母が小さくなると、数値が大きくなりすぎて正規近似の精度が悪くなります.比の対数であれば高い精度で正規近似することが可能になります. したがって、比の対数を考えていく…

リスク比の信頼区間

ポイント:比の対数をとり、正規近似する リスク比は疫学における指標の1つです.一般的には相対危険度(相対リスク,relative risk,RR)として利用されています. xm <- matrix(c("a","b","c","d"), nrow=2, byrow=T) name <- list("暴露"=c("あり(A群)","…

母比率の推定、母比率の差の検定

投稿日2017.6.19 更新日2018.1.30 比率の信頼区間 例)有権者から2,400人を無作為抽出した結果、1,250人は支持していたことがわかった.有権者の支持率の95%信頼区間を求めよ. 出典 日本統計学会 (編集); 日本統計学会公式認定 統計検定2級対応 統計学基…

有意差とは・・・?

乱数を発生させて、set.seed( )で記憶させてシミュレーションしてみます 乱数なので再現できませんが、set.seed( )を使用することで再確認できます set.seed(1) #もう一度確かめたいときはset.seed( )で乱数を記憶させておきます.( )の中は何でもOK. x20 …

平均

算術平均 arithmetin mean (=相加平均) 1回 10人 2回 15人 3回 8人 平均回数は (10*1+15*2+3*8)/(10+15+8) 度数分布からの平均 真の平均の近似値なので多少のズレが生じます 最初と最後の階級が少ない場合には無視して求めます(年収平均など) 無視できない…

移動平均

x <- runif(500,-1,1) #一様分布の乱数500個 plot(y2,type = "l") 二乗平均平方根(RMS) xr <-sqrt( x^2) 移動平均 install.packages("TTR") library(TTR) x5 <- SMA(xr, 5) # 移動平均間隔5 plot(x5,type = "l") x10 <- SMA(xr, 10) # 移動平均間隔10 plot…

データフレームからの抽出

例)ChickWeightからDietの1と3だけ抜き出す subset(ChickWeight,subset = Diet==c(1,3)) 例)iris アヤメ head(iris,5) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 …

二項分布の最尤推定法 

母集団Aの成功率0.7をパラメータとして、この母集団のサンプルから考えていきます.成功率0.7、試行回数10回の二項分布の乱数を1000個生成して母集団Aとします. y <- rbinom(1000,10,0.7) head(y) #最初の6データを確認してみます [1] 6 7 6 4 9 8 #成功率…

ベイズの定理

ベイズの定理とは「観測値(データ)で条件付けられた、母数の分布を与える定理 」です #Rのサンプル women$height を使用します x <- women$height #標本平均 me <- mean(women$height) =65 #標本標準偏差 sd <- sqrt(sum((x - mean(x))^2) / length(x)) =4…

このブログの参考・引用文献

投稿日 2016-10-31最終更新日 2017-12-29 文献:著者五十音順 巨人の肩に乗らねば・・・ 石井一夫 ;Rとグラフで実感する生命科学のための統計入門, 羊土社 ,2017石田 基広 ;改訂3版 R言語逆引きハンドブック ,シーアンドアール研究所; 改訂3版,2016石田 基広 ;R…

一様分布

確立密度関数 , 累積分布関数(分布関数) , 平均 分散 #例)離散型一様分布(確立変数が整数の場合) #1~10の整数をランダムで発生させたとき、2~5の数が出る確率は? (5-1)/(10-1) - (2-1)/(10-1) = (5-2)/(10-1) = 0.33333 サイコロを例にグラフを作成…

正規分布

確立密度関数 ] 、 累積分布関数(分布関数) pnorm ( 1.96, lower.tail=TRUE ) - pnorm ( 1.96, lower.tail=FALSE ) = pnorm ( 1.96 ) - pnorm ( -1.96 ) = 0.9500042 yoshida931.hatenablog.com

クラスター分析

Rのサンプルattitudeを使用して、クラスタ分析(階層的方法)を勉強します. attitudeは、管理者態度のデータです.無作為に選ばれた35名の雇用者よりアンケート.好意的な割合が数値化されています. rating全般的評価、 complaints雇用者からの苦情処理、 …

シンプソンのパラドクス

最近、統計学の学習が進んでおりません ちょっとお仕事が忙しくて… 今日は少しだけ勉強しておきます. 観察研究には重要な概念です. x <- c(110,70,90,120) x <- matrix(x,2,2) rownames(x)<-c("治療A","治療B") colnames(x)<-c("改善","変化なし") addmarg…

カイ二乗検定後の残差分析

2017.12.5更新 残差=実測値-期待値 標準化残差= 標準化残差の分散= #各質問に関するyesの回答者数の割合について有意水準5%で検定します. xxx <- c(20,10,2,5,410,350,200,120) xxx <- matrix(xxx,4,2) yes no Q1 20 410 Q2 10 350 Q3 2 200 Q4 5 120 rn…

カイ自乗近似は不正確かもしれません

このコメントが出る場合は以下のようなときです 期待度数が 0になるセルがある場合、もしくは期待度数が 5未満になるセルが全体の 20% を超える場合 R: Fisher's Exact Test for Count Data that is if no cell has expected counts less than 1 and more th…

統計検定2級

統計検定2級をこれから目指す人のために 私がお勧めする本です 確率が苦手のまま検定に望んではいけません! この本を読んでから統計学に入りましょう! 高校生が感動した確率・統計の授業 (PHP新書)作者: 山本俊郎出版社/メーカー: PHP研究所発売日: 2017/0…

決定係数(寄与率)

決定係数 回帰係数がどの程度よく当てはまっているか、つまりXがYをうまく説明できているか、ということを明らかにすることは重要になります.決定係数は、その当てはまりを示す基準としてして使用されています. 観測値の平方和(全変動) 回帰による平方和…

テキストファイルに検定結果を出力

テキストファイルに検定結果を出力 投稿日2017.11.14r-de-r様からコメントいただきましたので修正しております 素直に感動しておりますテキスト形式のファイルに検定結果を書き込む練習をします sprintf:書式指定変換した出力を文字列に格納 cat:文字列を…