Rで架空データの発生
第2回 (2015.5.23)
広島大学大学院教育学研究科
平川 真
Hijiyama.R
自己紹介
・@hirakawamakoto
・社会心理学界隈で活動しています
・通常枠です
2
モチベーション
・授業で使う架空データをつくる
・架空データを分析して、統計手法のお勉強をする
e.g., 中心極限定理を実際に確認してみる
「統計モデル=データ生成器」ということの理解を進める
3
母集団分布を指定し乱数を発生
rnorm関数: 正規分布に従う乱数を発生
4
平均と標準偏差を指定
個数を指定
t検定用データをつくってみる
5
t検定用データをつくってみる
6
もうだいたいいける
e.g., 交互作用が出るデータがほしいです
a1b1 mean=1.5
a1b2 mean=2.2
a2b1 mean=5.0
a2b2 mean=1.2
みたいにして発生させればOK
7
5
4
3
2
1
a1 a2
b1
b2
危険率のお勉強
Type I error: 帰無仮説が真のときに、それを棄却する誤り
危険率: Type I errorを起こす確率
慣例的に有意水準を5%に設定し、統計的仮説検定を行う
⇒ 危険率は5%
本当にそうなるの?
ためしてみる!
8
危険率のお勉強
9
t検定のお勉強(1)
t検定の前提
1. 無作為抽出が行われていること
2. 母集団の分布が正規分布であること
3. 母集団の分散が等質であること
前提が満たされない場合、帰無分布がt分布となるとは限らない
⇒ 危険率が5%を超えてしまうかも
10
t検定のお勉強(1)
分散の等質性の前提を破ってみた
11
Welchの検定でやると
任意の母相関係数をもつデータ
x, e1, e2がそれぞれ分散の等しい母集団から独立に抽出された場合
でつくられた2変数(y1, y2)の母相関(ρ)は となる
⇒ とすれば、母相関がρとなる2変数をつくれる
12
任意の母相関係数をもつデータ
13
t検定のお勉強(2)
対応のあるt検定だと検出力が上がる
⇒ X1とx2の相関 (r) が高くなると、t値は大きくなる
14
← 対応なし
← 対応あり
t検定のお勉強(2)
15
対応なし 対応あり
t検定のお勉強(2)
16
対応なし 対応あり
データフレームの作成
data.frame関数を使って、オブジェクトを結合
17
データフレームの書き出し
write.csv関数
18
おまけ:mvrnorm関数
任意の相関行列をもつ多変量データを発生させたい
MASSパッケージのmvrnorm関数
19
← 発生させたい相関行列の指定
↑
各変数の平均値を指定
おまけ:mvrnorm関数
20
おまけ:mvrnorm関数
21
おまけ:mvrnorm関数
多母集団同時分析用のデータセットも間単に
22

Rで架空データの発生