「Rによるやさしい統計学」第18章

人工データの発生
@yokkuns: 里 洋平
yohei0511@gmail.com
2013.11.09 第35回Tokyo.R

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
里 洋平 (@yokkuns)
■元Webエンジニアのデータサイエンティスト
■TokyoRの主催者

2013年11月9日土曜日
執筆しました

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
なぜ人工データを発生させるのか?
統計学やデータ解析自体の研究•学習の際に
特定の条件を満たすようなデータが欲しい

・シミュレーション実験
・例題用の仮想データ
勉強会とか執筆とか
・データ解析手法を試すために都合の良いデータ
...

2013年11月9日土曜日
どんな人工データが作れるのか
特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ
② 母集団分布を指定した多変量データ
③ 統計モデルを指定した多変量データ
例: 回帰分析モデル、因子分析モデル、etc...

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
確率分布に従う乱数の生成
乱数を生成する関数一覧
確率分布

関数名

引数としてしていする母数

正規分布

rnorm

mean, sd

一様分布

runif

min, max

ベータ分布

rbeta

shape1, shape2, ncp

二項分布

rbiom

size, prob

コーシー分布

rcauchy

location, scale

カイ二乗分布

rchisq

df, ncp

指数分布

rexp

rate

F分布

rf

df1, df2, cnp

ガンマ分布

rgamma

prob

...

...

...

2013年11月9日土曜日
実行例: 正規分布
rnorm関数

2013年11月9日土曜日
実行例: 一様分布
runif関数

2013年11月9日土曜日
実行例: 任意の離散的確率分布
runif関数による乱数とcut関数を用いて
任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日
統計学の法則・定理の検証
統計学を勉強してると謎の法則とか定理が出てくる
人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87

http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

2013年11月9日土曜日
大数の法則とは
ある母集団から無作為抽出された標本データの平均は
サンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/
2013年11月9日土曜日
正規分布によるシミュレーション
rnorm関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
二項分布によるシミュレーション
rbiom関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
中心極限定理とは
標本平均と真の平均との誤差は
サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2signifi/
index.htm
2013年11月9日土曜日
正規分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を1,000回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
相関関係

http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM
2013年11月9日土曜日
任意の母相関を持つ2変数データの生成(方法1)
分散の等しい母集団から独立に無作為抽出された
2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
線形回帰分析とは
観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html
2013年11月9日土曜日
線形回帰分析の仮定
線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html
2013年11月9日土曜日
回帰分析モデルに基づく人工データの生成
回帰係数と切片を固定し、xとeを乱数で生成する事で
回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日
人工データに対して回帰分析を実行

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
■ LT募集しています!

http://www.japanr.org/information/2013/11/03/lt/

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
ご清聴ありがとうございました!

2013年11月9日土曜日

Tokyor35 人工データの発生