Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
「Rによるやさしい統計学」第18章

人工データの発生
@yokkuns: 里 洋平
yohei0511@gmail.com
2013.11.09 第35回Tokyo.R

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
里 洋平 (@yokkuns)
■元Webエンジニアのデータサイエンティスト
■TokyoRの主催者

2013年11月9日土曜日
執筆しました

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
なぜ人工データを発生させるのか?
統計学やデータ解析自体の研究•学習の際に
特定の条件を満たすようなデータが欲しい

・シミュレーション実験
・例題用の仮想データ
勉強会とか執筆とか
・データ解析手法を試すために都合の良いデータ
...

20...
どんな人工データが作れるのか
特定の母集団からの無作為標本

① 母集団分布を指定した1変量データ
② 母集団分布を指定した多変量データ
③ 統計モデルを指定した多変量データ
例: 回帰分析モデル、因子分析モデル、etc...

2013年11...
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
確率分布に従う乱数の生成
乱数を生成する関数一覧
確率分布

関数名

引数としてしていする母数

正規分布

rnorm

mean, sd

一様分布

runif

min, max

ベータ分布

rbeta

shape1, shap...
実行例: 正規分布
rnorm関数

2013年11月9日土曜日
実行例: 一様分布
runif関数

2013年11月9日土曜日
実行例: 任意の離散的確率分布
runif関数による乱数とcut関数を用いて
任意の離散的確率分布の人工データを生成する

2013年11月9日土曜日
統計学の法則・定理の検証
統計学を勉強してると謎の法則とか定理が出てくる
人工データを使ってこれを検証してみる

http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95...
大数の法則とは
ある母集団から無作為抽出された標本データの平均は
サンプルサイズを大きくすると真の平均に近づく

http://www.seiho.or.jp/data/billboard/introduction/content03/
201...
正規分布によるシミュレーション
rnorm関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
二項分布によるシミュレーション
rbiom関数でサンプルサイズを変化させ
標本平均と母平均を比較する

2013年11月9日土曜日
中心極限定理とは
標本平均と真の平均との誤差は
サンプルサイズを大きくすると、近似的に正規分布に従う

http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2s...
正規分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を1,000回作成
標本平均の分布を見る

2013年11月9日土曜日
正規分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
母集団の作成

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を100回作成
標本平均の分布を見る

2013年11月9日土曜日
二項分布によるシミュレーション
100個の標本を10,000回作成
標本平均の分布を見る

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
相関関係

http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM
2013年11月9日土曜日
任意の母相関を持つ2変数データの生成(方法1)
分散の等しい母集団から独立に無作為抽出された
2変数を用いて任意の母相関を持つ2変数データを生成

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
線形回帰分析とは
観測変数間の直線関係を分析する手法

http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html
2013年11月9日土曜日
線形回帰分析の仮定
線形回帰モデルの残差は正規分布していると仮定されている

http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html
2013年11月9日土曜日
回帰分析モデルに基づく人工データの生成
回帰係数と切片を固定し、xとeを乱数で生成する事で
回帰分析モデルに基づく人工データを生成する

2013年11月9日土曜日
人工データに対して回帰分析を実行

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
■ LT募集しています!

http://www.japanr.org/information/2013/11/03/lt/

2013年11月9日土曜日
AGENDA

■自己紹介

■人工データの発生
■人工データ

■母集団分布に従う1変量データ

■母集団分布に従う多変量データ

■統計モデルに基づいた人工データ

■最後に
2013年11月9日土曜日
ご清聴ありがとうございました!

2013年11月9日土曜日
Upcoming SlideShare
Loading in …5
×

Tokyor35 人工データの発生

3,482 views

Published on

  • Be the first to comment

Tokyor35 人工データの発生

  1. 1. 「Rによるやさしい統計学」第18章 人工データの発生 @yokkuns: 里 洋平 yohei0511@gmail.com 2013.11.09 第35回Tokyo.R 2013年11月9日土曜日
  2. 2. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  3. 3. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  4. 4. 里 洋平 (@yokkuns) ■元Webエンジニアのデータサイエンティスト ■TokyoRの主催者 2013年11月9日土曜日
  5. 5. 執筆しました 2013年11月9日土曜日
  6. 6. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  7. 7. なぜ人工データを発生させるのか? 統計学やデータ解析自体の研究•学習の際に 特定の条件を満たすようなデータが欲しい ・シミュレーション実験 ・例題用の仮想データ 勉強会とか執筆とか ・データ解析手法を試すために都合の良いデータ ... 2013年11月9日土曜日
  8. 8. どんな人工データが作れるのか 特定の母集団からの無作為標本 ① 母集団分布を指定した1変量データ ② 母集団分布を指定した多変量データ ③ 統計モデルを指定した多変量データ 例: 回帰分析モデル、因子分析モデル、etc... 2013年11月9日土曜日
  9. 9. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  10. 10. 確率分布に従う乱数の生成 乱数を生成する関数一覧 確率分布 関数名 引数としてしていする母数 正規分布 rnorm mean, sd 一様分布 runif min, max ベータ分布 rbeta shape1, shape2, ncp 二項分布 rbiom size, prob コーシー分布 rcauchy location, scale カイ二乗分布 rchisq df, ncp 指数分布 rexp rate F分布 rf df1, df2, cnp ガンマ分布 rgamma prob ... ... ... 2013年11月9日土曜日
  11. 11. 実行例: 正規分布 rnorm関数 2013年11月9日土曜日
  12. 12. 実行例: 一様分布 runif関数 2013年11月9日土曜日
  13. 13. 実行例: 任意の離散的確率分布 runif関数による乱数とcut関数を用いて 任意の離散的確率分布の人工データを生成する 2013年11月9日土曜日
  14. 14. 統計学の法則・定理の検証 統計学を勉強してると謎の法則とか定理が出てくる 人工データを使ってこれを検証してみる http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87 http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86 2013年11月9日土曜日
  15. 15. 大数の法則とは ある母集団から無作為抽出された標本データの平均は サンプルサイズを大きくすると真の平均に近づく http://www.seiho.or.jp/data/billboard/introduction/content03/ 2013年11月9日土曜日
  16. 16. 正規分布によるシミュレーション rnorm関数でサンプルサイズを変化させ 標本平均と母平均を比較する 2013年11月9日土曜日
  17. 17. 二項分布によるシミュレーション rbiom関数でサンプルサイズを変化させ 標本平均と母平均を比較する 2013年11月9日土曜日
  18. 18. 中心極限定理とは 標本平均と真の平均との誤差は サンプルサイズを大きくすると、近似的に正規分布に従う http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2signifi/ index.htm 2013年11月9日土曜日
  19. 19. 正規分布によるシミュレーション 母集団の作成 2013年11月9日土曜日
  20. 20. 正規分布によるシミュレーション 100個の標本を100回作成 標本平均の分布を見る 2013年11月9日土曜日
  21. 21. 正規分布によるシミュレーション 100個の標本を1,000回作成 標本平均の分布を見る 2013年11月9日土曜日
  22. 22. 正規分布によるシミュレーション 100個の標本を10,000回作成 標本平均の分布を見る 2013年11月9日土曜日
  23. 23. 二項分布によるシミュレーション 母集団の作成 2013年11月9日土曜日
  24. 24. 二項分布によるシミュレーション 100個の標本を100回作成 標本平均の分布を見る 2013年11月9日土曜日
  25. 25. 二項分布によるシミュレーション 100個の標本を10,000回作成 標本平均の分布を見る 2013年11月9日土曜日
  26. 26. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  27. 27. 相関関係 http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM 2013年11月9日土曜日
  28. 28. 任意の母相関を持つ2変数データの生成(方法1) 分散の等しい母集団から独立に無作為抽出された 2変数を用いて任意の母相関を持つ2変数データを生成 2013年11月9日土曜日
  29. 29. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  30. 30. 線形回帰分析とは 観測変数間の直線関係を分析する手法 http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html 2013年11月9日土曜日
  31. 31. 線形回帰分析の仮定 線形回帰モデルの残差は正規分布していると仮定されている http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html 2013年11月9日土曜日
  32. 32. 回帰分析モデルに基づく人工データの生成 回帰係数と切片を固定し、xとeを乱数で生成する事で 回帰分析モデルに基づく人工データを生成する 2013年11月9日土曜日
  33. 33. 人工データに対して回帰分析を実行 2013年11月9日土曜日
  34. 34. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  35. 35. ■ LT募集しています! http://www.japanr.org/information/2013/11/03/lt/ 2013年11月9日土曜日
  36. 36. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  37. 37. ご清聴ありがとうございました! 2013年11月9日土曜日

×