Your SlideShare is downloading. ×
Tokyor35 人工データの発生
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Tokyor35 人工データの発生

1,355
views

Published on


0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,355
On Slideshare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
13
Comments
0
Likes
7
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 「Rによるやさしい統計学」第18章 人工データの発生 @yokkuns: 里 洋平 yohei0511@gmail.com 2013.11.09 第35回Tokyo.R 2013年11月9日土曜日
  • 2. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 3. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 4. 里 洋平 (@yokkuns) ■元Webエンジニアのデータサイエンティスト ■TokyoRの主催者 2013年11月9日土曜日
  • 5. 執筆しました 2013年11月9日土曜日
  • 6. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 7. なぜ人工データを発生させるのか? 統計学やデータ解析自体の研究•学習の際に 特定の条件を満たすようなデータが欲しい ・シミュレーション実験 ・例題用の仮想データ 勉強会とか執筆とか ・データ解析手法を試すために都合の良いデータ ... 2013年11月9日土曜日
  • 8. どんな人工データが作れるのか 特定の母集団からの無作為標本 ① 母集団分布を指定した1変量データ ② 母集団分布を指定した多変量データ ③ 統計モデルを指定した多変量データ 例: 回帰分析モデル、因子分析モデル、etc... 2013年11月9日土曜日
  • 9. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 10. 確率分布に従う乱数の生成 乱数を生成する関数一覧 確率分布 関数名 引数としてしていする母数 正規分布 rnorm mean, sd 一様分布 runif min, max ベータ分布 rbeta shape1, shape2, ncp 二項分布 rbiom size, prob コーシー分布 rcauchy location, scale カイ二乗分布 rchisq df, ncp 指数分布 rexp rate F分布 rf df1, df2, cnp ガンマ分布 rgamma prob ... ... ... 2013年11月9日土曜日
  • 11. 実行例: 正規分布 rnorm関数 2013年11月9日土曜日
  • 12. 実行例: 一様分布 runif関数 2013年11月9日土曜日
  • 13. 実行例: 任意の離散的確率分布 runif関数による乱数とcut関数を用いて 任意の離散的確率分布の人工データを生成する 2013年11月9日土曜日
  • 14. 統計学の法則・定理の検証 統計学を勉強してると謎の法則とか定理が出てくる 人工データを使ってこれを検証してみる http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E3%81%AE%E6%B3%95%E5%89%87 http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86 2013年11月9日土曜日
  • 15. 大数の法則とは ある母集団から無作為抽出された標本データの平均は サンプルサイズを大きくすると真の平均に近づく http://www.seiho.or.jp/data/billboard/introduction/content03/ 2013年11月9日土曜日
  • 16. 正規分布によるシミュレーション rnorm関数でサンプルサイズを変化させ 標本平均と母平均を比較する 2013年11月9日土曜日
  • 17. 二項分布によるシミュレーション rbiom関数でサンプルサイズを変化させ 標本平均と母平均を比較する 2013年11月9日土曜日
  • 18. 中心極限定理とは 標本平均と真の平均との誤差は サンプルサイズを大きくすると、近似的に正規分布に従う http://www.clg.niigata-u.ac.jp/ medimg/practice_medical_imaging/roc/2signifi/ index.htm 2013年11月9日土曜日
  • 19. 正規分布によるシミュレーション 母集団の作成 2013年11月9日土曜日
  • 20. 正規分布によるシミュレーション 100個の標本を100回作成 標本平均の分布を見る 2013年11月9日土曜日
  • 21. 正規分布によるシミュレーション 100個の標本を1,000回作成 標本平均の分布を見る 2013年11月9日土曜日
  • 22. 正規分布によるシミュレーション 100個の標本を10,000回作成 標本平均の分布を見る 2013年11月9日土曜日
  • 23. 二項分布によるシミュレーション 母集団の作成 2013年11月9日土曜日
  • 24. 二項分布によるシミュレーション 100個の標本を100回作成 標本平均の分布を見る 2013年11月9日土曜日
  • 25. 二項分布によるシミュレーション 100個の標本を10,000回作成 標本平均の分布を見る 2013年11月9日土曜日
  • 26. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 27. 相関関係 http://mcn-www.jwu.ac.jp/ kuto/kogo_lab/psi-home/stat2000/DATA/09/03.HTM 2013年11月9日土曜日
  • 28. 任意の母相関を持つ2変数データの生成(方法1) 分散の等しい母集団から独立に無作為抽出された 2変数を用いて任意の母相関を持つ2変数データを生成 2013年11月9日土曜日
  • 29. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 30. 線形回帰分析とは 観測変数間の直線関係を分析する手法 http://www.tuins.ac.jp/ ham/tymhnt/analysis/e/tahenryo/sa/sa8.html 2013年11月9日土曜日
  • 31. 線形回帰分析の仮定 線形回帰モデルの残差は正規分布していると仮定されている http://www.ipc.shimane-u.ac.jp/food/kobayasi/biometry13_2010.html 2013年11月9日土曜日
  • 32. 回帰分析モデルに基づく人工データの生成 回帰係数と切片を固定し、xとeを乱数で生成する事で 回帰分析モデルに基づく人工データを生成する 2013年11月9日土曜日
  • 33. 人工データに対して回帰分析を実行 2013年11月9日土曜日
  • 34. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 35. ■ LT募集しています! http://www.japanr.org/information/2013/11/03/lt/ 2013年11月9日土曜日
  • 36. AGENDA ■自己紹介 ■人工データの発生 ■人工データ ■母集団分布に従う1変量データ ■母集団分布に従う多変量データ ■統計モデルに基づいた人工データ ■最後に 2013年11月9日土曜日
  • 37. ご清聴ありがとうございました! 2013年11月9日土曜日