Rで学ぶミニミニビッグデータ分析入門-第1回

  • 6,068 views
Uploaded on

Rで学んでいく統計やデータマイニングの入門スライドです。 …

Rで学んでいく統計やデータマイニングの入門スライドです。

第1回は「1つのデータ群を調べる」がテーマで、代表値:平均値、中央値、標準偏差などを扱います

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
6,068
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
49
Comments
0
Likes
14

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. ミニミニデータ分析入門@SassorRで学ぶミニミニ ビッグデータ分析入門第1回2013年4月18日しらとりなるひこ
  • 2. ミニミニデータ分析入門@Sassorしらとりなるひこ2
  • 3. ミニミニデータ分析入門@Sassorしらとりなるひこ•  専門–  確率を用いたユーザモデルの構築–  初年次教育を通した学生モデルの構築–  人工知能を用いた人間-社会システムのデザイン–  ユーザベースのメディアデザイン3
  • 4. ミニミニデータ分析入門@Sassorやってきたこと、やりたいこと•  主観的な経験を蓄積するBayesian  Networks  Layer:確率率率モデルを構築することで、⾼高度度技能スキルの⺠民主化を⾏行行うプロにしかできないことが、誰にでも出来たらいいなプロジェクト4
  • 5. ミニミニデータ分析入門@Sassor今までのプロジェクト 1麻酔ナビゲーションシステム•  麻酔科医の事故を事前に教えて、事故無く手術を終了することができるシステム5
  • 6. ミニミニデータ分析入門@Sassor今までのプロジェクト 2写真推薦システム•  ユーザの年齢やこれまでの写真履歴、見る場所によって、今見たい写真を推薦する。後ろのエンジン作りました6
  • 7. ミニミニデータ分析入門@Sassor今までのプロジェクト 3これなーに•  原宿での行列を携帯電話で撮影すると、その行列が何の行列かを推測してくれる7
  • 8. ミニミニデータ分析入門@Sassor今までのプロジェクト 4Lifeプロジェクト•  家の中にあるコンテンツを利用した経験が蓄積されて、自分の経験が反映されたコンテンツ経験ができるサーバー8
  • 9. ミニミニデータ分析入門@Sassorこの勉強会の目的•  データに対する恐怖感を拭い去ること–  データを扱う皆様と会話できるようになること•  データを用いて変化やアイデアを語れるようになること•  Rさんが出してくれる喜びを知ること–  計算を少ししながら「Rって便利だな」と納得すること9
  • 10. ミニミニデータ分析入門@Sassorグラフを作れたりします10グラフの特徴はなんでしょう?
  • 11. ミニミニデータ分析入門@Sassor全体アジェンダ1.  1つのデータ群を比べる方法2.  2つ以上のデータ群の関連性を見る3.  3つ以上のデータ:多変量解析4.  ベイズ統計5.  ベイズモデルの応用:時系列解析6.  ベイジアンネットワークの活用11
  • 12. ミニミニデータ分析入門@Sassor第1回アジェンダ•  RStudioインストールの確認•  1つのデータ群を比べる方法(統計の基礎知識を得る)–  代表値–  基準化数字を使って、1つのデータ群の特徴を説明できること12
  • 13. ミニミニデータ分析入門@SassorRStudioのインストールの確認http://www.rstudio.com/ide/download/13
  • 14. ミニミニデータ分析入門@SassorRStudioって何?R統計解析用のプログラミング言語RStudio RをベースにしたIDEつまり、RStudioを使ったほうが便利です14
  • 15. ミニミニデータ分析入門@Sassorデータの種類•  測れるデータ–  数量データ•  測れないデータ–  カテゴリーデータ•  分類の方法–  目盛りと隣の目盛りの間隔が等しい時は数量データ•  身長、体重等は数量データ•  とてもおもしろかった-とてもつまらなかった、英検1級などといったものはカテゴリーデータ–  実務では数量データとみなす場合もある15
  • 16. ミニミニデータ分析入門@Sassor表を比較する0 1 2 3 4 5 6 7北千住 0 0 0 0 0 0 0 0池袋 0 0 0 0 0 0 17 318 9 10 11 12 13 14 15 16北千住 392 333 985 573 745 244 256 246 6池袋 0 109 979 237 389 867 295 377 7517 18 19 20 21 22 23北千住 81 3 311 107 14 41 0池袋 588 371 246 604 39 33 02011年10月6日:0時∼23時のIHコンロの電力データ深夜から朝朝から夕方夜から深夜16
  • 17. ミニミニデータ分析入門@Sassorグラフを比較する黒:北千住店赤:池袋店17
  • 18. ミニミニデータ分析入門@Sassorグラフを比較する黒:北千住店赤:池袋店•  池袋店のほうがぶれ幅が大きい•  北千住店は夜の上がり幅が少ない•  ランチタイムは同じくらいだ•  ・・・気付き18
  • 19. ミニミニデータ分析入門@Sassor代表値数量データを分かりやすくする方法、データの分布を1つの数字で代表させた値=数値要約するとか言う•  平均値(arithmetic mean)•  最大値•  最小値•  中央値•  分散(variance)•  標準偏差:standard deviation19
  • 20. ミニミニデータ分析入門@Sassor平均値を求める•  相加平均:すべてを足して、その個数で割る•  (0+0+…+14+41)/2420
  • 21. ミニミニデータ分析入門@Sassor平均値を求める(R)•  最初にベクトルを作成する c(x,y,z)–  ikebukuro <- c(0,0,0,0,0,17,31,0,109,979, 237, 389,867, 295, 377, 75, 588, 371, 246,604, 39, 33, 0)–  kitasenju <- …•  平均値を求める–  > mean(kitasenju)–  [1] 180.7083–  > mean(ikebukuro)–  [1] 219.041721
  • 22. ミニミニデータ分析入門@Sassor最大値、最小値を求める•  最大値:一番大きい数値–  > max(kitasenju)–  [1] 985–  > max(ikebukuro)–  [1] 979•  最小値:一番小さい数値–  > min(kitasenju)–  [1] 0–  > min(ikebukuro)–  [1] 022
  • 23. ミニミニデータ分析入門@Sassor中央値を求める•  中央値:真ん中の値– 偶数個なら中央値に近い2つの数の平均– 12番目と13番めの値を出して2で割る– > median(kitasenju)– [1] 27.5– > median(ikebukuro)– [1] 5723
  • 24. ミニミニデータ分析入門@Sassor一気にもとめる–  > summary(kitasenju)–  Min. 1st Qu. Median Mean 3rd Qu. Max.–  0.0 0.0 27.5 180.7 269.8 985.0–  > summary(ikebukuro)–  Min. 1st Qu. Median Mean 3rd Qu. Max.–  0.0 0.0 57.0 219.0 372.5 979.0–  1stQu. :第1四分位数(下から数えて4分の1)–  3rdQu.:第3四分位数(下から数えて4分の3)24
  • 25. ミニミニデータ分析入門@Sassorばらつきを求める•  分散(標本分散)– 平均からの偏差(データと平均の差)を2乗して、それを足して、個数で割る– 不偏分散は個数-1で割る•  標準偏差– 平均からの偏差(データと平均の差)を2乗して、それを足して、個数で割り、それの平方根をとる25
  • 26. ミニミニデータ分析入門@Sassor分散を求める•  北千住:平均181– ( (0-181)^2+(0-181)^2+…+(14-181)^2+(41-181)^2 )/24•  池袋:平均21926
  • 27. ミニミニデータ分析入門@Sassor標本分散を求める•  平均からの偏差を2乗して、個数で割る–  北千住の標本分散:68193•  > sum((kitasenju-mean(kitasenju))^2)/24•  [1] 68193.37•  > sum((kitasenju-mean(kitasenju))^2)/length(kitasenju)•  [1] 68193.37–  池袋の標本分散:80223.12•  > sum((ikebukuro-mean(ikebukuro))^2)/length(ikebukuro)•  [1] 80223.1227
  • 28. ミニミニデータ分析入門@Sassor2種類の分散•  分散には標本分散と不偏分散がある– nで割る標本分散、n-1で割る不偏分散– varは不偏分散を求める•  > var(kitasenju)•  [1] 71158.3•  > var(ikebukuro)•  [1] 83711.0928
  • 29. ミニミニデータ分析入門@Sassor標準偏差•  標準偏差:standard deviation–  分散の平方根をとったもの–  標準偏差にも標本標準偏差と不偏標準偏差がある•  > sqrt(sum((kitasenju-mean(kitasenju))^2)/length(kitasenju))•  [1] 261.1386•  これでもOK–  > sqrt(mean((kitasenju-mean(kitasenju))^2))–  [1] 261.1386•  > sqrt(sum((ikebukuro-mean(ikebukuro))^2)/length(ikebukuro))•  [1] 283.236929
  • 30. ミニミニデータ分析入門@Sassor標準偏差•  標準偏差:–  標準偏差にも標本標準偏差と不偏標準偏差がある•  > sd(kitasenju)•  [1] 266.7551•  > sd(ikebukuro)•  [1] 289.3287•  不偏標準偏差から標本標準偏差への移行–  > sqrt(sd(kitasenju)^2*(length(kitasenju)-1)/length(kitasenju))–  [1] 261.138630
  • 31. ミニミニデータ分析入門@Sassor基準化(標準化:standardization)•  基準値(z得点):個々のデータ- 平均 /標準偏差– 基準値の平均は0、標準偏差は1•  基準値の特徴– 最大値、最小値がばらばらであっても比較できる– 単位の違うモノも比較できる– 標準正規分布を用いた推定や検定ができる31
  • 32. ミニミニデータ分析入門@Sassor基準化を行う•  > kitasenju.Zscore <- (kitasenju-mean(kitasenju))/sqrt(mean((kitasenju-mean(kitasenju))^2))•  > kitasenju.Zscore•  [1] -0.6920016 -0.6920016 -0.6920016 -0.6920016 -0.6920016 -0.6920016-0.6920016 -0.6920016 0.8091169•  [10] 0.5831833 3.0799416 1.5022354 2.1608895 0.2423681 0.28832070.2500269 -0.6690253 -0.3818215•  [19] -0.6805134 0.4989368 -0.2822575 -0.6383902 -0.5349968 -0.6920016•  > mean(kitasenju.Zscore)•  [1] -5.088974e-17•  > mean((kitasenju.Zscore-mean(kitasenju.Zscore))^2)•  [1] 132
  • 33. ミニミニデータ分析入門@Sassorもう一度グラフで比較する黒:北千住店赤:池袋店•  池袋のほうが北千住より分散○○だけが大きい•  北千住は夜間の最大値が○○だけ少ない•  ランチタイムはの平均値は○○なので同じくらいだ•  ・・・1変数の変化を、数を用いて思いつきや考えを説明できたらOK33
  • 34. ミニミニデータ分析入門@Sassor次回予告•  次回はひとつの変数への注目から、2変数の関連性にスポットを当てる34