第 32 回 Tokyo.R # 初心者セッション
「平均から正規分布まで」
@sanoche16
本題の前に!
Tokyo.R 女子部開催
おめでとうございます!!
さらに!
関係者の皆さん
おめでとうございます!
About me
About me
・ @sanoche16 and/or 佐野宏喜
・システムエンジニア(外資系 IT コンサル企業)
・ PHP, Python, Linux, Java, Ruby, assembler
・商学部出身
・最近、機械学習の勉強を始めました!
・修行が終わったら起業します!
agenda
1、平均から
2、分布の話
3、正規分布まで
agenda
1、平均から
利用データは faithful
オールドフェイスフルガイザー(世界で最
も有名な間欠泉)のデータ
Eruptions : 噴出時間 ( 分 )
Waiting: 時間間隔 ( 分 )
1、平均から
まずはデータの確認
1、平均から
プロット
1、平均から
まずは平均
1、平均から
R での実行
1、平均から
分散
データの散らばり具合を示す
1、平均から
R での実行
1、平均から
共分散
2変数間のデータの関係を表す
1、平均から
R での実行
1、平均から
相関係数
共分散を正規化したもの
-1 から 1 の間で相関関係を示す
1、平均から
R での実行
1、平均から
2、分布の話
2項分布
2択の結果になるものについ
て、確率・試行回数を利用して
結果の確率を考える
2、分布の話
例
表・裏が出る確率が等しいコ
インを 10 回投げたとき、表が
4 回以下の確率は?
2、分布の話
R の実行
2、分布の話
=> 38%
表の確率試行回数知りたい回数
例
表・裏が出る確率が等しいコ
インを 100 回投げたとき、表
が 40 回以下の確率は?
2、分布の話
R の実行
2、分布の話
=> 2.8%
R の実行
2、分布の話
=> 2.8% 大数の法則!
もっといびつなコインを考える
表が出る確率が 2% のコインを
100 回投げた。
4 回表が出る確率は?
2、分布の話
R の実行
2、分布の話
=> 9%
もっといびつなコインを考える パート2
表が出る確率が 1% のコインを
200 回投げた。
4 回表が出る確率は?
2、分布の話
R の実行
2、分布の話
=> 9%
R の実行
2、分布の話
=> 9% あんまり変わらない!
一般に起こる確率がある程度低
く、試行回数が多い場合は平均
だけ考えればよい
 
1、平均から
一般に起こる確率がある程度低
く、試行回数が多い場合は平均
だけ考えればよい
=> ポワソン分布
1、平均から
ポワソン分布
起こる確率が少なく、試行回数
が多いものの平均がある程度低
いとき、平均から予測する結果
の確率
2、分布の話
例
プロイセンで 1875 年から 1894 年までに
馬に蹴られて死亡した兵士の数
2、分布の話
死亡者数 0 1 2 3 4 合計
部隊数 109 65 22 3 1 200
R の実行
2、分布の話
死亡者数 0 1 2 3 4 合計
部隊数 109 65 22 3 1 200
注)平均は 0.61
指数分布
バカンス満喫中の @teramonagi 氏による
素晴らしい資料
2、分布の話
3、正規分布まで
R でのシミュレーション
表が出る確率が 0.4 ( 40% )の
コインを 10 回投げて表の数を数
える。これを 20 回行う。
3、正規分布まで
R でのシミュレーション
  
 
10 回毎の表の回数
  
20 回試行
1回あたり
の回数
確率
3、正規分布まで
R でのシミュレーション
表が出る確率が 0.4 ( 40% )の
コインを 10 回投げて表の数を数
える。これを 10000 回行う。
この回数の分布はどうなるか。
3、正規分布まで
R でのシミュレーション
  
 
データの作成
3、正規分布まで
R でのシミュレーション
  
 
ヒストグラムで確認
3、正規分布まで
R でのシミュレーション
  
 
ヒストグラムで確認
釣鐘型になった!
3、正規分布まで
正規分布とは
この結果が従うとされる平均を中心として
左右対称になる分布のこと
平均と分散を決めることで形が決まる
コイン以外にも様々な事象が従う
3、正規分布まで
例
平均点が 68 点、標準偏差が 12
のテストを実施。 50 点以下の
人の割合は?
3、正規分布まで
R の実行
=> 25%
3、正規分布まで
R の実行
=> 25%
解けた!
3、正規分布まで
ご清聴ありがとうございました!
Thank you

第32回Tokyo.R#初心者セッション