SlideShare a Scribd company logo
1 of 11
Download to read offline
iAnalysis LLC 最高解析責任者
                 倉橋一成

                        1
   設立:2011年3月24日
   場所:東京都港区南青山2-2-15 ウィン青山 1403
   ホームページ:http://ianalysis.jp/
   取引先
    ◦   製薬会社
    ◦   医療系支援・コンサルティング会社
    ◦   広告代理店
    ◦   人材サービス会社
    ◦   ソーシャルゲーム会社
    ◦   商社
    ◦   統計解析会社




                                   2
   2011年東京大学博士号取得
    ◦ 修士まで:医療系の統計学が中心
      疫学、臨床試験
    ◦ 博士から:データマイニング分野の研究
      統計的学習、機械学習
   2011年iAnalysis設立
    ◦ 研究によって得た分析ノウハウをビジネスへ
    ◦ 溜まっているデータをどうやったら活用できるか?




                                3
   頻度論
    ◦ 確率とは、独立で同じ条件の試行を無限回行った時の頻度
    ◦ はずはこっちの説明をします
   ベイズ流
    ◦ 確率とは、ある事象の起こりやすさ
    ◦ こっちの概念はまた後で、、、




                                   4
   Abraham de Movireの『偶然の教え』(1700年代)
    ◦ コイン投げ→表が出る確率は50%
    ◦ サイコロ→1が出る確率は16.6%


   Kolmogorovの『確率論の基礎概念』(1933年)
    ◦ 確率を数学として初めて体系化
    ◦ 確率の3公理
      確率は0~1の実数である
      確実に起こる事象の確率は1である
      事象Aと事象Bが互いに背反であれば、AまたはBが起こる確率は
       それぞれの確率を足したものである




                                        5
   パスカルとフェルマー(1600年代)
    【問題】
    1. 親がサイコロを4回振って1の目がでると親が勝利。
    2. 親が2個のサイコロを24回振って1, 1の目がでると親が勝利。
    それぞれ親が勝つ確率は??


    ギャンブラー達の答え
    1/6 * 4 = 2/3
    1/36 * 24 = 2/3

    両方同じ確率になるはず。

    しかし、実際にやってみるとルール1の方がより多く勝った。
    どうして?ということでパスカルとフェルマーに相談した。




                                         6
ギャンブラー達の理論でいくと、6回サイコロを投げれば
1/6 * 6 = 1

となって親が必ず勝つことになる。これは何か変だ。

こうやって解くとこにしよう。
1回の試行で親が勝てなかった確率をかけいって、最後に1から引こう。

(1 – 1/6)^4 = 0.482
1 – 0.482 = 0.515

(1 – 1/36)^24 = 0.509
1 – 0.509 = 0.491

これでルール1の方が、親が勝ちやすいことが分かった。




                                    7
   こういう問題を考える
    ◦ コインを4回投げたとき、1回だけ表が出る確率は?
    ◦ サイコロを10回振ったとき、1が3回だけ出る確率は?
    ◦ 箱に1個の赤玉と9個の緑玉が入っている。その箱から5回取り出した
      とき(取った玉は元に戻す)、2回だけ赤玉が出る確率は?
   パスカルとニュートンが二項式によって解けることを発見




         n Ck   p k(1-p)n-k
              二項係数




                                         8
   16章 平均の法則
         ◦ John Kerrichの実験(第二次世界大戦中?)
         ◦ 10,000回コイン投げを行った

回数         表の回数   期待との差          回数       表の回数    期待との差
10         4      -1             1,000    502     2
50         25     0              5,000    2,533   33
100        44     -6             6,000    3,009   9
200        98     -2             7,000    3,516   16
300        146    -4             8,000    4,034   34
400        199    -1             9,000    4,538   38
500        255    5              10,000   5,067   67




                                                          9
   次回行います!




              10
   次回行います!




              11

More Related Content

Viewers also liked

Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Issei Kurahashi
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回Issei Kurahashi
 
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線Recruit Lifestyle Co., Ltd.
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるためにIssei Kurahashi
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理Ken'ichi Matsui
 
ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社
ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社
ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社Satoru Yamamoto
 
DeNAの大規模データマイニング活用したサービス開発
DeNAの大規模データマイニング活用したサービス開発DeNAの大規模データマイニング活用したサービス開発
DeNAの大規模データマイニング活用したサービス開発Koichi Hamada
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 

Viewers also liked (13)

iAnalysis NY視察
iAnalysis NY視察 iAnalysis NY視察
iAnalysis NY視察
 
Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線
CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社
ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社
ABテスト・LPOのための統計学【社内向けサディスティックエディション】データアーティスト株式会社
 
DeNAの大規模データマイニング活用したサービス開発
DeNAの大規模データマイニング活用したサービス開発DeNAの大規模データマイニング活用したサービス開発
DeNAの大規模データマイニング活用したサービス開発
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 

More from Issei Kurahashi

【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンスIssei Kurahashi
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333Issei Kurahashi
 

More from Issei Kurahashi (6)

【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
 
平方和の分解
平方和の分解平方和の分解
平方和の分解
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 

おしゃスタV

  • 2. 設立:2011年3月24日  場所:東京都港区南青山2-2-15 ウィン青山 1403  ホームページ:http://ianalysis.jp/  取引先 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社 2
  • 3. 2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心  疫学、臨床試験 ◦ 博士から:データマイニング分野の研究  統計的学習、機械学習  2011年iAnalysis設立 ◦ 研究によって得た分析ノウハウをビジネスへ ◦ 溜まっているデータをどうやったら活用できるか? 3
  • 4. 頻度論 ◦ 確率とは、独立で同じ条件の試行を無限回行った時の頻度 ◦ はずはこっちの説明をします  ベイズ流 ◦ 確率とは、ある事象の起こりやすさ ◦ こっちの概念はまた後で、、、 4
  • 5. Abraham de Movireの『偶然の教え』(1700年代) ◦ コイン投げ→表が出る確率は50% ◦ サイコロ→1が出る確率は16.6%  Kolmogorovの『確率論の基礎概念』(1933年) ◦ 確率を数学として初めて体系化 ◦ 確率の3公理  確率は0~1の実数である  確実に起こる事象の確率は1である  事象Aと事象Bが互いに背反であれば、AまたはBが起こる確率は それぞれの確率を足したものである 5
  • 6. パスカルとフェルマー(1600年代) 【問題】 1. 親がサイコロを4回振って1の目がでると親が勝利。 2. 親が2個のサイコロを24回振って1, 1の目がでると親が勝利。 それぞれ親が勝つ確率は?? ギャンブラー達の答え 1/6 * 4 = 2/3 1/36 * 24 = 2/3 両方同じ確率になるはず。 しかし、実際にやってみるとルール1の方がより多く勝った。 どうして?ということでパスカルとフェルマーに相談した。 6
  • 7. ギャンブラー達の理論でいくと、6回サイコロを投げれば 1/6 * 6 = 1 となって親が必ず勝つことになる。これは何か変だ。 こうやって解くとこにしよう。 1回の試行で親が勝てなかった確率をかけいって、最後に1から引こう。 (1 – 1/6)^4 = 0.482 1 – 0.482 = 0.515 (1 – 1/36)^24 = 0.509 1 – 0.509 = 0.491 これでルール1の方が、親が勝ちやすいことが分かった。 7
  • 8. こういう問題を考える ◦ コインを4回投げたとき、1回だけ表が出る確率は? ◦ サイコロを10回振ったとき、1が3回だけ出る確率は? ◦ 箱に1個の赤玉と9個の緑玉が入っている。その箱から5回取り出した とき(取った玉は元に戻す)、2回だけ赤玉が出る確率は?  パスカルとニュートンが二項式によって解けることを発見 n Ck p k(1-p)n-k 二項係数 8
  • 9. 16章 平均の法則 ◦ John Kerrichの実験(第二次世界大戦中?) ◦ 10,000回コイン投げを行った 回数 表の回数 期待との差 回数 表の回数 期待との差 10 4 -1 1,000 502 2 50 25 0 5,000 2,533 33 100 44 -6 6,000 3,009 9 200 98 -2 7,000 3,516 16 300 146 -4 8,000 4,034 34 400 199 -1 9,000 4,538 38 500 255 5 10,000 5,067 67 9
  • 10. 次回行います! 10
  • 11. 次回行います! 11