Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

おしゃスタVI 倉橋

4,715 views

Published on

おしゃスタVI 倉橋

  1. 1. iAnalysis合同会社  代表・最⾼高解析責任者  倉橋⼀一成   1
  2. 2.   設⽴立立:2011年年3⽉月24⽇日    Web:http://ianalysis.jp/    本社:東京都港区南⻘青⼭山2-‐‑‒2-‐‑‒15  ウィン⻘青⼭山    取引先業種   ◦  製薬会社   ◦  医療療系⽀支援・コンサルティング会社   ◦  広告代理理店   ◦  ⼈人材サービス会社、ソーシャルゲーム会社   【本社エントランス】   ◦  商社、統計解析会社    医療療分野から始まり、多種多様な業種へのコンサルティング   ◦  Twitter:@iAnalysisLLC   ◦  Facebook:  http://www.facebook.com/ianalysis   2
  3. 3. 【経歴】      東京⼤大学Ph.D  (2011),  Statistician,  Data  Scientist,  Data  Miner    【専⾨門】    cDNAマイクロアレイ、臨臨床試験データ、レセプトデータ、    電⼦子カルテ・医療療オーダーデータ、マーケティングデータ    【スキル】    R,  SAS,  SPSS,  Visual  C++,  Ruby  on  Rails,  Python    【主な実績】    ・2005:NPO⽇日本臨臨床研究⽀支援ユニット、解析担当      腎臓癌患者の調査データの解析(SAS)      レセプトデータの解析と結果のレポーティング(R)    ・2007、2009:スタットコム株式会社、統計解析者      ⼩小児癌の臨臨床試験のプロトコルに沿った解析とレポーティング      術後乳癌患者のQOLに関する研究の解析と統計アドバイス    ・2009〜~2010:帝京⼤大学、医師への統計コンサルタント      論論⽂文化にあたっての医師へのアドバイスと解析      様々な科の医師に対してのコンサルタント(内科、外科、眼科など)スタットコム株式会社、統計解析者    ・2010:キャピタルメディカ株式会社、プロジェクトメンバー      レセプトデータを活⽤用した新規プロジェクトの⽴立立ち上げメンバー    ・2011:iAnalysis合同会社  設⽴立立  ※Twitter:  @isseing333  ※blog:  「おとうさんの解析⽇日記」  http://d.hatena.ne.jp/isseing333/   3
  4. 4.   『Statistics』を読んで内容を話しています    これまで第1回〜~第5回まで開催   ◦  第1章:制御された実験   ◦  第2章:観察研究   ◦  第3章:ヒストグラム   ◦  第4章:平均と標準偏差   ◦  第5章:正規近似   ◦  第6章:測定誤差   ◦  第7章:直線プロット   ◦  第8,  9章:相関   ◦  第10,  11,  12章:回帰   ◦  第13,  14章:確率率率   ◦  第15章:⼆二項式     ここまで進んでます   4
  5. 5. 『Statistics』に⼊入る前に   5
  6. 6. 何で統計の勉強を   するんだっけ?   6
  7. 7. 7
  8. 8. 1 •  分析⼒力力に劣劣る企業 2 •  分析⼒力力の活⽤用が限定的な企業 3 •  分析⼒力力の組織的な強化に取り組む企業 4   •  分析⼒力力はあるが決定打に⾄至らない企業 5 •  分析⼒力力を武器とする企業 8
  9. 9. ステージ   組織戦略略   ⼈人   技術   経営陣のコミッ ⽬目標   現状   スキル   企業⽂文化   トメント   データがない。 分析はほとん データアレル1.  分析⼒力力に 顧客・市場・競 精度度が低い。定 ど⾏行行われてい なし   なし   ギー。直感に頼 劣劣る企業   合について知る。   義が曖昧。シス ない。   る。   テムがばらばら。   各事業ばらばら ごく狭い範囲 客観的なデータ にデータを収集2.  分析⼒力力の データ分析の経 でしかデータ ⼀一部の部⾨門にア 特定事業や戦術 が必要と感じて している。重要 活⽤用が限 験を⾃自主的に蓄 収集・分析が ナリストがいる 的な対応に限ら いる。⼀一部の部 なデータが⽋欠落落 定的な企 積し、トップの ⾏行行われていな が孤⽴立立している。   れている。   ⾨門では関⼼心が⾼高 している。シス 業   関⼼心を引く。   い。   まっている。   テムが統合され ていない。   組織横断型で3.  分析⼒力力の データ収集・分 多くの部⾨門にア 経営陣は事実を 分析⼒力力を競争優 システムやソフ 組織的な 析を⾏行行う。全社 分析プロセス ナリストがいる 重んじる姿勢を 位にすることに トウェアは整い、 強化に取 共通の業績評価 は各部⾨門不不統 が、ネットワー 打ち出している ⼀一部の幹部が興 データウェアハ り組む企 指標を設定する。 ⼀一である。   ク化されていな が、抵抗に遭っ 味をもち始めた。   ウスも拡張中。   業   データ分析で事 い。   ている。   業機会を探す。   9
  10. 10. ステージ   組織戦略略   ⼈人   技術   経営陣のコミッ ⽬目標   現状   スキル   企業⽂文化   トメント   組織横断型の分 スキル開発は⾏行行4.  分析⼒力力は データ分析が データの精度度は 析プラット われているが、 あるが決 ある程度度まで 経営陣のサポー 事実に基づく意 ⾼高く、全社的な フォームを構築 まだ⽔水準に達し 定打に⾄至 業務プロセス トが得られてい 思決定の浸透を 分析戦略略もある。 し、組織として ていない、また らない企 に組み込まれ る。   図っている。   分析環境は整っ 分析⼒力力を⾝身につ は適材適所では 業   ている。   ている。   ける。   ない。   ⾼高度度なスキルを データ分析から 備え、意欲のあ 事実に基づいて 多くの隠されて データ分析が5.  分析⼒力力を る専⾨門家がそ CEOを筆頭に経 意思決定を下す。 組織横断型のシ いた事実を導き 定着し、⾼高度度 武器とす ろっている。周 営陣が積極的に 実験し学習する ステムが整備・ 出す。継続的に に統合化され る企業   辺業務はアウト 取り組んでいる。   姿勢が浸透して 運⽤用されている。   データやシステ ている。   ソースされてい いる。   ムの改善を図る。   る。   『分析⼒力力を武器とする企業』より   10
  11. 11.   ネットフリックス   ◦  1997〜~   ◦  DVDのオンラインレンタル    既に全国展開していた「ブロックバスター」を破綻に追いやるほど 成⻑⾧長   ◦  http://www.afpbb.com/article/economy/2759296/6233470   11
  12. 12.   ビジネスモデル:オンラインでDVDで注⽂文し郵便便で届きポストで返 す   ◦  1999年年の売上:500万ドル   ◦  2006年年の売上:10億ドル    7年年で売上200倍!    成功した理理由は、、、  数学、統計、データマイニング   12
  13. 13.   顧客の好みを分析して映画をレコメンド(推奨)する   ◦  アマゾンのレコメンドが有名    たまにしか借りない、利利益率率率の⾼高い顧客に優先してDVDを届けたい が、頻繁に借りる会員が「不不公平だ」と感じてしまう(→訴訟も)    「利利益の最適化」と「公平な配送」のバランスを計算するアルゴリ ズムを開発    新しい映画の頒布権を購⼊入するとき、過去に借りられた「似ている ジャンルの映画」と同じくらいレンタルされるだろう    新しいサービスを作るとき、それが本当に効果があるかどうか、A/ Bテストによって常にチェックする   13
  14. 14.   野球:アスレチックス、レッドソックス(映画:マネーボール)    娯楽:アマゾン、ネットフリックス    ⼩小売:ウォルマート    Web:グーグル、ヤフー    ソーシャルゲーム:DeNA、グリー    ⾦金金融:キャピタル・ワン  分析すると業績が上がる!?   14
  15. 15. データマイニング Phase  I   データの収集・加工   DBの作成・接続   ログの収集   システム開発   サーベイ、調査   Phase  IV   効果検証   Phase  II   デザイン   Phase  III   A/Bテスト   データの可視化   モデル作成   ヒストグラム   ランダム化試験   予測モデル   実験計画   散布図   機械学習   時系列プロット   クラスタリング   円グラフ、棒グラフ   因果推論   地域プロット 15
  16. 16.   『Statistics』を読んで内容を話しています    これまで第1回〜~第5回まで開催   ◦  第1章:制御された実験   ◦  第2章:観察研究   ◦  第3章:ヒストグラム   ◦  第4章:平均と標準偏差   ◦  第5章:正規近似   ◦  第6章:測定誤差   ◦  第7章:直線プロット   ◦  第8,  9章:相関   ◦  第10,  11,  12章:回帰   ◦  第13,  14章:確率率率   ◦  第15章:⼆二項式     ここまで進んでます   ◦  ⼤大事なところの復復習と、間を⾶飛ばして19章からやります   16
  17. 17. 1000⼈人   1000⼈人  コンバージョン、直帰率率率、サイト滞在率率率、リピート率率率などを⽐比較   17
  18. 18.   エクセルの表をイメージ    1つのシートが、1つのデータ   変数、項⽬目   ID   年年齢   ⾝身⻑⾧長   体重   …   1   20   165   60   …   レコード   2   43   178   73   …   3   36   163   57   …   ...   ...   ...   ...   …   18
  19. 19.   1つの変数を要約して図にしたもの    「分布」を⽰示している   19
  20. 20.   平均値:全体の平均値、分布の位置を表す    標準偏差:分布の「ばらつき」や「広がり」を表す   平均値:170cm   標準偏差:10cm   平均値±標準偏差の範囲に   約70%のデータが⼊入っている   ※変数が正規分布に近い場合   20
  21. 21. ⼆二峰性の分布   すそを引いた分布、ベキ分布  ⼤大⼈人と⼦子供が混じっている?   ⻄西暦400年年〜~2011/11/30までの地震   (ダミーデータ)   (実際のデータ)   21
  22. 22.   散布図:2変数の関係を表した図    相関:2変数の関係を数値にしたもの(-‐‑‒1〜~1)   体重   y  =  a  +  bx   誤差   ⾝身⻑⾧長   22
  23. 23.   相関係数だけでなく、散布図をチェックすることも⼤大事   23
  24. 24.   確率率率はギャンブルから始まった   ◦  1600年年代、ギャンブラーがサイコロ投げの”確率率率”を数学者のパスカルと フェルマーに相談したことが発端    胴元が勝つにはどういうルールにすれば良良いか??   【問題】   1.  親がサイコロを4回振って1の⽬目がでると親が勝利利。   2.  親が2個のサイコロを24回振って1,  1の⽬目がでると親が勝利利。   それぞれ親が勝つ確率率率は??   【解答】   (1  –  1/6)^4  =  0.482   1  –  0.482  =  0.515   (1  –  1/36)^24  =  0.509   1  –  0.509  =  0.491   ルール1の⽅方が、親が勝ちやすい   24
  25. 25.   統計は政治から始まった   iAnalysis  Facebook:h8p://www.facebook.com/ianalysis    1800年年代、イギリスやフランスで国勢調査が⾏行行われる    ガウスが正規分布に関して研究   25
  26. 26.   選挙の調査   1億⼈人   1,000⼈人(⼗十万分の1)    サンプリング調査で分かるのは、”⺟母集団”の”平均値”    ”ランダムサンプリング”していることが条件   26
  27. 27.   5%という数字の根拠を⾒見見たことがありません   ◦  もしあれば教えて下さい    もっと重要なのは”⼈人数”   ◦  ⼈人数が多ければ、⺟母集団に対する推測が正確になる   ◦  95%信頼区間が狭くなる   27
  28. 28.   このスキルがあると、実務への応⽤用範囲が広がります    教師付き学習   ◦  “予測的”データマイニング   ◦  過去のデータを使って将来の値を予測する   1.  回帰モデル   2.  カテゴリ予測   3.  機械学習    ⾮非教師付き学習   ◦  “記述的”データマイニング   ◦  データのパターンを発⾒見見する   A.  アソシエーションルール   B.  クラスタリング   C.  テキストマイニング   “Data  Mining  and  Statistics  for  Decision  Making.”   『意思決定のためのデータマイニングと統計学』   Stphane  Tuffry(通称DMDM本)   28
  29. 29.   統計ソフト   ◦  R  、SPSS  、SAS、Statistica、Mathmatica、StatView、Stata、etc.    プログラミング   ◦  Python、Rails、etc.    データベース   ◦  SQL系、Hadoop、etc.    コマンドライン   ◦  Unix系のコマンド    挙げればキリが無いけど。。。   29
  30. 30. ぜひデータ分析を活⽤用して  業務アップに役⽴立立てて下さい!   contact@ianalysis.jp  

×