Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

おしゃスタat銀座

10,937 views

Published on

  • Be the first to comment

おしゃスタat銀座

  1. 1. iAnalysis合同会社最高解析責任者 倉橋一成 1
  2. 2.  私が『Statistics』を読んで内容を話してます これまで第1回~第5回まで開催 ◦ 第1章:制御された実験 ◦ 第2章:観察研究 ◦ 第3章:ヒストグラム ◦ 第4章:平均と標準偏差 ◦ 第5章:正規近似 ◦ 第6章:測定誤差 ◦ 第7章:直線プロット ◦ 第8, 9章:相関 ◦ 第10, 11, 12章:回帰 ◦ 第13, 14章:確率 ◦ 第15章:二項式  ここまで進んでます 2
  3. 3.  2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心  疫学、臨床試験 ◦ 博士から:データマイニング分野の研究  統計的学習、機械学習 2011年iAnalysis設立メンバー ◦ 分析ノウハウをビジネスへ ◦ ミッション:日々溜まっていくデータをどうやったら有効活用できるか? Twitter: @isseing333 blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/ 3
  4. 4.  設立:2011年3月24日 Web:http://ianalysis.jp/ 場所:東京都港区南青山2-2-15 ウィン青山 1403 取引先業種 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社 医療分野から始まり、様々な業種へコンサルティングを行なっています 4
  5. 5. 統計学のこぼれ話と データマイニング 5
  6. 6. ◦ iAnalysis Facebookページより:http://www.facebook.com/ianalysis 6
  7. 7. ◦ iAnalysis Facebookページより:http://www.facebook.com/ianalysis 経験的に得られたデータを分析し法則性を見出す 7
  8. 8.  ある事象を数値化した集合 ◦ 身長が165cm ◦ 体重が60kg 分析をするためには基本的に表(テーブル)の形にしなければならない ID 年齢 身長 体重 1 20 165 60 2 43 178 73 3 36 163 57 ... ... ... ... ◦ データベースのテーブルやエクセルのシートのイメージ 8
  9. 9. 列 項目、変数 ID 年齢 身長 体重 1 20 165 60 行 2 43 178 73 3 36 163 57 (1つの)データ 観測 ... ... ... ... 特徴ベクトル 「行」が1つ分のデータ、「列」が1つの項目 9
  10. 10. 10
  11. 11.  SASジャパンとクロス・マーケティングによる調査 ◦ ビジネスパーソン1,000人へのアンケート ◦ http://www.sas.com/offices/asiapacific/japan/news/press/201112/14.html ◦ イメージ:顧客ニーズ、市場調査、数字をベースにした業務など  ちょっと曖昧、、、 11
  12. 12.  ネットフリックス ◦ 1997〜 ◦ DVDのオンラインレンタル 既に全国展開していた「ブロックバスター」を破綻に追いやるほど成長 ◦ http://www.afpbb.com/article/economy/2759296/6233470 12
  13. 13.  ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す ◦ 1999年の売上:500万ドル ◦ 2006年の売上:10億ドル 7年で売上200倍! 成功した理由は、、、 13
  14. 14.  ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す ◦ 1999年の売上:500万ドル ◦ 2006年の売上:10億ドル 7年で売上200倍! 成功した理由は、、、 数学、統計、データマイニング 14
  15. 15.  顧客の好みを分析して映画をレコメンド(推奨)する ◦ アマゾンの推奨が有名 商品のクラスタリング 顧客のクラスタリング レビューの分析 在庫状況 ◦ 普段借りられないが好みの合映画を推奨する 自社:数学者、エンジニア、統計家などで開発 社外:コンテストを利用して優秀な力を借りている ◦ シネマッチの性能を最も改善できたチームに100万ドル ◦ 優秀な人材を雇う人件費に比べたら100万ドルは微々たるもの 15
  16. 16.  ビジネスモデル:月額固定で借り放題、期間制限・延滞料なし、配送無料 普段は借りず、たまにしか借りない顧客が利益率が高く、最重要!! このような顧客に優先してDVDを届けたい 頻繁に借りる会員が「不公平だ」と感じてしまう(→訴訟へ発展) 「利益の最適化」と「公平な配送」のバランスを計算する このアルゴリズムのお陰で、利益を上げつつ不満も解消できた 16
  17. 17.  過去に借りられた「似ている映画」と同じくらいレンタルされるだろう 「ファヴェーラの丘」という映画 主役はリオデジャネイロのスラム出身ミュージシャン リオのスラム街を描いた「シティ・オブ・ゴッド」は100万回 インドのスラム街を描いた「売春窟に生まれついて」は50万回 両方借りられた回数は25万回 なので「ファヴェーラの丘」も25万回は借りられるだろうと推測できる 17
  18. 18.  チーフ・プロダクト・オフィサーの言葉 商品管理からエンジニアリングに至るあらゆる部署で分析のできる人間を 雇い、定量分析を行なっている 消費者の行動パターンについて、同時にいくつかの実験を行う 例えば“ネットフリックス試写室”を実験中 ネット上に4種類の試写室を用意して、会員2万人に試してもらった 比較対照のために、試写室に誘導しないグループも設けた 最後まで見る人は何人居るか、作品をお気に入り登録する人は何人居る か、最終的に借りるか、借りた後の評価はどうだったか すべてデータにしてチェックする 18
  19. 19.  野球:アスレチックス、レッドソックス(映画:マネーボール) 娯楽:アマゾン、ネットフリックス 小売:ウォルマート Web:グーグル、ヤフー ソーシャルゲーム:DeNA、グリー 金融:キャピタル・ワン 19
  20. 20.  野球:アスレチックス、レッドソックス(映画:マネーボール) 娯楽:アマゾン、ネットフリックス 小売:ウォルマート Web:グーグル、ヤフー ソーシャルゲーム:DeNA、グリー 金融:キャピタル・ワン 分析すると業績が上がる!? 20
  21. 21. 今日からできるデータ解析 21
  22. 22. データマイニング Phase I データの収集・加工 DBの作成・接続 ログの収集 システム開発 サーベイ、調査 Phase IV 効果検証 Phase II デザイン Phase III A/Bテスト データの可視化 モデル作成 ヒストグラム ランダム化試験 予測モデル 実験計画 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 22
  23. 23.  データを「解析できる形」にする ◦ データが全くない場合は作る ◦ データが様々なデータベース(DB)に保存されている場合は統合する  DBに保存されていてもフォーマットが違う  管理している部署が違う  アクセス制限がある “汚い”データを綺麗にクレンジングする必要がある ◦ 欠測値の検討  そのまま残す、除去する、補完する  補完:平均値、多重補完(proc MI) ◦ 外れ値の検討  間違った値→除去、欠測  間違ってないが解析には大きすぎる→ウィンザライゼーション 23
  24. 24.  数値の羅列であるデータを目に見える形にする ◦ ヒストグラム ◦ 箱ひげ図 ◦ 棒グラフ 第 1 四半期 ◦ 円グラフ 第 2 四半期 ◦ 時系列プロット 第 3 四半期 ◦ 散布図 第 4 四半期 6 5 6 4 5 3 4 3 2 2 1 1 0 0 時点1 時点2 時点3 時点4 24
  25. 25. 25
  26. 26.  データに様々な「モデル」を当てはめて、情報を探索する ◦ 変数同士の関連をチェックする ◦ ある変数に影響を与えている変数は何か?  マーケティング:購買、課金、リピートに影響する変数は何か?  医療:疾病発症、生存時間、再発、予後に影響する変数は何か? 予測したい変数:結果変数 予測に使われる変数:説明変数 ◦ 呼び方がたくさんある  結果変数→応答変数、従属変数  説明変数→予測変数、独立変数 ◦ 「統計学を勉強するときに知っておきたい10ポイント」  http://d.hatena.ne.jp/isseing333/20110710/1310283922 モデルの例:「購買したかどうか」という結果変数を、「性別・年齢・居住地 域・収入」などの説明変数で予測する ◦ ロジスティック回帰、判別分析、SVM、ニューラルネットワーク 26
  27. 27.  既にあるデータを分析するだけでは「介入効果」は測定不可 ◦ 広告の購買効果 ◦ 薬剤の治療効果 ランダム化試験を行う ◦ 対象者をランダムにいくつかの群に分けて、異なる介入を行う ◦ 介入後の結果を比較する 例 ◦ 広告A vs. 広告B ◦ 薬剤A vs. 薬剤B サンプルサイズ設計を行い、介入を行うべき人数を計算する ◦ ランダム化試験を行えば、介入人数は数百人で十分な場合が多い ◦ 大がかりな試験をすることなく、介入効果の有無を見積もることが可能 27
  28. 28. 28
  29. 29. データマイニングと分析
  30. 30. “Data Mining and Statistics for Decision Making.” 『意思決定のためのデータマイニングと統計学』 Stphane TuffryData mining is a tool for extracting the jewel of truth from the data.データマイニングとはデータから真実という 宝を抽出するためのツールである 30
  31. 31. 知識データマイニング定番のプロセス (Knowledge) パターン 変換データ (Pattern) (Transformed Data) 前処理データ (Preprocessed Data) データマートデータベース (Data Mining Mart)(Source Data) Cleaning DataDB DB Data DB 31
  32. 32. 32
  33. 33.  厳密にはニュアンスが異なるが、どれも「データ分析」を指している ニュアンス データマイニング ◦ ビッグデータと関連して話されることが多い ◦ 砂漠のようなデータから金を見つける 機械学習 ◦ 中身はブラックボックスだが予測精度が良い 統計的学習 ◦ 計算方法の可読性・解釈を重視 33
  34. 34.  様々なところに記録されているデータを統合する ◦ 社内の部署連携 ◦ データベースエンジニア、インフラエンジニア 大規模データを扱う必要 ◦ 数100GB~数10TB ◦ Facebookは1日に約100TBのデータが発生 ◦ Googleは約200億(?)のサイトから検索を行っている(約400TB?) ◦ Amazonは数千万アイテムの中からリコメンド(推奨)している 「分散処理」によって高速に処理を行う ◦ Hadoop(ハドゥープ)  Googleの基盤技術であるMapReduceをJavaでオープンソース実装した分散処理のフ レームワーク 34
  35. 35.  Hadoop ◦ 分散処理のためのJavaライブラリ 「Hadoop分散処理、6時間から5分に高速化 - Yahoo! Japan」 ◦ http://journal.mycom.co.jp/news/2009/03/04/030/index.html MapReduceという概念 ◦ Map:データを分散して処理 ◦ Reduce:処理を統合 http://itpro.nikkeibp.co.jp/article/COLUMN/20110112/355999/ 35
  36. 36.  論文:Map-Reduce for Machine Learning on Multicore ◦ http://www.cs.stanford.edu/people/ang//papers/nips06- mapreducemulticore.pdf MapReduceできる統計手法 ◦ 局所重み付き線形回帰(Locally Weighted Linear Regression) ◦ ナイーブベイズ(Naive Bayes) ◦ 判別分析(Gaussian Discriminative Analysis) ◦ K-means法 ◦ ロジスティック回帰(Logistic Regression) ◦ ニューラルネットワーク(Neural Network) ◦ 主成分分析(Principal Components Analysis) ◦ 独立成分分析(Independent Component Analysis) ◦ EMアルゴリズム(Expectation Maximization) ◦ サポートベクターマシン(Support Vector Machine) これらを組み込んでいるのがMahout リアルタイム性を重視したJubatus 36
  37. 37.  教師付き学習 ◦ “予測的”データマイニング ◦ 過去のデータを使って将来の値を予測する 1. 回帰モデル 2. カテゴリ予測 3. 機械学習 非教師付き学習 ◦ “記述的”データマイニング ◦ データのパターンを発見する A. アソシエーションルール B. クラスタリング C. テキストマイニング 37
  38. 38. 教師付き学習 一般化線形モデル ◦ 線形回帰:Y = a + bx1 + cx2 + … ◦ ロジスティック回帰:logit(P) = a + bx1 + cx2 + … ◦ ポアソン回帰:log(Y) = a + bx1 + cx2 + … 正則化回帰 ◦ リッジ回帰、LASSO、LARS  パラメータ推定にペナルティを付けて過適合を防ぐ 時系列モデル ◦ ARIMA 非線形回帰 ◦ スプライン、一般化加法モデル ◦ 多変量加法回帰スプライン(multiple adaptive regression splines; MARS) 生存時間解析 ◦ カップラン・マイヤー曲線、Cox比例ハザードモデル 38
  39. 39. 教師付き学習 判別分析 ロジスティック回帰 決定木 ◦ 再帰的分割アルゴリズム(Recursive Partitioning Algorithms) 収入>○○ Yes No 職歴>3年 高負債 購入する 購入しない 購入しない 購入する 39
  40. 40. 教師付き学習 サポートベクターマシン(Support Vector Machine; SVM) カーネルトリック ニューラルネットワーク(Neural Network; NN) input ニューロン output x1 β1 x2 β2 Y … β0 xn βn 40
  41. 41.  線形予測・判別 非線形予測・判別 41
  42. 42.  複雑な結果(非線形)になるので解釈が難しい データの特徴を単純化(モデル化)できない 複雑なモデルから解釈可能なルールを抽出する方法もある ◦ 決定木を駆使してルールを抽出する 42
  43. 43.  「学習」させ過ぎると「過適合」が起こる クロスバリデーション(交差検証)を行う必要がある ◦ K-fold Cross-Validation(K=10、K=2、K=nの場合が多い) … …K回 … … Validation Data(検証データ) Training Data(学習データ、訓練データ) 43
  44. 44. エラー 検証データ ここで学習を止める(early stopping) 過適合!! 学習データ 学習 44
  45. 45. 非教師付き学習 バスケット分析 ◦ 一緒に購入しやすいアイテムのパターンを抽出する ・support(X→Y) = number of (X U Y) / total number ・confidence(X→Y) = support(X U Y) / support(X) 対象者 アイテム 1 Item6, Item2, Item4 2 Item1, Item3 3 Item3, Item6 4 Item1, Item2, Item3 5 Item1, Item2, Item6, Item3, Item4 6 Item2, Item6, Item4 7 Item2, Item4, Item6 Item6 → Item4, Item2 support = 4/7, confidence = 4/5 Item6, Item2 → Item4 support = 4/7, confidence = 4/4 45
  46. 46. 非教師付き学習 K-means ◦ ↓このサイトが非常に分かりやすい ◦ http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise 自己組織化マップ(Self-Organization Map; SOM) ◦ ニューロンを使ったクラスタリング ネットワーク分析 ◦ データのネットワーク図を描いて特徴を探る 46
  47. 47. http://d.hatena.ne.jp/isseing333/20110224/1298512568 A B CAとCの関連は強いAとBの関連は弱い 47
  48. 48.  ハイテク企業の管理職21人の社会ネットワーク ◦ 『ネットワーク分析 (Rで学ぶデータサイエンス 8) 』 「アドバイスを求める」 「友人である」 「報告をする」 http://d.hatena.ne.jp/yokkuns/20110223/1298416018 48
  49. 49. 非教師付き学習 「文章」データから情報を抽出する ◦ Twitter、Facebook ◦ 小説 ワードクラウド ◦ 形態素解析+単語が利用されている頻度の可視化 49
  50. 50. 全文章(約35万文字)を分析このままではちょっと分からない→パラメータを変えたりして「マイニング」 50
  51. 51.  利点 Rは完全無料の統計ソフト データサイズは1Gくらいまで分析できる(もちろんPC性能に依ります) 充実したライブラリ(全て無料) 欠点 保証がない→コミュニティ(使ってる人同士)でカバー ビッグデータは扱えない→これからの発展に期待、Rhadoopとか 計算結果が本当に合っているのか→ベースとなる機能はほぼ大丈夫 ◦ ミスが起こりやすいのはライブラリよりデータ加工やプログラムの方 プログラミングが必要→言語の中では取得しやすい 51
  52. 52. ぜひデータ分析を活用して業務アップに役立てて下さい!

×