Tokyowebmining19 data fusion

6,782 views

Published on

Tokyowebmining19 data fusion

  1. 1. データフュージョン 徹底入門 @yokkuns: 里 洋平 yohei0511@gmail.com 2012.06.23 第19回TokyoWebmining2012年6月23日土曜日
  2. 2. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ2012年6月23日土曜日
  3. 3. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ2012年6月23日土曜日
  4. 4. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中2012年6月23日土曜日
  5. 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました!2012年6月23日土曜日
  6. 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する2012年6月23日土曜日
  7. 7. 活動例: 市場予測 Web上の情報から市場予測2012年6月23日土曜日
  8. 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 852012年6月23日土曜日
  9. 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 モデル構築 3.0000 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 862012年6月23日土曜日
  10. 10. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 872012年6月23日土曜日
  11. 11. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ2012年6月23日土曜日
  12. 12. データフュージョンとは 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ  購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共通で得られている変数 2012年6月23日土曜日
  13. 13. マルチデータソースとシングルソースデータ 複数の異なるサンプルから得られたデータをマルチソースデータと呼ぶ ある特定の性質を有する製品をある特定のターゲットがどれくらい購入するか などの問題に対して解析を行うためには、シングルソースデータが必要 シングルソースデータ マルチソースデータ 広告接触 購買  広告接触 購買2012年6月23日土曜日
  14. 14. シングルソースデータの入手は困難① テレビや新聞、雑誌やインターネットなど様々な媒体で広告がある そのすべてを1人の人から同時に調査する事は不可能2012年6月23日土曜日
  15. 15. シングルソースデータの入手は困難② 広告接触データは市場調査、購買履歴データはPOSシステムなど シングルソースデータで情報が得られる事は少ない 購買履歴データ  市場調査データ 2012年6月23日土曜日
  16. 16. シングルソースデータの入手は困難③ 実績データの代わりに「購買有無」「広告接触」を調査する事で シングルソースデータを得る事は可能だが、月単位でしか得られない 実績データにおいて得られる日時単位の測定とは大きく乖離 購買有無  広告接触  購買履歴データ  日時単位の情報 月単位の情報2012年6月23日土曜日
  17. 17. マルチソースデータをシングルソースデータに 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ  購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共通で得られている変数 2012年6月23日土曜日
  18. 18. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ2012年6月23日土曜日
  19. 19. 欠測データ 観測出来ない方のデータを欠測してると考える 因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造 因果推論 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 データ融合介入を受けない 場合の結果 欠測  対照群のデータ  購買履歴データ 市場調査データ 購買履歴調査の 購買履歴 欠測  共変量項目 共通で得られている変数  データ  市場調査の 質問紙項目 欠測  回答データ  選択バイアス 選択者 非選択者 共変量項目 共通で得られている変数  従属変数 選択者のデータ  非選択者のデータ  共変量項目 共通で得られている変数 2012年6月23日土曜日
  20. 20. 欠測の分類 ◆ 各変数レベルでの記入漏れや無回答 ◆ 打ち切りや切断 ◆ パネルデータでの脱落または摩耗 ◆ 調査や測定全体への無回答や不参加、測定不能2012年6月23日土曜日
  21. 21. 欠測のメカニズム ◆ 完全にランダムな欠測 ・欠測するかどうかはモデリングに用いている変数には依存しない ◆ ランダムな欠測 ・欠測するかどうかは、欠測値には依存せず観測値に依存する ◆ ランダムでない欠測 ・欠測するかどうかは欠測値そのものの値や観測していない他の変数 にも依存する2012年6月23日土曜日
  22. 22. 欠測データを用いた因果効果の考え方 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均2012年6月23日土曜日
  23. 23. 欠測データを用いた因果効果の考え方 処置群と対照群を ランダムに割当 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均2012年6月23日土曜日
  24. 24. 欠測データを用いた因果効果の考え方 処置群と対照群を ランダムに割当 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 介入を受けない 場合の結果 欠測  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均2012年6月23日土曜日
  25. 25. 欠測データを用いた因果効果の考え方 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群と対照群を ランダムに割当 処置群 対照群 期待値が等しい! 介入を受けた 処置群のデータ  欠測  •対照群が介入を受けていた場合の期待値と 場合の結果 介入を受けた処置群の期待値は同じ 介入を受けない 場合の結果 欠測  対照群のデータ  •処置群が介入を受けない場合の期待値と 介入を受けなかった対照群の期待値は同じ 因果効果 = 処置群の平均 - 対照群の平均2012年6月23日土曜日
  26. 26. 欠測データを用いた因果効果の考え方 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 処置群の平均 - 対照群の平均2012年6月23日土曜日
  27. 27. 欠測データを用いた因果効果の考え方 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 処置群の平均 - 対照群の平均2012年6月23日土曜日
  28. 28. 欠測データを用いた因果効果の考え方 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 介入を受けない 場合の結果 欠測  対照群のデータ  因果効果 処置群の平均 - 対照群の平均2012年6月23日土曜日
  29. 29. 欠測データを用いた因果効果の考え方 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 期待値が違う! 介入を受けた •対照群が介入を受けていた場合の期待値と 処置群のデータ  欠測  場合の結果 介入を受けた処置群の期待値が異なる 介入を受けない 場合の結果 欠測  対照群のデータ  •処置群が介入を受けない場合の期待値と 介入を受けなかった対照群の期待値が異なる 因果効果 処置群の平均 - 対照群の平均2012年6月23日土曜日
  30. 30. 欠測データを用いた解析: 傾向スコア 実験出来ないデータの因果関係を解析する 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 共変量で割当をモデリング 介入を受けた 処置群のデータ  欠測  場合の結果 傾向スコアの算出 介入を受けない 場合の結果 欠測  対照群のデータ  共変量項目 共通で得られている変数  傾向スコアを用いた調整 ◇マッチング ◇層別解析 ◇共分散分析2012年6月23日土曜日
  31. 31. 欠測データを用いた解析: 傾向スコア 割当によって観測出来ない潜在的変数を考える 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果介入を受けない 欠測  対照群のデータ      場合の結果 y1とy0は両方存在するが 割当によって観測出来ないと考える2012年6月23日土曜日
  32. 32. 欠測データを用いた解析: 傾向スコア 割当変数zと求めたい因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果介入を受けない 欠測  対照群のデータ      場合の結果 処置群での平均介入効果 average treatment z=1の時のy1とy0の差を知りたいが effect on the treated どちらか一方は観測出来ない2012年6月23日土曜日
  33. 33. 欠測データを用いた解析: 傾向スコア 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果介入を受けない 欠測  対照群のデータ      場合の結果 共変量項目 共通で得られている変数  強く無視出来る 割当条件 : 共変量の値が等しい時は 割当はランダムという仮定 : 共変量の影響を 除去した因果効果2012年6月23日土曜日
  34. 34. 欠測データを用いた解析: 傾向スコア 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果介入を受けない 欠測  対照群のデータ      場合の結果 共変量項目 共通で得られている変数  共変量が同じならz=1のy0の期待値を 強く無視出来る 割当条件 : z=0の時のy0の期待値で代用出来る : 共変量の影響を 除去した因果効果2012年6月23日土曜日
  35. 35. 傾向スコア 対象者の群1へ割り当てられる確率 第i対象者の割当変数の値 第i対象者の共変量の値2012年6月23日土曜日
  36. 36. 傾向スコアの推定 プロビット回帰やロジスティック回帰で推定する2012年6月23日土曜日
  37. 37. 傾向スコアを用いた調整 • マッチング • 2つの群で傾向スコアが等しい(近い)対象者をペアにしてその差の 平均を因果効果とする • 層別解析 • 傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ スで処置群と対照群の平均の計算と、全体としての効果の推定量を計 算する • 共分散分析 • 割当変数と傾向スコアを説明変数とした線形の回帰分析を行う2012年6月23日土曜日
  38. 38. 傾向スコアを用いた調整 傾向スコアの逆数による重み付け平均2012年6月23日土曜日
  39. 39. 傾向スコアを用いた調整 傾向スコアの逆数を重みづけたyの期待値は y1の周辺平均の不偏推定量2012年6月23日土曜日
  40. 40. 傾向スコアを用いた調整 因果効果の推定値とその分散が計算出来る 因果効果 因果効果の分散2012年6月23日土曜日
  41. 41. 欠測データでの選択バイアスの補正 選択されるか否かをモデル化し、バイアスを補正する 欠測データによる選択バイアスの解析の表現 選択されるか否か (コントロール出来ない) 選択者 非選択者 従属変数 選択者のデータ  非選択者のデータ  選択 をモデリング 母集団の期待値を推定 共変量項目 共通で得られている変数  ・共変量や従属変数を用いて 選択 を モデリング ・選択者のデータを補正して、母集団の   期待値を推定する2012年6月23日土曜日
  42. 42. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ2012年6月23日土曜日
  43. 43. 欠測データを用いたデータフュージョンの考え方 欠測が発生しているシングルソースデータとして考え のりしろとなる共変量を用いてデータを結合する のりしろとなる 購買履歴データ  共通項目で結合 共変量  購買履歴データ 市場調査データ 購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共変量  共通で得られている変数 2012年6月23日土曜日
  44. 44. 前提条件 欠測のメカニズムは 欠測値には依存しない ランダムな欠測 共変量を条件づけた場合には、各目的変数は独立 ◆ ランダムな欠測 ・購買履歴データには男女の両方が含まれているのに、広告接触データには 男性のデータしか含まれていない、というなかたよりがない ◆ 条件付き独立 ・共変量を条件づけた場合には各目的変数は独立になる。2012年6月23日土曜日
  45. 45. データフュージョンの各手法 大きく4つの手法が提案されている 近年は、セミパラメトリックモデルが熱い!(?) ◆ マッチング ◆ 潜在変数モデリング ◆ 回帰モデル ◆ セミパラメトリックモデル2012年6月23日土曜日
  46. 46. マッチング 共変量に関して最も近くなるような データAとデータBの対象者をペアを作り、同一調査対象と見なす 共変量が近いペア 【問題点】 1.推定精度が高くない可能性がある 共変量を増やす事で誤差を減少出来る 共変量は傾向スコアでまとめる 2.マッチングに利用しない対象者データが無駄になる 3.確率的な変動を考慮できず統計的な性質が明確でない 広告接触 購買 リサンプリングや多重代入法で解決 4.個人情報保護法などの観点からの問題が生じる可能性 広告接触については、データAの対象者から 購買については、データBの対象者から得られる2012年6月23日土曜日
  47. 47. 潜在変数モデリング 通常の多変量解析において一部の変数が欠測しているデータに対して 潜在変数モデルを利用する事で欠測の問題を回避する 共通因子や潜在クラスを仮定して、データフュージョンを行う 購買履歴データ 欠測 共変量 潜在 潜在 クラス クラス 欠測 市場調査データ2012年6月23日土曜日
  48. 48. 回帰モデル ロジスティック回帰モデルなどを用いて 共変量から目的とする欠測変数を直接推定する 回帰モデル マッチング2012年6月23日土曜日
  49. 49. セミパラメトリックモデル 共変量の情報を最大限に生かして予測を行うためには セミパラメトリックな回帰手法が望ましい ◆ カーネルマッチング ・カーネル回帰モデルで欠測変数を推定する ・通常のマッチングでは予測に使うデータは1つまたは数個だけだが、 カーネルマッチングでは、カーネルによる重みで全て利用する ◆ ディリクレ過程混合モデル ・回帰の混合モデルにおいて要素数Kを事前に決定するのではなく データから決定するモデル2012年6月23日土曜日
  50. 50. ディリクレ過程混合モデリング ロジスティック回帰の混合モデルにおいて 要素数Kを事前に決定するのではなくデータから決定するモデル2012年6月23日土曜日
  51. 51. AGENDA ◆ 自己紹介 ◆ データフュージョンとは ◆ 欠測データ ◆ データフュージョン手法 ◆ まとめ2012年6月23日土曜日
  52. 52. データフュージョンとは 複数の異なるデータを単一データに統合する事で より良い予測と意思決定を支援するための手法 購買履歴データ 市場調査データ 購買履歴データ  購買履歴データ  欠測  欠測  市場調査データ  市場調査データ  共通で得られている変数 2012年6月23日土曜日
  53. 53. 参考資料 ◆ Rで学ぶ傾向スコア解析入門 http://www.slideshare.net/yokkuns/r-9387843 ◆ 選択バイアス入門 http://www.slideshare.net/yokkuns/tokyor22-selection-bias ◆ data fusion についてのメモ - BOD http://d.hatena.ne.jp/dichika/20110907/13153592072012年6月23日土曜日
  54. 54. Tokyo.Rの次回以降の 発表者・LTを募集しています!2012年6月23日土曜日
  55. 55. ご清聴ありがとうございました!2012年6月23日土曜日

×