Tokyor26 data fusion

4,184 views

Published on

Tokyor26 data fusion

  1. 1. R言語で学ぶ Data Fusion入門 @yokkuns: 里 洋平 yohei0511@gmail.com 2012.09.08 TokyoR262012年9月9日日曜日
  2. 2. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  3. 3. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  4. 4. 自己紹介 ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データサイエンティスト ◆ 時系列解析や異常検知など 各種方法論を実ビジネスに適用2012年9月9日日曜日
  5. 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました!2012年9月9日日曜日
  6. 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する2012年9月9日日曜日
  7. 7. 活動例: 市場予測 Web上の情報から市場予測2012年9月9日日曜日
  8. 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 852012年9月9日日曜日
  9. 9. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 872012年9月9日日曜日
  10. 10. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  11. 11. Data Fusionとは 872012年9月9日日曜日
  12. 12. Data Fusionとは 異なる複数のデータを 単一のデータに統合することで 872012年9月9日日曜日
  13. 13. Data Fusionとは 異なる複数のデータを 単一のデータに統合することで 個別のデータからは得られない 複合的な情報を抽出し 872012年9月9日日曜日
  14. 14. Data Fusionとは 異なる複数のデータを 単一のデータに統合することで 個別のデータからは得られない 複合的な情報を抽出し 予測や意思決定を支援する方法論 872012年9月9日日曜日
  15. 15. Data Fusionとは 異なる複数のデータを単一のデータに統合し 個別のデータからは得られない、複合的な情報を抽出する データA データB データAとデータBの相関関係 データBで特定の値だったユーザのデータAの値の予測・補完 872012年9月9日日曜日
  16. 16. Data Fusionの活用シーン 広告接触のデータと購買履歴のデータ 異なる対象者によるデータである事が多い 購買履歴データ 広告接触データ2012年9月9日日曜日
  17. 17. Data Fusionの活用シーン 広告接触データでの購買有無 購買データでの広告接触の有無 これらを予測・補完できれば、重要な示唆が得られる 購買履歴データ 広告接触データ ある広告を見たユーザーのうち、ある商品はどれだけ購入されたか どのような広告媒体にどのような情報を載せれば、より購入されるか ・・・ 872012年9月9日日曜日
  18. 18. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  19. 19. 類似度からのアプローチ 広告媒体への接触やある特性を有する商品の購入は ユーザーの属性に偏りが存在する 広告A 商品A 広告B 商品B 属性が似ている 属性は似てない2012年9月9日日曜日
  20. 20. 類似度からのアプローチ 属性が似ているユーザーは 接触する広告媒体や購入する商品が似ている 広告A 商品A 広告B 商品B 属性が似ている 属性は似てない 872012年9月9日日曜日
  21. 21. Matching法 購買履歴データと広告接触データで 属性が似ている人でペアを作り、同一ユーザーと見なす 購買履歴データ 広告接触データ 商品A 広告A 買った 見た 商品A 広告A 買った 見た2012年9月9日日曜日
  22. 22. Rでの実行方法 MatchingパッケージのMatch関数でペアを抽出し 擬似的なシングルソースデータを作成する 割当変数 共変量 データAのindex データBのindex 872012年9月9日日曜日
  23. 23. Matchingの問題点 872012年9月9日日曜日
  24. 24. Matchingの問題点 測定誤差などによりバイアスが生じてしまい 推定精度があまり高くない 872012年9月9日日曜日
  25. 25. Matchingの問題点 測定誤差などによりバイアスが生じてしまい 推定精度があまり高くない マッチングに利用しない対象者のデータが 無駄になるため、非常に非効率 872012年9月9日日曜日
  26. 26. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  27. 27. 因子分析モデル 購買有無・広告接触有無・属性 3つの変数の背後に共通の因子を仮定して予測を行う 共通因子 共通因子 購買有無 共変量 広告有無 購買有無 共変量 広告有無 共通因子 購買有無 共変量 広告有無 872012年9月9日日曜日
  28. 28. 潜在クラスモデル 消費者市場のセグメンテーションと同じ概念 各潜在クラス内では広告接触や購入する商品が似ている 商品Aが2/3 広告Aが2/3 商品Bが1/3 購買履歴データ 広告接触データ 広告Bが1/3 潜在クラスA 潜在クラスA 商品A 広告A 商品B 潜在クラスA 広告A 商品A 広告B2012年9月9日日曜日
  29. 29. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  30. 30. 回帰モデルによる融合 属性データを用いて直接購買の有無をモデリングする 2値変数の場合ロジスティック回帰が使われる 872012年9月9日日曜日
  31. 31. Rでの実行方法 一般化線形モデルの関数glmを使って ロジスティック回帰分析を実行して予測する 872012年9月9日日曜日
  32. 32. Rでの実行例: 使うデータ データセットlalondeを2分割してマルチソースデータを作成 NSW受講者の78年賃金有りの割合を予測する 872012年9月9日日曜日
  33. 33. Rでの実行例: Data Fusionによる予測 Matchingとロジスティック回帰による Data Fusionの関数を定義 872012年9月9日日曜日
  34. 34. Rでの実行例: Data Fusionによる予測 Matchingとロジスティック回帰の2つの手法で予測する サンプリングして100回実行 872012年9月9日日曜日
  35. 35. Rによる実行結果 どちらも手法も値が希薄化が起きている バラツキは回帰モデルの方が小さい NSW受講者の78年賃金有りの比率の推定結果 872012年9月9日日曜日
  36. 36. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  37. 37. 欠測データとしてのData Fusion 購買履歴データと広告接触データは 他方のデータが欠測しているシングルソースデータ 欠測データとしてのData Fusion 購買履歴データ 市場調査データ 購買履歴 購買履歴データ  欠測  広告接触 欠測  広告接触データ  共変量 共通で得られている属性データ 2012年9月9日日曜日
  38. 38. 欠測しているデータの予測分布 広告接触データで欠測している購買データの 予測分布を考える 872012年9月9日日曜日
  39. 39. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 872012年9月9日日曜日
  40. 40. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 872012年9月9日日曜日
  41. 41. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 872012年9月9日日曜日
  42. 42. Data Fusionの前提条件① : ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 872012年9月9日日曜日
  43. 43. 欠測しているデータの予測分布 ある属性を条件付けた時の 購買有無と広告接触の同時分布が分かれば ある広告に接触した人がどれくらい購買しているかが分かる 872012年9月9日日曜日
  44. 44. Data Fusionの前提条件② : 条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 872012年9月9日日曜日
  45. 45. Data Fusionの前提条件② : 条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 872012年9月9日日曜日
  46. 46. Data Fusionの前提条件② : 条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 872012年9月9日日曜日
  47. 47. Data Fusionの前提条件が成り立つためには 条件付き独立性の仮定が成り立つためには 属性による購買有無の予測力が十分高い必要がある 872012年9月9日日曜日
  48. 48. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  49. 49. 混合モデルで説明力を上げる 通常の回帰モデルでは説明力が低い 混合モデルを利用することで説明力を上げる 混合回帰モデルのイメージ 図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 872012年9月9日日曜日
  50. 50. ディリクレ過程混合モデル 混合モデルにおいて要素数を事前に決めるのは難しい ディリクレ過程混合モデルは、要素数をデータから決定する 混合回帰モデルとディリクレ過程混合モデル 図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 872012年9月9日日曜日
  51. 51. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  52. 52. 参考資料 ■調査観察データの統計科学 http://www.amazon.co.jp/dp/4000069721 ■data fusion についてのメモ - BOD http://d.hatena.ne.jp/dichika/20110907/1315359207 ■A Direct Approach to Data Fusion http://www.chicagobooth.edu/research/workshops/marketing/archive/ WorkshopPapers/Rossi.pdf ■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」 http://chasen.org/ daiti-m/paper/ibis2008-npbayes-tutorial.pdf2012年9月9日日曜日
  53. 53. AGENDA ■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料2012年9月9日日曜日
  54. 54. 次回以降の 発表者を募集しています! 導入セッション・初心者セッションも 絶賛募集中です! 872012年9月9日日曜日

×