Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DMPの仕組み

17,586 views

Published on

2014/01/15に行われたCAアドテクスタジオ x VOYAGEGROUP 技術交流会での発表資料です。

Published in: Technology

DMPの仕組み

  1. 1. DMPの仕組み 株式会社adingo @suzu_̲v
  2. 2. ⾃自⼰己紹介 •  すずけんと申します。 •  2012年年4⽉月~∼  株式会社adingo –  DMPの設計・開発、及び、データの解析業務に携 わっています。 –  http://cosmi.io •  その前は⼤大学院でセマンティックWebと⼈人⼯工知 能の研究をしていました。 #ajiting  #sicp  #wakateweb  #hive  #R #php  #dmp  #aws  #voyagegroup twitter:  @suzu_̲v http://suzuken.hatenablog.jp 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  3. 3. アジェンダ •  DMPとは何か –  DMPの役割 •  DMPの仕組み  –  cosmiを⽀支える技術 –  役割 –  アーキテクチャ 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  4. 4. DMPとは何か •  複数チャネルからのデータをまとめ、集計し、 活⽤用するためのツール –  横断的に効果を検証する –  ユーザの⾏行行動を分析し、広告配信に利利⽤用する •  単にディスプレイ広告の領領域だけではないと ころでも利利⽤用されるようになってきています。 –  The  Data  Management  Platform:  Foundation   for  Right-‐‑‒Time  Customer  Engagement •  http://www.iab.net/DataManagementPlatforms   2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  5. 5. シンプルに⾔言うと ⼀一⾏行行⼀一⾏行行のログから 如何に価値を⽣生み出すか ということを仕事にしています。
  6. 6. ユーザのセグメンテーション 趣味 性別 年年齢 趣向 職業 2014/01/15 どのようにセグメントしていくか? CAアドテクスタジオ  &  VG合同勉強会
  7. 7. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. DMP 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  8. 8. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. ルール) サイトAで商品Bを購⼊入したユーザは セグメントSとする。 DMP Dmp_̲id:  hogeさんはセグメントSに属する。 セグメントDB 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  9. 9. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. ルール) サイトAで商品Bを購⼊入したユーザは セグメントSとする。 2回⽬目の訪問 サイトB 2014/01/15 Dmp_̲id:  hogeさんはセグメントSに属する。 DSP:  商品Bを買ったユーザなら「この 商品Bを買ったユーザはこんな商品も 買っています」バナーなら効果⾼高そう DSP DMP セグメントDB DMP:  ユーザhogeはセグメントSです CAアドテクスタジオ  &  VG合同勉強会
  10. 10. cosmiを⽀支える技術について
  11. 11. cosmiの仕事 •  データ収集 –  様々なログを取り扱うコレクタ –  Fluentdによる回収・転送 •  データ解析 –  Hadoopによるバッチ処理理 –  ストリームによるデータ処理理 •  データ利利⽤用 –  当該ブラウザが特定のセグメントに属してい るかを返す 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  12. 12. ログ周りの管理理の話 •  広告ログ解析基盤にFluentdを使っている 話  -‐‑‒  すずけんメモ –  http://suzuken.hatenablog.jp/entry/ 2013/12/14/195406 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  13. 13. ログの観察 •  短期間のログのモニタリングには ElasticSearch  +  Kibana3を利利⽤用 –  例例)  特定のhostにおけるipアドレスのtop-‐‑‒k •  アドホックなログの観察には GrowthForecastを利利⽤用 –  data-‐‑‒counter,  flow-‐‑‒counter •  ⻑⾧長期間集計はS3  +  EMRのMapReduceで。 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  14. 14. 蓄積したデータを観察する。メトリクス に基いた定常的分析と、アドホックな分 析とを⾏行行なう。 検討 ユーザの⾏行行動データや関連 データを収集。トラッキング を⾏行行なう。様々なチャネルか らのデータを着実に蓄積する。 計測 仮説 施策 2014/01/15 仮説を元に施策を実⾏行行する。 次の収集のためのデザイン をする。 CAアドテクスタジオ  &  VG合同勉強会 データに基づき、 仮説をたてる。
  15. 15. データストアの使い分け •  S3 –  source  of  truth –  すべてのログの保存  場所 •  DynamoDB –  ベーシックなターゲティング –  容易易なスループットコントロール •  MongoDB –  多様なデータの持ち⽅方が可能 –  クライアントごとの要件にフィットさせやすい •  ElasticSearch –  短期間のログモニタリング 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  16. 16. http ⾏行行動ログコレクタ(Web) EC2 … EC2 EC2 社内⽤用管理理系統 aggregator  *  2 GrowthForecast ログモニタリングストア (ElasticSearch) cron S3 DynamoDB EC2 Amazon Elastic MapReduce 2014/01/15 オーディエンスデータDB (MongoDB) CAアドテクスタジオ  &  VG合同勉強会 EC2 … オーディエンスデータ Web  API EC2
  17. 17. 細かい⼯工夫 •  EMRクラスタが落落ちてもデータは残る –  S3に元のデータが残している •  ElasticSearchのログ保持は短いスパンのものに絞る –  種類によるが現在は1ノード100GB程度度を⽬目安にしている •  aggregatorノードはデータ収集サーバからラウンド ロビンで転送している –  primary  /  secondary構成を取るべき場⾯面もあるが、その ような処理理が必要のないように調整している –  aggregatorノードのscale  upが可能に •  データ収集サーバではファイルシステムからのin_̲tail でのみinputしている。 –  fluentdが落落ちた場合も最悪cronでs3に転送すればなんと かなる 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  18. 18. DevOps的なこと •  デプロイはJenkins  +  fabric  +  make –  make  installでどのapplicationもデプロイで きるようになっている –  各⾃自の開発環境も同様 •  AMIは弊社インフラ部⾨門で作成したものを 利利⽤用 •  ミドルウェア類はpuppetで管理理 •  全体の8割のサービスはelasticになってる –  MongoDB… 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  19. 19. ⼤大事なこと:  とにかく観察 •  観察からしか仮説は⽣生まれない •  ⼤大きいデータでも、⼩小さいデータでも、⼤大事なこ とは意味あるデータを⾒見見つけ、洗い出し、価値に つなげること •  なので、⼿手を替え、⼿手段を変える –  Hiveでメトリクスを意識識した中間データを作成 –  Rで回帰分析,  Cytoscapeでネットワーク分析 –  GrowthForecastで常に変化を観察する –  ElasticSearchで気になる指標をさっと抽出する •  今あるデータからわかることを明確にすること •  どんな⼿手間をかければもう少し良良いデータが取れ るのかを伝えられるようにすること 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  20. 20. 今後検証したいこと •  td-‐‑‒agentの監視をより詳細に –  Treasure  Data  Monitoring  Service •  ElasticSearchのスケール –  EBSの限界  1TB •  ストリーム処理理でできることを増やす –  単純なexecやexec_̲filterではなく、集合演算をストリームでや りやすくする –  Amazon  Kinesis •  EMR以外の数100TBオーダを分析⼿手段 –  EMRのalive運⽤用、クエリ⽤用クラスタ –  Presto –  シームレスなImpala利利⽤用 •  s3のファイルのindexをDynamoDBにもっておいていい感じ に参照する仕組み 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  21. 21. まとめ •  DMPはいい感じにログを整理理してモニタ リングして利利⽤用できるようにするツール です •  cosmiではAWSを活⽤用しています •  なるべく⼿手間と費⽤用をかけずに運⽤用でき るように⼯工夫していますが、苦労はしま す 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  22. 22. 参考資料料
  23. 23. cosmiにおける解析環境について •  JenkinsとHadoopを利利⽤用した継続的デー タ解析環境の構築 –  http://www.slideshare.net/suzuken/ jenkinshadoop –  昨年年のad:tech  Tokyoにてcosmiの解析環境 について発表した資料料です。Jenkinsを利利⽤用 してMapReduceジョブを継続的に回し、解 析を重ねるための環境及び利利⽤用しているツー ル群について紹介させていただきました。 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  24. 24. DMPに関するwhite  paper •  Data  Management  Platforms  Poised  to  Become   Scalable  Solution  to  ʻ‘Big  Dataʼ’  Challenges,   According  to  IAB  &  Winterberry  Group –  http://www.iab.net/about_̲the_̲iab/ recent_̲press_̲releases/press_̲release_̲archive/ press_̲release/pr-‐‑‒111212 •  上記の⽩白書を⽇日本語で解説した記事です。わかりやす くまとめられています。 –  DMP(データマネジメントプラットフォーム)を徹底解 説した、IABの⽩白書をまとめてみる  ~∼  admarketech. –  http://www.admarketech.com/2012/11/dmp-‐‑‒ iab.html 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会

×