DMPの仕組み

14,424 views

Published on

2014/01/15に行われたCAアドテクスタジオ x VOYAGEGROUP 技術交流会での発表資料です。

Published in: Technology
0 Comments
43 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
14,424
On SlideShare
0
From Embeds
0
Number of Embeds
7,547
Actions
Shares
0
Downloads
139
Comments
0
Likes
43
Embeds 0
No embeds

No notes for slide

DMPの仕組み

  1. 1. DMPの仕組み 株式会社adingo @suzu_̲v
  2. 2. ⾃自⼰己紹介 •  すずけんと申します。 •  2012年年4⽉月~∼  株式会社adingo –  DMPの設計・開発、及び、データの解析業務に携 わっています。 –  http://cosmi.io •  その前は⼤大学院でセマンティックWebと⼈人⼯工知 能の研究をしていました。 #ajiting  #sicp  #wakateweb  #hive  #R #php  #dmp  #aws  #voyagegroup twitter:  @suzu_̲v http://suzuken.hatenablog.jp 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  3. 3. アジェンダ •  DMPとは何か –  DMPの役割 •  DMPの仕組み  –  cosmiを⽀支える技術 –  役割 –  アーキテクチャ 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  4. 4. DMPとは何か •  複数チャネルからのデータをまとめ、集計し、 活⽤用するためのツール –  横断的に効果を検証する –  ユーザの⾏行行動を分析し、広告配信に利利⽤用する •  単にディスプレイ広告の領領域だけではないと ころでも利利⽤用されるようになってきています。 –  The  Data  Management  Platform:  Foundation   for  Right-‐‑‒Time  Customer  Engagement •  http://www.iab.net/DataManagementPlatforms   2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  5. 5. シンプルに⾔言うと ⼀一⾏行行⼀一⾏行行のログから 如何に価値を⽣生み出すか ということを仕事にしています。
  6. 6. ユーザのセグメンテーション 趣味 性別 年年齢 趣向 職業 2014/01/15 どのようにセグメントしていくか? CAアドテクスタジオ  &  VG合同勉強会
  7. 7. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. DMP 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  8. 8. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. ルール) サイトAで商品Bを購⼊入したユーザは セグメントSとする。 DMP Dmp_̲id:  hogeさんはセグメントSに属する。 セグメントDB 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  9. 9. ⾏行行動ログ ECサイトA 商品B購⼊入ページ Cookie Dmp_̲id=hoge サイトid=サイトA 商品id=商品B ⾏行行動=購⼊入 Cookie  dmpid=hoge リファラ Ipアドレス Etc. ルール) サイトAで商品Bを購⼊入したユーザは セグメントSとする。 2回⽬目の訪問 サイトB 2014/01/15 Dmp_̲id:  hogeさんはセグメントSに属する。 DSP:  商品Bを買ったユーザなら「この 商品Bを買ったユーザはこんな商品も 買っています」バナーなら効果⾼高そう DSP DMP セグメントDB DMP:  ユーザhogeはセグメントSです CAアドテクスタジオ  &  VG合同勉強会
  10. 10. cosmiを⽀支える技術について
  11. 11. cosmiの仕事 •  データ収集 –  様々なログを取り扱うコレクタ –  Fluentdによる回収・転送 •  データ解析 –  Hadoopによるバッチ処理理 –  ストリームによるデータ処理理 •  データ利利⽤用 –  当該ブラウザが特定のセグメントに属してい るかを返す 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  12. 12. ログ周りの管理理の話 •  広告ログ解析基盤にFluentdを使っている 話  -‐‑‒  すずけんメモ –  http://suzuken.hatenablog.jp/entry/ 2013/12/14/195406 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  13. 13. ログの観察 •  短期間のログのモニタリングには ElasticSearch  +  Kibana3を利利⽤用 –  例例)  特定のhostにおけるipアドレスのtop-‐‑‒k •  アドホックなログの観察には GrowthForecastを利利⽤用 –  data-‐‑‒counter,  flow-‐‑‒counter •  ⻑⾧長期間集計はS3  +  EMRのMapReduceで。 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  14. 14. 蓄積したデータを観察する。メトリクス に基いた定常的分析と、アドホックな分 析とを⾏行行なう。 検討 ユーザの⾏行行動データや関連 データを収集。トラッキング を⾏行行なう。様々なチャネルか らのデータを着実に蓄積する。 計測 仮説 施策 2014/01/15 仮説を元に施策を実⾏行行する。 次の収集のためのデザイン をする。 CAアドテクスタジオ  &  VG合同勉強会 データに基づき、 仮説をたてる。
  15. 15. データストアの使い分け •  S3 –  source  of  truth –  すべてのログの保存  場所 •  DynamoDB –  ベーシックなターゲティング –  容易易なスループットコントロール •  MongoDB –  多様なデータの持ち⽅方が可能 –  クライアントごとの要件にフィットさせやすい •  ElasticSearch –  短期間のログモニタリング 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  16. 16. http ⾏行行動ログコレクタ(Web) EC2 … EC2 EC2 社内⽤用管理理系統 aggregator  *  2 GrowthForecast ログモニタリングストア (ElasticSearch) cron S3 DynamoDB EC2 Amazon Elastic MapReduce 2014/01/15 オーディエンスデータDB (MongoDB) CAアドテクスタジオ  &  VG合同勉強会 EC2 … オーディエンスデータ Web  API EC2
  17. 17. 細かい⼯工夫 •  EMRクラスタが落落ちてもデータは残る –  S3に元のデータが残している •  ElasticSearchのログ保持は短いスパンのものに絞る –  種類によるが現在は1ノード100GB程度度を⽬目安にしている •  aggregatorノードはデータ収集サーバからラウンド ロビンで転送している –  primary  /  secondary構成を取るべき場⾯面もあるが、その ような処理理が必要のないように調整している –  aggregatorノードのscale  upが可能に •  データ収集サーバではファイルシステムからのin_̲tail でのみinputしている。 –  fluentdが落落ちた場合も最悪cronでs3に転送すればなんと かなる 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  18. 18. DevOps的なこと •  デプロイはJenkins  +  fabric  +  make –  make  installでどのapplicationもデプロイで きるようになっている –  各⾃自の開発環境も同様 •  AMIは弊社インフラ部⾨門で作成したものを 利利⽤用 •  ミドルウェア類はpuppetで管理理 •  全体の8割のサービスはelasticになってる –  MongoDB… 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  19. 19. ⼤大事なこと:  とにかく観察 •  観察からしか仮説は⽣生まれない •  ⼤大きいデータでも、⼩小さいデータでも、⼤大事なこ とは意味あるデータを⾒見見つけ、洗い出し、価値に つなげること •  なので、⼿手を替え、⼿手段を変える –  Hiveでメトリクスを意識識した中間データを作成 –  Rで回帰分析,  Cytoscapeでネットワーク分析 –  GrowthForecastで常に変化を観察する –  ElasticSearchで気になる指標をさっと抽出する •  今あるデータからわかることを明確にすること •  どんな⼿手間をかければもう少し良良いデータが取れ るのかを伝えられるようにすること 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  20. 20. 今後検証したいこと •  td-‐‑‒agentの監視をより詳細に –  Treasure  Data  Monitoring  Service •  ElasticSearchのスケール –  EBSの限界  1TB •  ストリーム処理理でできることを増やす –  単純なexecやexec_̲filterではなく、集合演算をストリームでや りやすくする –  Amazon  Kinesis •  EMR以外の数100TBオーダを分析⼿手段 –  EMRのalive運⽤用、クエリ⽤用クラスタ –  Presto –  シームレスなImpala利利⽤用 •  s3のファイルのindexをDynamoDBにもっておいていい感じ に参照する仕組み 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  21. 21. まとめ •  DMPはいい感じにログを整理理してモニタ リングして利利⽤用できるようにするツール です •  cosmiではAWSを活⽤用しています •  なるべく⼿手間と費⽤用をかけずに運⽤用でき るように⼯工夫していますが、苦労はしま す 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  22. 22. 参考資料料
  23. 23. cosmiにおける解析環境について •  JenkinsとHadoopを利利⽤用した継続的デー タ解析環境の構築 –  http://www.slideshare.net/suzuken/ jenkinshadoop –  昨年年のad:tech  Tokyoにてcosmiの解析環境 について発表した資料料です。Jenkinsを利利⽤用 してMapReduceジョブを継続的に回し、解 析を重ねるための環境及び利利⽤用しているツー ル群について紹介させていただきました。 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会
  24. 24. DMPに関するwhite  paper •  Data  Management  Platforms  Poised  to  Become   Scalable  Solution  to  ʻ‘Big  Dataʼ’  Challenges,   According  to  IAB  &  Winterberry  Group –  http://www.iab.net/about_̲the_̲iab/ recent_̲press_̲releases/press_̲release_̲archive/ press_̲release/pr-‐‑‒111212 •  上記の⽩白書を⽇日本語で解説した記事です。わかりやす くまとめられています。 –  DMP(データマネジメントプラットフォーム)を徹底解 説した、IABの⽩白書をまとめてみる  ~∼  admarketech. –  http://www.admarketech.com/2012/11/dmp-‐‑‒ iab.html 2014/01/15 CAアドテクスタジオ  &  VG合同勉強会

×