More Related Content
Similar to DMPの分析機能を実現する技術 (20)
More from BrainPad Inc. (16)
DMPの分析機能を実現する技術
- 2. Analytics Innovation Company
©BrainPad Inc.
2
自己紹介
● 名前:下村環太朗
● 所属:マーケティングプラットフォーム本部・開発部
○ 自社サービス開発の部署
○ プライベートDMP Rtoasterの開発を担当
● Pairsプロフ:
○ 年齢:30歳
○ 居住地:日本 東京
○ 身長:170cm
○ 職種:WEB業界
○ 体型:やや細め
○ タバコ:吸わない
- 6. Analytics Innovation Company
©BrainPad Inc.
6
開発・運用している要素
● DWH
○ 様々なデータを集約・統合
○ テーブルは最大で数十億行の規模
● 大規模データ処理
○ ETL処理
○ 機械学習などDWHだけではできない処理
● スケジューリング
○ 依存関係のある数千/日のバッチ実行
● 集計
○ 分析条件にあわせて適切なクエリを生成してDWHに投げる
● 管理画面
○ 普通のシングルページアプリケーション
○ (UIや可視化部分はデザイナーが担当)
● 他システムとのつなぎこみ
○ 見かけ上の管理画面は共通
○ 裏は完全に別なので同期用のAPIを生やしている
● etc...
- 10. Analytics Innovation Company
©BrainPad Inc.
10
分散処理クラスタ
Amazon EMR上にPresto (+Spark thrift server) でDWHを構築
Sparkバッチの実行環境としても利用
� ノードを増やすだけでスケールする
� 環境構築が簡単
� ストレージとメタデータをクエリエンジンを分離
� リソース管理はHadoop (Yarn) やPrestoにおまかせ
� 基本的にはマネージドといえどシステム構成は複雑
� 手動で各種パラメータの調整が必要な場合もある
� SparkバッチだけScalaで実装しているので言語学習コストがある
- 14. Analytics Innovation Company
©BrainPad Inc.
14
課題
● 増える機能
○ 複雑化する仕様
○ データの整合性の担保が困難
○ 他システムとの結合度も増加
● 増えるユーザー
○ 回りきらないバッチ処理
○ 分散処理まわりにボトルネックがあることはわかっているものの
開発の優先度もあってまともに調査・改善できていない
● 増える要望
○ データを握っているが故の需要が集まる
● 人数も増やせば解決?
○ そう簡単に増えない
○ 新人が覚えることは増えている
⇒ 基盤的な役割と機能開発の両立って大変かも💦