More Related Content
Similar to DeNAの分析を支える分析基盤 (20)
DeNAの分析を支える分析基盤
- 18. Copyright © DeNA Co.,Ltd. All Rights Reserved.
2010年 分析組織の発⾜
n 2010年 怪盗ロワイヤルに代表されるモバイルゲームの⼤ヒット
⁃ 今までにない踏み込んだ分析ニーズの発⽣
• やめている⼈と続けている⼈の違いは?
• いろんな遊び⽅のユーザがいるがみんな満⾜しているのか?
• お宝の奪いあいはもりあがっている?
• ⼀番ちょうど良いボスの強さはどれくらいか?
• 次のイベントはどのように仕様を変えていくか?
⁃ ゲーム内部データに踏み込んでユーザ⾏動を分析する必要性
⁃ 莫⼤なデータ量を分析する基盤の必要性
⇒ ゲーム事業部⾨内に分析専⾨部署を発⾜
n ⼤量データを処理可能な分析基盤としてHadoopを本格導⼊・利⽤
18
事業部の分析ニーズから発⾜した分析部⾨なので、
ビジネス課題を解決するための組織という意識が徹底している
DeNAの分析組織の特徴
- 19. Copyright © DeNA Co.,Ltd. All Rights Reserved.
2010〜2012年の分析基盤の構成
n 全てのデータが集約される箱としてのHadoop
n Query⾔語 (データ整形、抽出、集計)
⁃ Hive – SQL likeな記法。もっとも習得が容易。企画メンバ含めて広範囲で利⽤が進む
⁃ Pig – 専⽤DSL。事前のテーブル定義が不要。⼀度習得してしまえば簡単に集計Jobが開発で
きる。DeNAでは最初にPigを使い始めたこともあり、定常集計のJobでは主にPigが使われて
いる。
⁃ Java MapReduce - 最も柔軟性が⾼いため、⼤規模機械学習の分散処理は独⾃MapReduce実
装し、モデル実装洗練を何度も回す。ただ記述量が増えるため、アナリスト利⽤には敷居が⾼い。
n KPI閲覧環境
⁃ 内製ツール – 超重要KPIは専⽤ツール。ユーザ数、売り上げ、継続率などを提供。
⁃ Pentaho – アナリストがクイックにKPI Dashboardを作る⼿段として利⽤
19
Log
Collector
BI Tool
Pentaho
Jenkins
(job
scheduler)
Linux
(Batch/Adhoc)
Hue
Event log
DB
(MySQL)
snapshot
web
web
web
DB Snapshot
Loader
Analy<cs DB
(MySQL)
hive
pig
- 26. Copyright © DeNA Co.,Ltd. All Rights Reserved.
分析基盤の全体構成
n Hadoopクラスタ
n 全体容量: 6.4PetaByte
n ノード数: 約200台
n CPU数: 5360
n データノードサーバスペック (最近購⼊)
n CPU: Xeon E6-2640v3 2.6GHZ (8Cx2CPU)、MEM: 128GB、
HDD: 300GB 10k SAS HDD x2、8TB 7.2k SATA HDD x 12、
Network: 1Gb x2 bonding LACP(act/act)
26
Log
Collector
内製KPI Tool
Argus
Jenkins
(workflow)
Linux
(Batch/Adhoc)
Hue
Event log
DB
(MySQL)
snapshot
web
web
web
DB Snapshot
Loader
hive
pig
50TB
presto
6.4PB
- 32. Copyright © DeNA Co.,Ltd. All Rights Reserved.
KPIレポートツールの内製化 in 2014.4
n 従来、アナリストがKPI Dashboardを作成する環境として市販のBI Toolを利⽤して
いたが、いくつかの問題を抱えていた
⁃ ⼀枚のレポートを作成するのに複数STEPが必要で⼿間がかかる。
• KPI Dashboard作成ステップ
⁃ STEP1: KPI要件に応じて Hadoop上でpigの集計ジョブを作成&定期実⾏
し MySQLに書き込む
⁃ STEP2: BI Tool上でデータソースとして登録する
⁃ STEP3: BI Tool上でKPIレポート作成
⁃ レポート数が数1000に達したところ増加性能が⼤きく劣化。まともに操作できない。
⁃ モダンではない使いづらいUI
n 代替BI Toolを探すもDeNAの要件にマッチするものは⾒つからない
⁃ レポート作成者 100⼈程度、レポート閲覧者1000⼈超
⁃ LDAP認証に対応し、サービス単位で編集・閲覧権限を設定できること
⁃ ServerはLinux。ClientはWindowsとMac OS-Xの両⽅のブラウザで動く
⁃ ⽉額100万円以内の格安で
32
Ver<caの⾼速性を最⼤限に活かすためにも⾃作することを決断
- 57. Copyright © DeNA Co.,Ltd. All Rights Reserved.
これからの分析基盤
n 社外動向
n Deep Learning、AI等、機械学習界隈の盛り上がり
n 脱MapReduce、MPP(Massive Parallel Processing) on Hadoop全盛
n Presto、Spark等が利⽤が広がっている
n Cloud上での分析基盤の利⽤の拡⼤、完成度の向上
n BigQuery, Treasure Data, Amazon EMR (Presto, Spark)
⇒ 技術動向をしっかりキャッチアップしつつ、最適なソリューションを
選択していく必要あり
n 社内動向
n 分析利⽤サービスの多様化
n モバゲーを中⼼とした分析プラットフォームから、多種多様なサービスを収容
するプラットフォームへ
n サービスに対する分析ニーズや、携わるメンバーの分析基盤利⽤スキルも様々
⇒ 利⽤ニーズに応じてコスト効果の⾼い分析基盤の提供が必要 57