More Related Content
Similar to 【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕) (20)
More from Developers Summit (20)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
- 2. 自己紹介:
橋本 泰一(はしもと たいいち)
Self-introduction
• 1997年 東京工業大学 情報工学科 卒業
• 2002年 東京工業大学 大学院情報理工学系研究科 修了
博士(工学)
• 2002年 東工大 助手 & 特任准教授
• 2012年 グリー株式会社
• 自然言語処理、情報検索、〇〇マイニング、機械学習…
• GREE PlatformおよびWebベースのソーシャルゲームの
データ分析基盤を担当
Copyright © GREE, Inc. All Rights Reserved.
- 9. グリーのデータ分析基盤
• ゲーム
• Treasure Data ベース
• ゲームへのアクセスログ
• GREE Platform
• Hadoop ベース
• ゲームからAPIへのログ
• ユーザ情報
Copyright © GREE, Inc. All Rights Reserved.
- 28. ゲームのデータ分析基盤
まとめ
• Treasure Data を使ってます
• ログデータをゲーム改善のアクションにつなげる
• アクセス遷移分析
• Webサイト分析では一般的な手法を、ソーシャルゲームに導
入
• ジョブ管理をしっかりする
• ジョブ管理ツール
Copyright © GREE, Inc. All Rights Reserved.
- 29. グリーのデータ分析基盤
• ゲーム
• Treasure Data ベース
• ゲームへのアクセスログ
• GREE Platform
• Hadoop ベース
• ゲームからAPIへのログ
• ユーザ情報
Copyright © GREE, Inc. All Rights Reserved.
- 31. GREE Platformのデータ分析基盤
主な構成
• JDK7 + CDH4 + Apache Hive (v0.12+α)
• HiveServer2
• 追加パッチ
• Kryo serialization (Hive 1511, etc.)
• …
• 独自拡張
• 社内認証システムとの連携
• auto-load extra UDFs
Copyright © GREE, Inc. All Rights Reserved.
- 37. GREE Platformのデータ分析基盤
Ruby Scripting in Hive Query Language
• HQL の中に Ruby のコードを埋め込む
• HQL(SQL)で書きにくいクエリを処理できる
• https://github.com/gree/hive-ruby-scripting
HQLの中でRubyの関数を定義
定義した関数を実行
Any questions?
Copyright © GREE, Inc. All Rights Reserved.
- 39. GREE Platformのデータ分析基盤
データのインポート
• ログデータのインポート
• ハイブリッド: bulk copy + streaming log events
• Fluentd & WebHDFS(まだ不安定)
• MySQLからのインポート: db-express
• Sqoopのラッパー
• Cooperation w/ in-house DSN catalog
• Parallel import Sharded DataBases / Tables
• 手動インポート
• ブラウザからアップロード
Any questions?
Copyright © GREE, Inc. All Rights Reserved.
- 40. GREE Platformのデータ分析基盤
まとめ
• GREE Platform のデータ分析基盤は、
Hadoopをベースにして自作
• CDH4 + Hive + α
• Macaron
• Ruby Scripting in Hive Query Language
• db-expess
Copyright © GREE, Inc. All Rights Reserved.
- 43. 近い未来の話
必要な機能
機能
ダッシュボード・ BI
データカタログ
ジョブ管理・ワークフロー
クエリ言語(エンジン)
分散処理
選択肢
Macaron, Metric Insights, Tableau, …
Hive (HCatalog), …
Azkaban, Oozie, …
Hive, Pig, Cascading,
MR,
MPP ( Vertica, RedShift, … )
Impala,
分散ファイルシステム
Spark, FlumeJava, …
Presto, …
HDFS, S3, MapR FS, Tachyon, CFS …
• Presto と Spark(YARN) に注目
Any questions?
Copyright © GREE, Inc. All Rights Reserved.