Recommended
PPTX
データ活用を効率化するHadoop WebUIと権限管理改善事例
PPTX
認証/認可が実現する安全で高速分析可能な分析処理基盤
PDF
Strata + Hadoop World 2014 レポート #cwt2014
PDF
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
PDF
PDF
PDF
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
PDF
PDF
DB Tech showcase Tokyo 2015 Works Applications
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
PDF
Couchbase introduction-20150611
PDF
SparkやBigQueryなどを用いたモバイルゲーム分析環境
PDF
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
PPTX
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
Yahoo! JAPANにおけるApache Cassandraへの取り組み
PDF
Hadoop Operations #cwt2013
PDF
Wot2015 微博平台护城河-构建高效的防御体系-王关胜
PPTX
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
PDF
ヤフー発のメッセージキュー「Pulsar」のご紹介
PDF
20190314 PGStrom Arrow_Fdw
PDF
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PPT
PDF
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
PDF
PDF
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
PDF
PPTX
More Related Content
PPTX
データ活用を効率化するHadoop WebUIと権限管理改善事例
PPTX
認証/認可が実現する安全で高速分析可能な分析処理基盤
PDF
Strata + Hadoop World 2014 レポート #cwt2014
PDF
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
PDF
PDF
PDF
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
PDF
What's hot
PDF
DB Tech showcase Tokyo 2015 Works Applications
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
PDF
Couchbase introduction-20150611
PDF
SparkやBigQueryなどを用いたモバイルゲーム分析環境
PDF
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
PPTX
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PDF
Yahoo! JAPANにおけるApache Cassandraへの取り組み
PDF
Hadoop Operations #cwt2013
PDF
Wot2015 微博平台护城河-构建高效的防御体系-王关胜
PPTX
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
PDF
ヤフー発のメッセージキュー「Pulsar」のご紹介
PDF
20190314 PGStrom Arrow_Fdw
PDF
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PPT
PDF
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
PDF
PDF
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
Similar to Hueによる分析業務の改善事例
PDF
PPTX
PDF
PPTX
PPTX
PPTX
PDF
TokyoWebminig カジュアルなHadoop
PDF
Facebookのリアルタイム Big Data 処理
PDF
PDF
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
PPTX
The truth about SQL and Data Warehousing on Hadoop
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
[よくわかるクラウドデータベース] Amazon RDS for SQL Server導入事例
PPT
Hadoop ~Yahoo! JAPANの活用について~
PDF
PDF
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
PPTX
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
PDF
PDF
Beginner must-see! A future that can be opened by learning Hadoop
Hueによる分析業務の改善事例 1. 2. 自己紹介
• 木浦正博, Masahiro Kiura
• 株式会社ドワンゴ/第二サービス開発本部
• ソフトウェアエンジニア
• 2015年01月入社
• I ❤️
• 分散システム(Hadoop/Grid computing etc…)
• パラメータチューニング
• Linux
• Python
DWANGO Co., Ltd. all rights reserved. 2
3. 4. Agenda
• ドワンゴの分析基盤の紹介
• 分析基盤におけるHue
• Hueによりドワンゴの分析業務はどのように変わったのか?
• 事例1:社内ユーザの業務
• 事例2:基盤の変化
• 変化へ対応するためのアクション
• ナレッジの蓄積
• 可用性の向上
• まとめ
2017/9/20 DWANGO Co., Ltd. all rights reserved. 4
5. ドワンゴの分析基盤の紹介
• 利用用途
• 分析(UU, PV, etc..)
• 情報推薦、レポーティング等
• ワークロード
• Pigが80〜90%
• 残りはHive on Spark/Spark, etc..
• 利用者
• 連携システム 6
• 社内ユーザ 200+
• Pig
• Hive on Spark
• Spark
Date CM version CDH version
2014/03- N/A 4.3.0
2015/05- 5.4.1 5.4.1
2016/07- 5.7.1 5.7.1 w/patch
2016/10- 5.8.2 5.8.2
2017/03- 5.10.1 5.10.1 w/patch
2017/06- 5.11.1 5.11.1
CDHアップデート情報
2017/9/20 DWANGO Co., Ltd. all rights reserved. 5
ドワンゴの分析基盤がData Impact Awardの
Finalistに選ばれました! 詳細は11月の
Cloudera World Tokyo 2017で講演予定です。
6. 7. 8. 事例1:社内ユーザの業務
• これまで
• Workflowを実行する仕組みがない
ため、逐次WebUIからMR/Pig実行
• Jobの実行完了を検知できないため、
Job実行状況をユーザ自ら確認する
必要があった
• Hue導入後
• 分析業務はQuery Editor/Oozie
Workflowで完結するように
• システム化するほどでもない
定型処理は、Hueから視覚的に
Coordinatorを作成し実行
• 実行結果はTableauやHueから確認
2017/9/20 DWANGO Co., Ltd. all rights reserved. 8
Hadoopクラスタ
OozieHue
社内ユーザ
1.Oozie Coordinatorの作成
3. Coordinatorの実行完了を
メールもしくはSlackから通知
• 50種類程度のCoordinatorが動作中
• 定型処理の自動化(Coordinator化)が進み、社
内ユーザによる実行制御が不要に
2. MR/Pig/Spark等の定期実行
9. 事例1:社内ユーザの業務
2017/9/20 DWANGO Co., Ltd. all rights reserved. 9
並列もしくは直列のPigスクリプト実行
多いもので5並列、1段から3段程度
実行開始をメールからSlackに通知
実行完了をメールからSlackに通知
Hueを利用すると、非技術者でも複雑なWorkflowや
Coordinatorを、XMLを定義することなく視覚的に開発可能
10. 11. 事例2:基盤の変化
• Hue/Oozieベースで再開発
• 専用データベースの管理をやめ
HadoopクラスタでSparkを実行
• 社内Webサービスは、Oozie APIや
HttpFS APIを利用する構成で簡素化
• 社内ユーザはHueのFileBrowserから
データ取得
2017/9/20 DWANGO Co., Ltd. all rights reserved. 11
• 性能・スケーラビリティの向上
• 管理するミドルウェア・コードベースの簡素化
• レポートをHueから取得するようにしたことで、ロー
カルサーバ上のデータ管理から脱却
Hadoopクラスタ
Oozie
社内Webサービス
社内ユーザ
3. Sparkの実行/実行結果の保存
2. API経由での
Workflow実行
4.実行完了の通知
Hue
1.レポーティング
条件の入力
3.レポートのDL
URL(Hue)を通知
4.DL URL(Hue)からDL
12. 13. 14. 15. まとめ
• Hueによりドワンゴの分析業務はどのように変わったのか?
• OozieからWorkflow, Coordinatorの実行が可能に
• 非技術者でも視覚的にWorkflow, Coordinatorを作成し自動化可能に
• 基盤側からHDFS上のデータを社内ユーザに向けて提供する際の
UIとしてFileBrowserを利用
• 変化へ対応するためのアクション
• Hueの機能に対するナレッジの蓄積
• 社内ユーザから上がってくる質問対応・トラブルシューティング対応
• Hueの利用が増えることによる、HW増強
2017/9/20 DWANGO Co., Ltd. all rights reserved. 15
Hadoop, Hive, Pig, Spark and Oozie are either registered trademarks or trademarks of the Apache Software Foundation in the United States and other countries.
Cloudera and Hue are trademarks of Cloudera, Inc. Linux® is the registered trademark of Linus Torvalds in the U.S. and other countries. Python is a registered trademark
of the PSF.
16.