• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
halook (Hadoop/HBase可視化OSS) - JJUG CCC 2012 Fall 発表資料
 

halook (Hadoop/HBase可視化OSS) - JJUG CCC 2012 Fall 発表資料

on

  • 1,289 views

 

Statistics

Views

Total Views
1,289
Views on SlideShare
1,249
Embed Views
40

Actions

Likes
1
Downloads
8
Comments
0

2 Embeds 40

http://www.acroquest.co.jp 39
http://sc.dotbranch.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    halook (Hadoop/HBase可視化OSS) - JJUG CCC 2012 Fall 発表資料 halook (Hadoop/HBase可視化OSS) - JJUG CCC 2012 Fall 発表資料 Presentation Transcript

    • JJUG CCC 2012 FallHadoop, HBase可視化ソフトウェア halook Acroquest Technology 落合雄介 2012/11/10
    • 自己紹介 落合雄介 Acroquest Technology 株式会社 Hadoop World に2年連続で参加するほど、 Hadoop 好きのJavaエンジニア。 • Hadoop World 2011 New York (2011年11/8~11/9) • Hadoop World 2012 New York (2012年10/23~10/25) 業務: Hadoop, HBaseのインフラ構築/検証 Hadoop, HBase可視化ソフト「halook」の開発 2
    • とは? Hadoop, HBase の内部動作を可視化する OSS MapReduce JobHDFS使用量 HBase リージョ ン 3
    • Hadoop World 2012 NYC で発表!? 1. 世界中から2500人が集まる 大イベント 2. 初日に開催された関連イベント 「New York Hadoop User group Meetup」 で を発表 発表時のtweet 4
    • Hadoop World 公式のパーティー halook ルックでダンス!! 5
    • 目次1. halookでHadoop, HBaseを可視化す る2. Hadoop, HBase の可視化結果の紹介3. halookの仕組み 6
    • 1. halook で Hadoop, HBaseを可視化する 7
    • halook開発の経緯 Hadoop って、はやってますよね 輝かしい成功事例が多数 しかしその裏で、 トラブ も 多数 ル データが偏って Jobの処理時間 分散処理しない 知らない間に遅延 HBase書き込みが クラスタが が1台に集中 異常停止 8
    • Hadoop, HBase の難しさ Hadoopは、数十台~数千台のサーバを 束ねて、大量データの保存、分散処理 を実行するための仕組み。 どう動いているか把握するだけでも大 変 1. 期待通りにデータが分散配置されているか? 2. アプリケーションが分散処理されているのか? 3. 設定ミスで意図しない挙動をしていないか? 見える化してトラブルを防ぎ ログ解析、WebUI たい では調べるのが大変 9
    • インターンシップの開発テーマに Acroquest のインターンシップ 「オープンソースコーディングサマー」 のテーマに 「Hadoopの可視化」を採用  5名の学生が、halook の画面表示部分を開発 2012年 8/27(月)~9/7(金) Acroquest インターンシップ 10
    • トラブルを防ぐHadoop可視化ツール halookが提供する機能対象 画面名 説明HDFS HDFS view HDFS使用量表示 MapReduce Job Gantt chart MapReduce Job 一覧MapReduce MapReduce Task Arrow chart MapReduce Task 一覧 MapReduce Task Bubble chart MapReduce Task のグラフ HBase Region Grow graph リージョン数推移をグラフ化HBase HBase Region Map graph リージョン分布をグラフ化 11
    • HDFS view  HDFSの使用量を表示 HDFSの使用状況を一目で 確認したい 1本のバーが一つの DataNodeを表す 各DataNodeの使用率が 閾値を超えると、色が変わ る 12
    • MapReduce Job Gantt chart  実行Jobの一覧をガントチャートで表示 標準のWebUIでは、 Jobの開始・終了時間や処 理時間が一目で確認できな い。 Jobの処理期間をガント チャートで表示。Jobの並 列処理状況が分かります。 13
    • MapReduce Task Arrow chart  Jobを構成している複数のMap Task, Reduce Task の処理状況を表示。 それらを表示。 標準のWebUIでは、Taskの 実行状況の確認が難しい。 時系列で表示、実行ノード ごとに表示など、必要な解 析方法で並べ替え可能 使用スロット数もグラフ化 14
    • MapReduce Task Bubble chart  Jobの特性をバブルチャートで表示 大量にTaskが存在する場合、 Taskの全体の傾向や 処理時間の遅いTaskを 見つけ出すのに手間がかかる。 遅いTask 横軸:Taskの開始(or終了)時刻 縦軸:実行時間 15
    • HBase Region Grow graph  HBaseのデータを管理する単位である 「リージョン」の数の推移を表示 リージョン数の推移を調べる 簡単な方法がない。 split (リージョン分割)などの イベント発生を、 推移グラフと共に表示 ※Compaction 発生も グラフに表示できるように する予定 16
    • HBase Region Map graph  HBaseのリージョンの分布をサーバごとに グラフ表示し、テーブルごとに色分け リージョン数が均等でも、 テーブルごとのリージョン数が 偏っていることがある。 指定した時刻のリージョン 分布を表示 17
    • デモ デモをお見せします! 18
    • 2. Hadoop, HBase の可視化結果の紹介 19
    • Taskの投機的実行 Taskの失敗や処理が遅いことを見込んで、 他のノードでも同じTaskを実行する機能  どんなTaskが投機的実行対象になるか分かりま す。 20
    • Map Task、Reduce Taskの失敗  (デモでお見せします) 21
    • HBaseのリージョン分割1. 自動splitに任せた場合にその分割が適切か?2. 手動splitをした場合にそのタイミングが適切 か? • HBase のデータはリー ジョンに分割して管理・ 保存される • リージョンのサイズが大 きくなると分割する 22
    • 3. halookの仕組み 23
    • halookの構成1. Hadoop/HBaseからデータを取得する エージェント、データ蓄積部分は を利用2. 画面表示はWGPをベースにしている halook ENdoSnipe WGP 24
    • 処理の流れ Hadoop からデータの取 DBへの格納 得 DataCollector DB (PostgreSQL)Javelin Javelin Javelin リアルタイ ム 通知 過去データ取 halook 得NameNode JobTracker HBaseMaster Server (Tomcat) 過去データ表 示 リアルタイム 通知 25
    • OSS版ENdoSnipe を利用 halookリリースと合わせて、 とは 一部機能をOSSとして公開 1. Java トラブルシューティングツールとして実績  Javaシステムのトラブルの原因を 自動的にレポート表示する「PerformanceDoctor」 2. 各種情報取得  クラス図、シーケンス図の自動生成  CPU使用率、ヒープメモリ使用量など、20以上のグラ 26
    • データ取得部分(OSS版 ENdoSnipe)1. ENdoSnipe Javelinによるデータ取得  Javaプロセスに適用するエージェント  バイトコード・インスツルメンテーションによ り、 JMXやログ以上に詳細な情報を引き出すことが可 能2. ENdoSnipe DataCollector によるデータ収 集、過去データの蓄積 27
    • 画面表示部分(WGP)WGP - Web Graphical Platform1. HTML5、CSS3、JavaScript のプラット フォーム  halook画面の、 • Tree表示 • ウィンドウの分割 • グラフ表示 等は、WGPで実現。2. Ajax通信を簡単に利用し、リアルタイム通 信ができる仕組みを持つ http://wgp.sourceforge.net/ 28
    • WGPの他の応用例1. Network Management System(NMS) 29
    • まとめ1. halook(オープンソース)で Hadoop, HBaseを可視化しよう。2. 実際の挙動を確認することで、 分散アプリケーションを正しく使 おう。 30
    • でHadoopを可視化!ぜひ使ってみてください! 31
    • 参考1. halook 紹介ページ  http://www.acroquest.co.jp/OSS/halook/2. halook(GitHub)  https://github.com/endosnipe/VisualHadoop3. ENdoSnipe OSS版(GitHub)  https://github.com/endosnipe/ENdoSnipe4. WGP(SourceForge)  http://wgp.sourceforge.net/ 32