Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hadoop conference 2013winter_for_slideshare

649 views

Published on

Hadoop Conference Japan 2013 Winter Lightning Talk

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Hadoop conference 2013winter_for_slideshare

  1. 1. mixi で Hive を活用する上でやっている3つのこと Hadoop Conference Japan 2013 Winter 2013-01-21 株式会社ミクシィ 石川有
  2. 2. 自己紹介株式会社ミクシィに 2010 年 10 月から勤務担当業務 解析基盤の構築 内製ワークフローフレームワークの開発 データ解析とそのコンサルテーション
  3. 3. 200人ぐらいエンジニアがいる中で Hive を利用する上でやっている 仕組み的なことルール的なこと
  4. 4. Hive 導入時に意識したこと「たんぽぽな仕事」を いかに減らすか 仕組みを提供するサービス開発者はサービス開発に専念したい,してもらいたい 全員が自由に使ったらカオスになる! ルールを作る できるだけ自由に使いたいし,使ってもらいたい
  5. 5. 対処するスコープを決める データが利用される範囲 個人 部署 全体・横断的 1回限り処理 ルールで解決の 一定期間反復 仕組みを提供 定常性
  6. 6. 1.Hive の JSON パーサを活用 ログの変更を解析基盤側も自動で変更 ログを新しく流した・変更したことをHive 側も自動で対応 ログを JSON オブジェクトで統一的に扱う 1つのログに対して1つのテーブル定義 問題:新規のログのときにテーブルを作る必要 ログの項目ごとにカラム定義 問題:Hive のテーブルも変更する必要Hive VIEW Hive Logjson_tuple UDTF Table
  7. 7. 2.内製フレームワークの開発目的:定常処理の開発コストの低減 定型的な処理はテンプレートとして提供 Hive へのデータロードや Hive クエリを実行して CSV に保 存などの決まった処理を毎回書くのは無駄必要な処理を YAML で簡単に記述可能テンプレートに対応する処理がないとき テンプレートにする価値があるなら自由に追加 独自の処理であれば Perl で記述
  8. 8. 3.Hiveレビューの実施レビューの対象 定期実行に関わる Hive の操作は基本すべて技術的な観点 Hive の使い方を教育を担保 どういう処理が実行されるのかを知れ管理に役立つデータ解析的な観点 解析の目的がそもそも妥当なのか確認 目的に対して集計方法が正しいのか確認
  9. 9. まとめJSON パーサの活用 「たんぽぽな仕事」 を減らすフレームワークの提供Hive レビューの実施 教育・管理の補助
  10. 10. 技術的なことに関する踏み込んだ内容は 「mixi engineers blog」で検索
  11. 11. ご清聴ありがとうございました

×