• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
20130313 OSCA Hadoopセミナー
 

20130313 OSCA Hadoopセミナー

on

  • 1,837 views

AmebaサービスでのHadoop活用事例を紹介させていただきました。

AmebaサービスでのHadoop活用事例を紹介させていただきました。

Statistics

Views

Total Views
1,837
Views on SlideShare
1,837
Embed Views
0

Actions

Likes
1
Downloads
5
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    20130313 OSCA Hadoopセミナー 20130313 OSCA Hadoopセミナー Presentation Transcript

    • AmebaサービスにおけるHadoop活用事例 株式会社サイバーエージェント アメーバ事業本部 Ameba Technology Laboratory 福田 一郎
    • 株式会社サイバーエージェント 2自己紹介【名前】 福田一郎(@toutou)【出身】 鳥取県米子市【経歴】• 2008年4月 サイバーエージェント入社• Amebaサービスの運用• Ameba Piggの運用,開発• 2010年3月~ 統合ログ解析基盤Patriot開発• 2011年4月~ Ameba Technology Laboratory開設@秋葉原• Hadoop,HBase,SolrなどのOSS• 大規模データ分散処理技術を中心に
    • Ameba事業
    • 株式会社サイバーエージェント 4会社概要 社名 株式会社サイバーエージェント 本社 東京都渋谷区道玄坂一丁目12番1号 代表者 代表取締役社長 藤田 晋 設立 1998年3月18日加盟団体 新経済連盟 一般社団法人ソーシャルゲーム協会 一般社団法人モバイルコンテンツ審査・運用監視機構 安心ネットづくり促進協議会 モバイル・コンテンツ・フォーラム 社団法人日本広告業協会 インターネット広告推進協議会 社団法人日本広告審査機構
    • 株式会社サイバーエージェント 5事業内容 Ameba事業 ソーシャルゲーム事業 インターネット広告事業
    • 株式会社サイバーエージェント 6Ameba事業 ー PC向けサービス
    • 株式会社サイバーエージェント 7Ameba事業 ー スマートフォンプラットフォーム
    • 株式会社サイバーエージェント 8Ameba事業 ー ソーシャルゲーム
    • 株式会社サイバーエージェント 9Ameba事業 ー コミュニティサービス
    • Ameba Technology Laboratory
    • 株式会社サイバーエージェント 11【概略】Ameba Technology Laboratory• 2011年4月 秋葉原ダイビル8階に開設• メンバー:約20名
    • 株式会社サイバーエージェント 12【領域】 • 各サービスのログ集約 大規模 • 準リアルタイムログ収集 データ処理 • 各種指標の集計,結果表示 基盤 • グラフ構造向けDB (Hadoop,HBase) • 汎用JSONデータストアレコメンド フィルタリング 検索 データマイニング (Solr) ブログ コメント ブログ ゲームコミュニティ メッセージ プロフィール コミュニティ アプリ 掲示板 Amebaなう ブログ ニュース
    • Hadoop導入事例
    • 株式会社サイバーエージェント 14Ameba × Hadoop• 2007年~ アメブロ アクセス解析• Hadoop0.13.1• MapReduce,HDFS• 2009年~ Ameba Pigg• ログ集約サーバ(HDFS)• 2010年~ Patriot• Amebaサービス全体のログ集約,解析基盤• CDH3系 Hadoop Conference Japan• Hive がキッカケ• 2012年~ Hornet• オンライン用途でのグラフデータ構造を扱うデータストア• CDH4系• HBase
    • 株式会社サイバーエージェント 15 主にレコメンド向けPatriotで扱うデータ アクセス グラフ 属性データ 行動ログ ログ データ 会員ID 各種投稿 PV コミュニティ系 プロフィール ゲーム利用 セッション サービスの アイテム購入 UserAgent つながり情報 課金 利用しているアプリ 情報 HDFSに集約 Hiveを用いて集計
    • 株式会社サイバーエージェント 16 ログ転送(SCP) MySQLレプリ 【Logサーバ】 Ameba システム構成 ログの一時集約 サービス ログ整形 Hiveインポート HiveJobをキック ログのリアルタイム転送 (Flume)【Batchサーバ】 集計サマリをPutJobスケジューラ (HBase) Hadoop クラスタ サマリView レコメンドデータ (自作WebUI) 作成サーバ アドホックHiveクエリ (自作WebUI)
    • 株式会社サイバーエージェント 17Patriot利用実態 ゲームコンサル データマイニング ゲーム/コミュニティ 課金統括部門 エンジニア プロデューサ マーケティング部門 WebView アドホッククエリ システムサービス担当 エンジニア 連携 Daily定型ジョブ(Hive)だけで7000以上
    • 株式会社サイバーエージェント 18PAC3• 自作ジョブスケジューラ(Ruby)• Hiveクエリ単位で依存関係を張ることが可能• 設定はRuby DSLで記述• 結果を異なるデータストアに格納する記述が可能 • Hive → MySQL • Hive → HBase • Hive → Hive
    • 株式会社サイバーエージェント 19Hadoopクラスタの統合 SPプラットフォーム Ameba Patriot Patriot (CDH3u0) (CDH3u3) ノード:約60台 ノード:約50台 Dell:R410 Dell:R410 ネットワークの統合 Dell:R720xd(2U) 統合Patriot 【HDD】 (CDH4.2) 3TB×12(SATA) 300GB×2(SAS/OS) ノード:30台~ 【RAM】64GB 【CPU】8コア(HT)×2 Hadoopに向いたサーバの登場
    • 株式会社サイバーエージェント 20HBaseの利用 低レイテンシでのRead/Write バックエンドにHDFS 列指向分散データストア• PatriotのサマリDB• Hornet • グラフ構造を扱うデータストア • 分散Lock機能(Zookeeperを利用)• JSON Persister • JavaオブジェクトをJSONデータとして永続化するフレームワーク • Javaオブジェクトを直接save,loadするシンプルなAPI • Indexも指定可能 • データストア層をHBase ⇔ MySQLと切り替え可能
    • 株式会社サイバーエージェント 21Hornet(概要) 目的 • 大規模なグラフデータに対して高速に追加・更新処理ができる • シンプルなクエリを高速に(隣接ノードが取れれば良い) • オンライン処理 データモデル Name Suzuki • プロパティグラフ Follow 2 Age 28 date 2012/01/02 1 FriendName FukudaAge 28 Friend 3 Name Yasuda Age 26
    • 株式会社サイバーエージェント 22その他のHadoop関連プロダクトの利用• Flume • ログをTailしてHDFSやHBaseに流す • GrowthForecastでリアルタイムにアクセス数をグラフ化 • ラボ内にコミッター• Impala • Hiveより高速にクエリ実行が可能 • 検証しているところ • データマイニングエンジニアが探索的なクエリを実行する(検討中)• Blackhawk • HBaseをSQLライクな言語で扱うためのフレームワーク • 自作
    • 株式会社サイバーエージェント 23Hadoopの採用理由• Webサービスが生み出すデータは膨大• ゲーム/コミュニティサービスが次々にリリース• どれだけデータ量が増えるか予想することが難しい• 利用ユーザ数も増加する(サービスが増えればプロデューサも増える)• データが増えたらノードを増やせば良い• エコシステム(関連プロダクト)の充実• HBase,Hive,Zookeeperなど
    • 株式会社サイバーエージェント 24CDHの採用理由• 必要となる各種モジュールがパッケージングされている • Hadoop関連プロダクトはVersionを合わせるのが至難の業 • インストールが簡単• NameNode HA • CDH4系から • Apacheにも取り込まれるがCDHの方が早くリリースされる• JobTracker HA • CDH4.2から• Impalaなど新しいプロダクト • 必要とされるものが積極的に作られ,取り込まれる
    • 株式会社サイバーエージェント 25Cloudera Enterpriseの採用理由• 2012年下旬から採用している• CDHに関するサポートを得られる • Hadoop関連プロダクトは多岐にわたる • Hadoop,HBase,Zookeeper,Hive,Pig ... • 全てのプロダクトに精通することは不可能に近い • OSSなのでコミュニティで訊けば良いが...• Cloudera Manager • Hadoop環境構築がより簡単に • 運用も楽に • システム監視もできる• エンタープライズ向け機能の充実 • HA,BDR(バックアップ・ディザスタリカバリ回り), Navigator(データ監査とアクセス制御) • BtoCでもオンライン用途でHBaseを使うようになり必要性を感じた
    • 株式会社サイバーエージェント 26 Hadoop関連プロダクトまとめ/将来展望 として登場 or 連携一連の流れをHadoop関連プロ の可能性ダクトで解決できている 高度な処理 オンラインで オンライン処理 高度な分析 HBase (ex.Jubatus) 非定型処理 Flume 適用範囲拡大が 定型処理 WebUIからの Impala 期待される Hiveクエリ実行Map/ReduceHive Rなどを用いた より低レイテンシでの 高度な分析 クエリ実行が可能
    • 株式会社サイバーエージェント 27Hadoop採用を検討中の皆様へ• Hadoopはかなり安定している• OSS(Apacheライセンス)である• データ増加への恐怖がなくなる• 先進技術はHadoopのそばで生まれている• Hadoopのサポートをする企業の増加• まずはデータを集められる環境整備• ニーズは現場からどんどん出てくる • まずやってみる → 共通化など効率を考える• HBaseも用途によっては非常に有用
    • ありがとうございました