Hadoop~Yahoo! JAPANの活用について~

  • 2,302 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,302
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
22
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Hadoop p ~Yahoo! JAPANの活用について~ 2011/01/15 ヤフー株式会社 R&D統括本部 ヤ 株式会社 統括本部 角田直行、吉田一星
  • 2. 自 紹介 自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォーム開発本部検索開発部 開発3 プラットフォ ム開発本部検索開発部 – 2005年 ヤフー株式会社入社 – ヤフー地図 ヤフ 地図 – ヤフー路線 – ヤフー検索 … – 2010年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 3. 自 紹介 自己紹介 吉田一星 (よしだ いっせい) R&D統括本部プラットフォーム開発本部検索開発部開発3 R&D統括本部プラ トフォ ム開発本部検索開発部開発3 – 2008年にYahoo! JAPANに入社 – 検索プラットフォームで、Hadoopに関する開発 検索プラットフォ ムで、Hadoopに関する開発 – 画像処理、iPhone向け技術開発にもかかわる
  • 4. Agenda g Introduction –Introduction Hadoopとは –Hadoopとは –事例紹介 –Hadoopのメリット・デメリット –まとめ 3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 5. Introduction 4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 6. 有名なネットサ 有名なネットサービス 月間 496億7100万PV 1日 5000万 のつぶやき 商品数 6800万 月間ユーザ数 5億人 各サービスとも日々成長を続けています 5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 7. 莫大なデ タ量との闘 莫大なデータ量との闘い 成長を続けていくにはアクセスログ解析やデ タマイニングなど –成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない 6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 8. Yahoo! JAPANが扱うデータ が扱うデ タ ログは1日分だけでもかなりのサイズになる –ログは1日分だけでもかなりのサイズになる 行数を数えるだけでも数日かかる –行数を数えるだけでも数日かかる 7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 9. 解決策としての p 解決策としてのHadoop 大規模な処理 大容量のデ タを扱うには –大規模な処理、大容量のデータを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では、 この発表では Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します 8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 10. Hadoopとは 9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 11. Hadoopとは pとは 大規模分散処理システム –大規模分散処理システム –Google MapReduce/GFSを論文を元に実装 Google –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き Javaで書かれ、オ プンソ スとして公開 –Javaで書かれ オープンソースとして公開 10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 12. Hadoopとは pとは –Doug C tti 氏が生みの親 D Cutting氏が生みの親 全文検索ライブラリ uce eなどの –全文検索ライブラリLuceneなどの 他有名OSSも開発 –Yahoo! Inc. 在籍時はフルタイムで開発 –現在はClouderaに在籍 (出典元:Wikipedia) 11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 13. Hadoopとは pとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる 12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 14. Hadoop MapReduce p p 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・ 13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 15. Hadoop HDFS p ・巨大なファイルを複数台に分割 ・複数サ バの各HDDを1つのHDDのように扱える ・複数サーバの各HDDを1つのHDDのように扱える 14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 16. Hadoop関連プロダクト p関連 ダクト 大規模データ処理用スクリプト言語 A = load 'passwd' using PigStorage(':'); Pig g B = foreach A generate $0 as id; dump B; Facebookが開発 扱いが 般デ タ 扱いが一般データベースに似ている スに似ている Hive CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a; a foo 15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 17. Hadoop関連プロダクト p関連 ダクト 複数のMapReduceジョブなどを Oozie O i 実行制御するワ クフロ 実行制御するワークフロー Hadoop上に構築された列指向データベース Google Bi T bl のクロ ン G l BigTableのクローン HBase 機械学習ライブラリ Hadoopでスケール可 Mahout 16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 18. Hadoopの事例紹介 事 17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 19. Hadoopを活用している会社 pを活用して る会社 など・・・ 増え続けています! 増 続 ます 18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 20. Yahoo! Inc.での事例紹介 事 19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 21. Hadoop at Yahoo! Inc p Hadoopユ ザ テスタ コミッタ の数が最も多い –Hadoopユーザ、テスター、コミッターの数が最も多い Haoopのクラスタ、台数が最も多い –Haoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計25000台以上 – 1クラスタにつき最大4000台 20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 22. Yahoo! Inc トップページ トッ ジ 21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 23. Yahoo! Inc トップページ トッ ジ 検索インデッ クス 広告最適化 22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 24. Yahoo! Inc トップページ トッ ジ コンテンツ最 検索インデッ 適化 クス スパムフィルター 広告最適化 コンテンツ管 管 コンテンツ最 最 理 適化 23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 25. サ チアシ ト サーチアシスト – 入力した検索ワードに関連のありそうな単語を自動で補完 – データベースの構築にHadoopを使用 – 3年分のデータと 20ステップのMapReduce 3年分のデ タと、20ステップのMapReduce Hadoop使用前 Hadoop 時間 26日 20分 言語 C++ Python 開発期間 2~3週間 2 3週間 2~3日 2 3日 24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 26. Yahoo! JAPANでの事例 事 25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 27. 検索 グ ラット ォ 検索ログプラットフォーム 社内の検索サ ビスのログ解析全般 –社内の検索サービスのログ解析全般 Hiveを独自に拡張して使用している –Hiveを独自に拡張して使用している –様々なYahoo! JAPANのサービスにデータを提供 26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 28. Yahoo!検索 検索 関連検索ワ ド –関連検索ワード キ ワ ド入力補助 –キーワード入力補助 –ショートカットの表示制御 –検索ログプラットフォームのデータが元になっている 27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 29. Yahoo!検索ランキング 検索ランキング 検索ランキング 急上昇ワ ドランキングなど –検索ランキング、急上昇ワードランキングなど 都道府県別、性年代別のランキング(Yahoo!ラボ) –都道府県別、性年代別のランキング(Yahoo!ラボ) –検索ログプラットフォームが提供したデータをさらに加工している 28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 30. レコメンデーションプラットフォーム ンデ ション ラット ォ – レコメンデーションサービスの計算処理に利用 レコメンデ ションサ ビスの計算処理に利用 – Yahoo!オークションなどに導入 29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 31. 検索 ラット ォ 検索プラットフォーム(ABYSS) ( ) – 社内の検索サービスをホスティングするプラットフォーム – 様々なサービスに導入されている – 検索データのストレージとして使用 – 検索インデックス生成、検索データの解析処理 30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 32. 地図検索 地図検索インデックス生成 –地図検索インデックス生成 クリック グ集計 検索ランキング反映 –クリックログ集計・検索ランキング反映 –店舗やビルの一意性処理 –開いているお店検索 – クロール – 定休日 営業時間抽出 定休日・営業時間抽出 – 検索インデックス生成 31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 33. その他の事例 モバイル検索 –モバイル検索 広告プラットフォ ム –広告プラットフォーム –地域APIプラットフォーム(YOLP) –Yahoo! JAPAN研究所 –Etc… 32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 34. 事例まとめ デ タ解析 デ タマイニング –データ解析、データマイニング – ログ解析、レコメンデーション、テキストマイニングなど グ解析、レ メンデ ション、テキストマイ ングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 大量のデ タを読み込んで解析をする処理 大量の計算が必 要な 要な「バッチ処理」がほとんど ッチ処理」がほとんど 33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 35. Hadoopのメリット・デメリット デ 34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 36. Hadoopのメリット・デメリット pの リット デ リット –○ MapReduceを使って バッチ処理を簡単に分散できる ○ MapReduceを使って、バッチ処理を簡単に分散できる –× リアルタイム処理には向かない –HDFSもMapReduceを使ったバッチ処理に最適化されている 35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 37. HDFSの特性 の特性 ストレ ジとして使うには特性を理解する必要がある –ストレージとして使うには特性を理解する必要がある – × RDBMSの代用 – × ユーザから多くのアクセスがあるストレージ – △ 小さいデータを多く格納するストレージ – ○ アクセスログデータのストレージ – ○ 過去の取引履歴デ タのストレ ジ 過去の取引履歴データのストレージ 36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 38. HDFSの特性 の特性 – 何GBというような大きなデータを一気に書き込んだり 読み出したりする用途 何GBというような大きなデ タを 気に書き込んだり、読み出したりする用途 に最適化 – シーケーシャルアクセス。SSDはあまり意味ない – データの書き換えは想定されていない デ タの書き換えは想定されていない – ランダム書き込みができない – ファイルロック(排他制御)がない – 秒間何十回といった大量の読み書き処理には向かない – ファイルキャッシュがない – もちろんRDBMSのようにインデックスがない 37 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 39. リアルタイ 処理 は リアルタイム処理には? リアルタイム処理の選択肢はたくさんある –リアルタイム処理の選択肢はたくさんある 使い分けが重要! 38 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 40. 使 分けの例 使い分けの例 – 検索プラットフォーム、ABYSSの例 検索プラットフォ 、 の例 検索インデックスのバッチ更新 数分~数時間かかる 検索インデックス 検索インデックスの元データ Hadoop 39 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 41. 使 分けの例 使い分けの例 ザからのアク 、リアルタイ 更新は p以外で – ユーザからのアクセス、リアルタイム更新はHadoop以外で バッチ更新 リアルタイム更新 Hadoop クローラなど ユ ザ ユーザ トランザクション 検索インデックス 40 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 42. まとめ 41 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 43. まとめ Hadoopは大規模なデータを複数のマシンに分散して –Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なりつつある なり ある Hadoopは、大規模デ タを扱う処理や、大量の計算が必要な –Hadoopは、大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo!JAPANはこれからもHadoopを活用していきます 42 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 44. TechBlog og http://techblog.yahoo.co.jp/ htt //t hbl h j / 43 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 45. Hadoop Hack Night adoop a g 2010年3月、8月に開催 2010年3月 8月に開催 44 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 46. ご静聴ありがとうございました! ご静聴 が ござ 45 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止