Hadoop~Yahoo! JAPANの活用について~

2,557 views
2,460 views

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,557
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
23
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Hadoop~Yahoo! JAPANの活用について~

  1. 1. Hadoop p ~Yahoo! JAPANの活用について~ 2011/01/15 ヤフー株式会社 R&D統括本部 ヤ 株式会社 統括本部 角田直行、吉田一星
  2. 2. 自 紹介 自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォーム開発本部検索開発部 開発3 プラットフォ ム開発本部検索開発部 – 2005年 ヤフー株式会社入社 – ヤフー地図 ヤフ 地図 – ヤフー路線 – ヤフー検索 … – 2010年現在、検索プラットフォームを開発中 1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  3. 3. 自 紹介 自己紹介 吉田一星 (よしだ いっせい) R&D統括本部プラットフォーム開発本部検索開発部開発3 R&D統括本部プラ トフォ ム開発本部検索開発部開発3 – 2008年にYahoo! JAPANに入社 – 検索プラットフォームで、Hadoopに関する開発 検索プラットフォ ムで、Hadoopに関する開発 – 画像処理、iPhone向け技術開発にもかかわる
  4. 4. Agenda g Introduction –Introduction Hadoopとは –Hadoopとは –事例紹介 –Hadoopのメリット・デメリット –まとめ 3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  5. 5. Introduction 4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  6. 6. 有名なネットサ 有名なネットサービス 月間 496億7100万PV 1日 5000万 のつぶやき 商品数 6800万 月間ユーザ数 5億人 各サービスとも日々成長を続けています 5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  7. 7. 莫大なデ タ量との闘 莫大なデータ量との闘い 成長を続けていくにはアクセスログ解析やデ タマイニングなど –成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない 6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  8. 8. Yahoo! JAPANが扱うデータ が扱うデ タ ログは1日分だけでもかなりのサイズになる –ログは1日分だけでもかなりのサイズになる 行数を数えるだけでも数日かかる –行数を数えるだけでも数日かかる 7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  9. 9. 解決策としての p 解決策としてのHadoop 大規模な処理 大容量のデ タを扱うには –大規模な処理、大容量のデータを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では、 この発表では Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します 8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  10. 10. Hadoopとは 9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  11. 11. Hadoopとは pとは 大規模分散処理システム –大規模分散処理システム –Google MapReduce/GFSを論文を元に実装 Google –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き Javaで書かれ、オ プンソ スとして公開 –Javaで書かれ オープンソースとして公開 10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  12. 12. Hadoopとは pとは –Doug C tti 氏が生みの親 D Cutting氏が生みの親 全文検索ライブラリ uce eなどの –全文検索ライブラリLuceneなどの 他有名OSSも開発 –Yahoo! Inc. 在籍時はフルタイムで開発 –現在はClouderaに在籍 (出典元:Wikipedia) 11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  13. 13. Hadoopとは pとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる 12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  14. 14. Hadoop MapReduce p p 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・ 13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  15. 15. Hadoop HDFS p ・巨大なファイルを複数台に分割 ・複数サ バの各HDDを1つのHDDのように扱える ・複数サーバの各HDDを1つのHDDのように扱える 14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  16. 16. Hadoop関連プロダクト p関連 ダクト 大規模データ処理用スクリプト言語 A = load 'passwd' using PigStorage(':'); Pig g B = foreach A generate $0 as id; dump B; Facebookが開発 扱いが 般デ タ 扱いが一般データベースに似ている スに似ている Hive CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a; a foo 15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  17. 17. Hadoop関連プロダクト p関連 ダクト 複数のMapReduceジョブなどを Oozie O i 実行制御するワ クフロ 実行制御するワークフロー Hadoop上に構築された列指向データベース Google Bi T bl のクロ ン G l BigTableのクローン HBase 機械学習ライブラリ Hadoopでスケール可 Mahout 16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  18. 18. Hadoopの事例紹介 事 17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  19. 19. Hadoopを活用している会社 pを活用して る会社 など・・・ 増え続けています! 増 続 ます 18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  20. 20. Yahoo! Inc.での事例紹介 事 19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  21. 21. Hadoop at Yahoo! Inc p Hadoopユ ザ テスタ コミッタ の数が最も多い –Hadoopユーザ、テスター、コミッターの数が最も多い Haoopのクラスタ、台数が最も多い –Haoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計25000台以上 – 1クラスタにつき最大4000台 20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  22. 22. Yahoo! Inc トップページ トッ ジ 21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  23. 23. Yahoo! Inc トップページ トッ ジ 検索インデッ クス 広告最適化 22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  24. 24. Yahoo! Inc トップページ トッ ジ コンテンツ最 検索インデッ 適化 クス スパムフィルター 広告最適化 コンテンツ管 管 コンテンツ最 最 理 適化 23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  25. 25. サ チアシ ト サーチアシスト – 入力した検索ワードに関連のありそうな単語を自動で補完 – データベースの構築にHadoopを使用 – 3年分のデータと 20ステップのMapReduce 3年分のデ タと、20ステップのMapReduce Hadoop使用前 Hadoop 時間 26日 20分 言語 C++ Python 開発期間 2~3週間 2 3週間 2~3日 2 3日 24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  26. 26. Yahoo! JAPANでの事例 事 25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  27. 27. 検索 グ ラット ォ 検索ログプラットフォーム 社内の検索サ ビスのログ解析全般 –社内の検索サービスのログ解析全般 Hiveを独自に拡張して使用している –Hiveを独自に拡張して使用している –様々なYahoo! JAPANのサービスにデータを提供 26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  28. 28. Yahoo!検索 検索 関連検索ワ ド –関連検索ワード キ ワ ド入力補助 –キーワード入力補助 –ショートカットの表示制御 –検索ログプラットフォームのデータが元になっている 27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  29. 29. Yahoo!検索ランキング 検索ランキング 検索ランキング 急上昇ワ ドランキングなど –検索ランキング、急上昇ワードランキングなど 都道府県別、性年代別のランキング(Yahoo!ラボ) –都道府県別、性年代別のランキング(Yahoo!ラボ) –検索ログプラットフォームが提供したデータをさらに加工している 28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  30. 30. レコメンデーションプラットフォーム ンデ ション ラット ォ – レコメンデーションサービスの計算処理に利用 レコメンデ ションサ ビスの計算処理に利用 – Yahoo!オークションなどに導入 29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  31. 31. 検索 ラット ォ 検索プラットフォーム(ABYSS) ( ) – 社内の検索サービスをホスティングするプラットフォーム – 様々なサービスに導入されている – 検索データのストレージとして使用 – 検索インデックス生成、検索データの解析処理 30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  32. 32. 地図検索 地図検索インデックス生成 –地図検索インデックス生成 クリック グ集計 検索ランキング反映 –クリックログ集計・検索ランキング反映 –店舗やビルの一意性処理 –開いているお店検索 – クロール – 定休日 営業時間抽出 定休日・営業時間抽出 – 検索インデックス生成 31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  33. 33. その他の事例 モバイル検索 –モバイル検索 広告プラットフォ ム –広告プラットフォーム –地域APIプラットフォーム(YOLP) –Yahoo! JAPAN研究所 –Etc… 32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  34. 34. 事例まとめ デ タ解析 デ タマイニング –データ解析、データマイニング – ログ解析、レコメンデーション、テキストマイニングなど グ解析、レ メンデ ション、テキストマイ ングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 大量のデ タを読み込んで解析をする処理 大量の計算が必 要な 要な「バッチ処理」がほとんど ッチ処理」がほとんど 33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  35. 35. Hadoopのメリット・デメリット デ 34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  36. 36. Hadoopのメリット・デメリット pの リット デ リット –○ MapReduceを使って バッチ処理を簡単に分散できる ○ MapReduceを使って、バッチ処理を簡単に分散できる –× リアルタイム処理には向かない –HDFSもMapReduceを使ったバッチ処理に最適化されている 35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  37. 37. HDFSの特性 の特性 ストレ ジとして使うには特性を理解する必要がある –ストレージとして使うには特性を理解する必要がある – × RDBMSの代用 – × ユーザから多くのアクセスがあるストレージ – △ 小さいデータを多く格納するストレージ – ○ アクセスログデータのストレージ – ○ 過去の取引履歴デ タのストレ ジ 過去の取引履歴データのストレージ 36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  38. 38. HDFSの特性 の特性 – 何GBというような大きなデータを一気に書き込んだり 読み出したりする用途 何GBというような大きなデ タを 気に書き込んだり、読み出したりする用途 に最適化 – シーケーシャルアクセス。SSDはあまり意味ない – データの書き換えは想定されていない デ タの書き換えは想定されていない – ランダム書き込みができない – ファイルロック(排他制御)がない – 秒間何十回といった大量の読み書き処理には向かない – ファイルキャッシュがない – もちろんRDBMSのようにインデックスがない 37 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  39. 39. リアルタイ 処理 は リアルタイム処理には? リアルタイム処理の選択肢はたくさんある –リアルタイム処理の選択肢はたくさんある 使い分けが重要! 38 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  40. 40. 使 分けの例 使い分けの例 – 検索プラットフォーム、ABYSSの例 検索プラットフォ 、 の例 検索インデックスのバッチ更新 数分~数時間かかる 検索インデックス 検索インデックスの元データ Hadoop 39 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  41. 41. 使 分けの例 使い分けの例 ザからのアク 、リアルタイ 更新は p以外で – ユーザからのアクセス、リアルタイム更新はHadoop以外で バッチ更新 リアルタイム更新 Hadoop クローラなど ユ ザ ユーザ トランザクション 検索インデックス 40 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  42. 42. まとめ 41 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  43. 43. まとめ Hadoopは大規模なデータを複数のマシンに分散して –Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なりつつある なり ある Hadoopは、大規模デ タを扱う処理や、大量の計算が必要な –Hadoopは、大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo!JAPANはこれからもHadoopを活用していきます 42 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  44. 44. TechBlog og http://techblog.yahoo.co.jp/ htt //t hbl h j / 43 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  45. 45. Hadoop Hack Night adoop a g 2010年3月、8月に開催 2010年3月 8月に開催 44 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  46. 46. ご静聴ありがとうございました! ご静聴 が ござ 45 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

×