Hadoop~Yahoo! JAPANの活用について~        2011/06/30    ヤフー株式会社 R&D統括本部         角田直行
自己紹介    角田 直行(かくだ なおゆき)    R&D統括本部 プラットフォーム開発本部検索開発部 開発3    – 2005年 ヤフー株式会社入社     – Yahoo!地図     – Yahoo!路線     – Yahoo!検索...
Agenda    –Introduction    –Hadoopとは    –事例紹介    –まとめ2                   Copyright © 2010 Yahoo Japan Corporation. All Rig...
Introduction3   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
有名なネットサービス                                              月間         546億PV                     2011年3月 月次報告より    Twitter   ...
莫大なデータ量との闘い    –成長を続けていくにはアクセスログ解析やデータマイニングなど    が必須    –億単位の行 or テラバイト級のデータを短時間で処理したい          毎日処理しなければならない5           C...
Yahoo! JAPANが扱うデータ    –ログは1日分だけでもかなりのサイズになる    –行数を数えるだけでも数日かかる6           Copyright © 2010 Yahoo Japan Corporation. All R...
解決策としてのHadoop    –大規模な処理、大容量のデータを扱うには    1台のサーバでは不可能    –マルチコアによる並行処理アプローチは複雑すぎる    –数十~数千台規模で簡単にスケールする環境が不可欠             ...
Hadoopとは?8   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopとは    –大規模分散処理システム    –Google MapReduce/GFSを論文を元に実装    –処理時間が数時間以上かかるようなバッチ処理に向いている    → Webのように、即座に結果が返るような      リア...
Hadoopとは     大きくMapReduceとHDFS     (分散ファイルシステム)に分かれる10      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved....
Hadoop MapReduce     長時間かかる巨大な処理を複数台のマシンに分散                                                                               ...
Hadoop HDFS ・巨大なファイルを複数台に分割 ・複数サーバの各HDDを1つのHDDのように扱える12      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved...
Hadoopの事例紹介13   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoopを活用している会社                                                                             など・・・                         ...
Yahoo! Inc.での事例紹介15    Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop at Yahoo! Inc –Hadoopユーザ、テスター、コミッターの数が最も多い      –Hadoopのコードのおよそ70%がYahoo!からのもの –Hadoopのクラスタ、台数が最も多い      – 多数のクラスタが...
Yahoo! Inc トップページ17      Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Yahoo! Inc トップページ                                                                        検索インデッ                           ...
Yahoo! Inc トップページ                   コンテンツ最                                               検索インデッ                     適化    ...
Yahoo! JAPANでの事例20    Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Hadoop at Yahoo! JAPAN                                         検索プラットフォーム       アクセスログデータ                                 ...
Yahoo! JAPANの検索サービス –例えば、Yahoo! JAPANの検索サービスでは・・・     検索のログをHadoop                                                        ...
Yahoo!検索 –検索ログプラットフォームのデータを元に様々な機能を提供     キーワード入力補助→     関連検索ワード→      ショートカットの       表示制御→23               Copyright © 20...
Yahoo!検索 リアルタイム検索 –検索プラットフォーム(ABYSS)が検索機能を提供 –Twitter社が提供した、リアルタイムのツイートデータを、ABYSS     側に送ってインデクシング24          Copyright © ...
ABYSSでのHadoopの役割 – 検索データのストレージ – 検索インデックスを生成 – 検索データを加工して提供(マージ処理)          フロントエンド                                       ...
検索インデックス生成                                                                                       サービス担当者     ユーザ          ...
検索インデックス生成                                                                       1. 検索インデックス                              ...
検索インデックス生成                                                                       1. 検索インデックス                              ...
検索インデックス生成                                                                       1. 検索インデックス                              ...
検索インデックス生成                                                                        1. 検索インデックス                             ...
Hadoop at ABYSS – Hadoop クライアントとサーバに分けて運用を行っている – サーバは開発用クラスタと、検証用クラスタ、本番用クラスタがある – 本番用クラスタは、DRBD+Heartbeatで冗長化 – 別サーバからHa...
Hadoopの事例まとめ –データ解析、データマイニング      – ログ解析、レコメンデーション、テキストマイニングなど –検索関係      – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計...
まとめ33   Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
まとめ –Hadoopは大規模なデータを複数のマシンに分散して     処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に     なりつつある –Hadoopは、大規模データを扱う処理や、大量の計算が必要な ...
Hadoopの連載記事 –いまさら聞けないHadoopとテキストマイニング入門 –Hadoopの基礎や、セットアップ方法を載せています     http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm0...
ご静聴ありがとうございました!36     Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
Upcoming SlideShare
Loading in...5
×

Hadoop~Yahoo! JAPANの活用について~

2,128

Published on

IDCフロンティアで行われたNOAHユーザー会での発表資料になります。

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,128
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
37
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

Hadoop~Yahoo! JAPANの活用について~

  1. 1. Hadoop~Yahoo! JAPANの活用について~ 2011/06/30 ヤフー株式会社 R&D統括本部 角田直行
  2. 2. 自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォーム開発本部検索開発部 開発3 – 2005年 ヤフー株式会社入社 – Yahoo!地図 – Yahoo!路線 – Yahoo!検索 … – 2011年現在、検索プラットフォームを開発中1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  3. 3. Agenda –Introduction –Hadoopとは –事例紹介 –まとめ2 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  4. 4. Introduction3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  5. 5. 有名なネットサービス 月間 546億PV 2011年3月 月次報告より Twitter 1日 1億4千万 のつぶやき 2011年2月の平均Tweet数 楽天 商品数 7750万 2011年6月29日 facebook 月間ユーザ数 7億5千万人 2011年6月 各サービスとも日々成長を続けています4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  6. 6. 莫大なデータ量との闘い –成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  7. 7. Yahoo! JAPANが扱うデータ –ログは1日分だけでもかなりのサイズになる –行数を数えるだけでも数日かかる6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  8. 8. 解決策としてのHadoop –大規模な処理、大容量のデータを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では、 Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  9. 9. Hadoopとは?8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  10. 10. Hadoopとは –大規模分散処理システム –Google MapReduce/GFSを論文を元に実装 –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き –Javaで書かれ、オープンソースとして公開9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  11. 11. Hadoopとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  12. 12. Hadoop MapReduce 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  13. 13. Hadoop HDFS ・巨大なファイルを複数台に分割 ・複数サーバの各HDDを1つのHDDのように扱える12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  14. 14. Hadoopの事例紹介13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  15. 15. Hadoopを活用している会社 など・・・ 増え続けています!14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  16. 16. Yahoo! Inc.での事例紹介15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  17. 17. Hadoop at Yahoo! Inc –Hadoopユーザ、テスター、コミッターの数が最も多い –Hadoopのコードのおよそ70%がYahoo!からのもの –Hadoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計42000台以上 – 1クラスタにつき最大4000台 – コアコミッターを中心に、Horton Worksという会社を立ちあげ – Yahoo!独自に進化させるのではなく、オープンソースとして のHadoopにより貢献するため16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  18. 18. Yahoo! Inc トップページ17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  19. 19. Yahoo! Inc トップページ 検索インデッ クス 広告最適化18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  20. 20. Yahoo! Inc トップページ コンテンツ最 検索インデッ 適化 クス スパムフィルター 広告最適化 コンテンツ管 コンテンツ最 理 適化19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  21. 21. Yahoo! JAPANでの事例20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  22. 22. Hadoop at Yahoo! JAPAN 検索プラットフォーム アクセスログデータ 広告プラットフォーム プラットフォーム レコメンデーションプ 地域APIプラットフォーム ラットフォーム 様々なYahoo! JAPANのサービスを支えるプラットフォームで、 Hadoopが使われています21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  23. 23. Yahoo! JAPANの検索サービス –例えば、Yahoo! JAPANの検索サービスでは・・・ 検索のログをHadoop サービスに検索機能を提供 で分析してデータ提供 検索ログプラット 検索プラットフォーム フォーム (ABYSS)22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  24. 24. Yahoo!検索 –検索ログプラットフォームのデータを元に様々な機能を提供 キーワード入力補助→ 関連検索ワード→ ショートカットの 表示制御→23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  25. 25. Yahoo!検索 リアルタイム検索 –検索プラットフォーム(ABYSS)が検索機能を提供 –Twitter社が提供した、リアルタイムのツイートデータを、ABYSS 側に送ってインデクシング24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  26. 26. ABYSSでのHadoopの役割 – 検索データのストレージ – 検索インデックスを生成 – 検索データを加工して提供(マージ処理) フロントエンド サービス担当 Gateway Ops/Direct API Admin UI Crawler Workflow Hadoop UserDB Index25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  27. 27. 検索インデックス生成 サービス担当者 ユーザ ABYSS サービス側フロ ントエンドサーバ Hadoop Server Index Server26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  28. 28. 検索インデックス生成 1. 検索インデックス の元になるデータ サービス担当者 ユーザ をアップロード ABYSS サービス側フロ ントエンドサーバ Hadoop Server Index Server27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  29. 29. 検索インデックス生成 1. 検索インデックス の元になるデータ サービス担当者 ユーザ をアップロード ABYSS 2. Hadoopで検索イ ンデックス生成 サービス側フロ ントエンドサーバ Hadoop Server Index Server28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  30. 30. 検索インデックス生成 1. 検索インデックス の元になるデータ サービス担当者 ユーザ をアップロード ABYSS 2. Hadoopで検索イ ンデックス生成 サービス側フロ ントエンドサーバ Hadoop Server 3. 検索インデックス をインデックスサー バに転送 Index Server29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  31. 31. 検索インデックス生成 1. 検索インデックス の元になるデータ 4. サービス側のサ サービス担当者 ユーザ をアップロード ーバを通じてユー ザが検索可能に ABYSS 2. Hadoopで検索イ ンデックス生成 サービス側フロ ントエンドサーバ Hadoop Server 3. 検索インデックス をインデックスサー バに転送 Index Server30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  32. 32. Hadoop at ABYSS – Hadoop クライアントとサーバに分けて運用を行っている – サーバは開発用クラスタと、検証用クラスタ、本番用クラスタがある – 本番用クラスタは、DRBD+Heartbeatで冗長化 – 別サーバからHadoop ClientでJobの実行や、ファイルの転送を行ってい る 開発用クラスタ 検証用クラスタ 本番用クラスタ Hadoop Client Hadoop Client Hadoop Client31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  33. 33. Hadoopの事例まとめ –データ解析、データマイニング – ログ解析、レコメンデーション、テキストマイニングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 要な「バッチ処理」に向いている32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  34. 34. まとめ33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  35. 35. まとめ –Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なりつつある –Hadoopは、大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo! JAPANはこれからもHadoopを活用していきます34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  36. 36. Hadoopの連載記事 –いまさら聞けないHadoopとテキストマイニング入門 –Hadoopの基礎や、セットアップ方法を載せています http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  37. 37. ご静聴ありがとうございました!36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×