Your SlideShare is downloading. ×
  • Like
Hadoop~Yahoo! JAPANの活用について~
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Hadoop~Yahoo! JAPANの活用について~

  • 2,062 views
Published

IDCフロンティアで行われたNOAHユーザー会での発表資料になります。

IDCフロンティアで行われたNOAHユーザー会での発表資料になります。

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,062
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
36
Comments
0
Likes
4

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Hadoop~Yahoo! JAPANの活用について~ 2011/06/30 ヤフー株式会社 R&D統括本部 角田直行
  • 2. 自己紹介 角田 直行(かくだ なおゆき) R&D統括本部 プラットフォーム開発本部検索開発部 開発3 – 2005年 ヤフー株式会社入社 – Yahoo!地図 – Yahoo!路線 – Yahoo!検索 … – 2011年現在、検索プラットフォームを開発中1 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 3. Agenda –Introduction –Hadoopとは –事例紹介 –まとめ2 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 4. Introduction3 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 5. 有名なネットサービス 月間 546億PV 2011年3月 月次報告より Twitter 1日 1億4千万 のつぶやき 2011年2月の平均Tweet数 楽天 商品数 7750万 2011年6月29日 facebook 月間ユーザ数 7億5千万人 2011年6月 各サービスとも日々成長を続けています4 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 6. 莫大なデータ量との闘い –成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 –億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない5 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 7. Yahoo! JAPANが扱うデータ –ログは1日分だけでもかなりのサイズになる –行数を数えるだけでも数日かかる6 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 8. 解決策としてのHadoop –大規模な処理、大容量のデータを扱うには 1台のサーバでは不可能 –マルチコアによる並行処理アプローチは複雑すぎる –数十~数千台規模で簡単にスケールする環境が不可欠 この発表では、 Yahoo! JAPANがHadoopをどう活用しているか について事例を交えて解説します7 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 9. Hadoopとは?8 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 10. Hadoopとは –大規模分散処理システム –Google MapReduce/GFSを論文を元に実装 –処理時間が数時間以上かかるようなバッチ処理に向いている → Webのように、即座に結果が返るような リアルタイム処理には不向き –Javaで書かれ、オープンソースとして公開9 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 11. Hadoopとは 大きくMapReduceとHDFS (分散ファイルシステム)に分かれる10 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 12. Hadoop MapReduce 長時間かかる巨大な処理を複数台のマシンに分散 ・・・ ・・・11 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 13. Hadoop HDFS ・巨大なファイルを複数台に分割 ・複数サーバの各HDDを1つのHDDのように扱える12 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 14. Hadoopの事例紹介13 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 15. Hadoopを活用している会社 など・・・ 増え続けています!14 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 16. Yahoo! Inc.での事例紹介15 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 17. Hadoop at Yahoo! Inc –Hadoopユーザ、テスター、コミッターの数が最も多い –Hadoopのコードのおよそ70%がYahoo!からのもの –Hadoopのクラスタ、台数が最も多い – 多数のクラスタがあり、合計42000台以上 – 1クラスタにつき最大4000台 – コアコミッターを中心に、Horton Worksという会社を立ちあげ – Yahoo!独自に進化させるのではなく、オープンソースとして のHadoopにより貢献するため16 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 18. Yahoo! Inc トップページ17 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 19. Yahoo! Inc トップページ 検索インデッ クス 広告最適化18 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 20. Yahoo! Inc トップページ コンテンツ最 検索インデッ 適化 クス スパムフィルター 広告最適化 コンテンツ管 コンテンツ最 理 適化19 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 21. Yahoo! JAPANでの事例20 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 22. Hadoop at Yahoo! JAPAN 検索プラットフォーム アクセスログデータ 広告プラットフォーム プラットフォーム レコメンデーションプ 地域APIプラットフォーム ラットフォーム 様々なYahoo! JAPANのサービスを支えるプラットフォームで、 Hadoopが使われています21 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 23. Yahoo! JAPANの検索サービス –例えば、Yahoo! JAPANの検索サービスでは・・・ 検索のログをHadoop サービスに検索機能を提供 で分析してデータ提供 検索ログプラット 検索プラットフォーム フォーム (ABYSS)22 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 24. Yahoo!検索 –検索ログプラットフォームのデータを元に様々な機能を提供 キーワード入力補助→ 関連検索ワード→ ショートカットの 表示制御→23 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 25. Yahoo!検索 リアルタイム検索 –検索プラットフォーム(ABYSS)が検索機能を提供 –Twitter社が提供した、リアルタイムのツイートデータを、ABYSS 側に送ってインデクシング24 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 26. ABYSSでのHadoopの役割 – 検索データのストレージ – 検索インデックスを生成 – 検索データを加工して提供(マージ処理) フロントエンド サービス担当 Gateway Ops/Direct API Admin UI Crawler Workflow Hadoop UserDB Index25 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 27. 検索インデックス生成 サービス担当者 ユーザ ABYSS サービス側フロ ントエンドサーバ Hadoop Server Index Server26 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 28. 検索インデックス生成 1. 検索インデックス の元になるデータ サービス担当者 ユーザ をアップロード ABYSS サービス側フロ ントエンドサーバ Hadoop Server Index Server27 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 29. 検索インデックス生成 1. 検索インデックス の元になるデータ サービス担当者 ユーザ をアップロード ABYSS 2. Hadoopで検索イ ンデックス生成 サービス側フロ ントエンドサーバ Hadoop Server Index Server28 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 30. 検索インデックス生成 1. 検索インデックス の元になるデータ サービス担当者 ユーザ をアップロード ABYSS 2. Hadoopで検索イ ンデックス生成 サービス側フロ ントエンドサーバ Hadoop Server 3. 検索インデックス をインデックスサー バに転送 Index Server29 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 31. 検索インデックス生成 1. 検索インデックス の元になるデータ 4. サービス側のサ サービス担当者 ユーザ をアップロード ーバを通じてユー ザが検索可能に ABYSS 2. Hadoopで検索イ ンデックス生成 サービス側フロ ントエンドサーバ Hadoop Server 3. 検索インデックス をインデックスサー バに転送 Index Server30 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 32. Hadoop at ABYSS – Hadoop クライアントとサーバに分けて運用を行っている – サーバは開発用クラスタと、検証用クラスタ、本番用クラスタがある – 本番用クラスタは、DRBD+Heartbeatで冗長化 – 別サーバからHadoop ClientでJobの実行や、ファイルの転送を行ってい る 開発用クラスタ 検証用クラスタ 本番用クラスタ Hadoop Client Hadoop Client Hadoop Client31 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 33. Hadoopの事例まとめ –データ解析、データマイニング – ログ解析、レコメンデーション、テキストマイニングなど –検索関係 – 検索インデックス生成、ランキング計算など →大量のデータを読み込んで解析をする処理、大量の計算が必 要な「バッチ処理」に向いている32 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 34. まとめ33 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 35. まとめ –Hadoopは大規模なデータを複数のマシンに分散して 処理できるプラットフォーム –Hadoopを使う企業は増え続けていて、不可欠な技術に なりつつある –Hadoopは、大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている –Yahoo! JAPANはこれからもHadoopを活用していきます34 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 36. Hadoopの連載記事 –いまさら聞けないHadoopとテキストマイニング入門 –Hadoopの基礎や、セットアップ方法を載せています http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html35 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
  • 37. ご静聴ありがとうございました!36 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止