Hadoop

1,205 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,205
On SlideShare
0
From Embeds
0
Number of Embeds
16
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Hadoop

  1. 1. Hadoop<br />1<br />
  2. 2. シナリオ<br />Hadoopとは?<br />HDFS<br />MapReduce<br />Hadoop利用例<br />2<br />
  3. 3. Hadoopとは?<br />分散データ処理を実装するために必要なコンポーネントを提供する。<br />HDFS<br />クラスタ内ノードのローカルファイルシステムを論理手的にひとつのファイルシステムとする<br />MapReduce<br />分散コンピューティングモデルに基づくプログラムをJavaで作成するためのフレームワークを提供<br />クラウドなどの大規模なシステムにおいて極めて大きなデータを処理するための環境を提供する。<br />3<br />
  4. 4. HDFS<br />複数のノードのローカルファイルシステムを論理的に結合してひとつの共有ファイルシステムを作成する。<br />巨大なファイルをノードにまたがり格納することができる。<br />1台のNameNodeと複数のDataNodeから構成される。<br />NameNodeは1クラスタに1台となるためNameNodeはHadoopクラスタの単一障害点となる。<br />4<br />
  5. 5. HDFS<br />NameNode(マスター)<br /><ul><li>ファイルシステムのメタデータ(ディレクトリ構造、ファイルアクセス権など)を管理。
  6. 6. NameNodeはクラスタの単一障害点になる、NameNodeがダウンした場合はクラスタはオフラインとなる。</li></ul>DataNode(スレーブ)<br /><ul><li>実際のデータを保持する。
  7. 7. ブロック単位でハードディスクにデータが保存される。
  8. 8. データはそれぞれレプリカを別のDataNodeに作成する。</li></ul>5<br />
  9. 9. HDFS<br />HDFSクライアントからのファイル操作<br />(1)ファイル名からDataNodeの位置を取得<br />Hadoopクラスタ<br />NameNode<br />(2)NameNodeから情報に基づきデータを読み込む<br />6<br />DataNode<br />
  10. 10. MapReduce<br />MapReduceは並列データ処理のための分散コンピューティングモデル、Googleによって開発。<br />対象データをレコード毎に処理して結果をキー・バリュー形式に出力(Map処理)<br />同一キーを持つ結果を結合して、最終結果を出力する。(Reduce処理)<br />7<br />
  11. 11. MapReduce<br />8<br />例)ファイル内のデータを単語毎にスペースで分割しそれぞれの単語がファイル内に<br />何回出てくるかを計算するプログラム。<br />サンプル<br />愛知県 東京都 愛知県 北海道 北海道 東京都 愛知県 愛知県 <br />京都府 福岡県 大阪府 神奈川県 京都府 愛知県 福岡県 大阪府・・・<br />Map<br />Reduce<br />分散<br />集約<br /><愛知県、1><br /><東京都、1><br /><愛知県、20><br /><東京都、16><br /><北海道、14><br /><京都府、18><br /><大阪府、10><br /><福岡県、12><br /><神奈川県、13><br /><福岡県、1><br /><京都府、1><br /><愛知県、1><br /><北海道、1><br />
  12. 12. Hadoopの実用例<br />Yahoo<br /><ul><li>検索時の関連ワード用のインデックスを作成するのにこれまではC++利用し26日間を要していたがHadoopを利用することで20分に短縮することに成功。</li></ul>ニューヨーク・タイムス<br /><ul><li>約130年分の過去記事画像(TIFF形式)をPDFに変換する際に利用、約4TBのデータを24時間以内に全ての処理を完了させた。</li></ul>楽天<br /><ul><li>楽天内の「この商品を買った人はこんな商品にも興味を持っています」のリストを作成するのに利用、2億件の購買データの解析を5時間で完了させた。</li></ul>9<br />
  13. 13. 10<br />END<br />

×