Submit Search
Upload
Hadoop概要説明
•
8 likes
•
32,778 views
Satoshi Noto
Follow
Report
Share
Report
Share
1 of 44
Download now
Download to read offline
Recommended
Hadoop入門
Hadoop入門
Preferred Networks
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
NTT DATA OSS Professional Services
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Hiveハンズオン
Hiveハンズオン
Satoshi Noto
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
NTT DATA Technology & Innovation
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
Recommended
Hadoop入門
Hadoop入門
Preferred Networks
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
NTT DATA OSS Professional Services
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Hiveハンズオン
Hiveハンズオン
Satoshi Noto
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
NTT DATA Technology & Innovation
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
Yuki Gonda
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
Masahito Zembutsu
SlideShareをやめて Speaker Deckに移行します
SlideShareをやめて Speaker Deckに移行します
Moriwaka Kazuo
AWS Glueを使った Serverless ETL の実装パターン
AWS Glueを使った Serverless ETL の実装パターン
seiichi arai
AWS Batch Fargate対応は何をもたらすか
AWS Batch Fargate対応は何をもたらすか
Shun Fukazawa
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
Takuya Akiba
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
CRDT in 15 minutes
CRDT in 15 minutes
Shingo Omura
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
Tetsutaro Watanabe
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
NTT DATA Technology & Innovation
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
Google Cloud Platform - Japan
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
More Related Content
What's hot
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
Yuki Gonda
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
Masahito Zembutsu
SlideShareをやめて Speaker Deckに移行します
SlideShareをやめて Speaker Deckに移行します
Moriwaka Kazuo
AWS Glueを使った Serverless ETL の実装パターン
AWS Glueを使った Serverless ETL の実装パターン
seiichi arai
AWS Batch Fargate対応は何をもたらすか
AWS Batch Fargate対応は何をもたらすか
Shun Fukazawa
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
Takuya Akiba
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
CRDT in 15 minutes
CRDT in 15 minutes
Shingo Omura
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
Tetsutaro Watanabe
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
NTT DATA Technology & Innovation
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
Google Cloud Platform - Japan
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
What's hot
(20)
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
忙しい人の5分で分かるMesos入門 - Mesos って何だ?
SlideShareをやめて Speaker Deckに移行します
SlideShareをやめて Speaker Deckに移行します
AWS Glueを使った Serverless ETL の実装パターン
AWS Glueを使った Serverless ETL の実装パターン
AWS Batch Fargate対応は何をもたらすか
AWS Batch Fargate対応は何をもたらすか
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
乱択データ構造の最新事情 -MinHash と HyperLogLog の最近の進歩-
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
CRDT in 15 minutes
CRDT in 15 minutes
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Similar to Hadoop概要説明
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
Takashi Aoe
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
Hadoop
Hadoop
Atsushi Shimura
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Shinichi YAMASHITA
Hadoop事始め
Hadoop事始め
You&I
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
Similar to Hadoop概要説明
(20)
Hadoop loves H2
Hadoop loves H2
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ゾウ使いへの第一歩
ゾウ使いへの第一歩
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Hadoop
Hadoop
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Hadoop事始め
Hadoop事始め
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
SASとHadoopとの連携
SASとHadoopとの連携
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
Hadoopことはじめ
Hadoopことはじめ
More from Satoshi Noto
このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
Satoshi Noto
読書会のすすめ
読書会のすすめ
Satoshi Noto
データ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto
Amazon Machine Learning概要
Amazon Machine Learning概要
Satoshi Noto
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
Satoshi Noto
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
Satoshi Noto
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
Satoshi Noto
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
MapReduce入門
MapReduce入門
Satoshi Noto
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
More from Satoshi Noto
(11)
このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
読書会のすすめ
読書会のすすめ
データ分析チームの振り返り
データ分析チームの振り返り
Amazon Machine Learning概要
Amazon Machine Learning概要
Tez on EMRを試してみた
Tez on EMRを試してみた
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
MapReduceプログラミング入門
MapReduceプログラミング入門
MapReduce入門
MapReduce入門
ただいまHadoop勉強中
ただいまHadoop勉強中
Hadoop概要説明
1.
Hadoop概要説明 2011-‐‑‒04-‐‑‒08 社内勉強会
2.
目次 1.What is Hadoop? 2.HDFS
& MapReduce 3.オープンソース 4.事例
3.
1.What is Hadoop?
4.
巨大なデータをバッチ処理するた めの並列分散処理基盤
5.
並列分散処理とは、ある1つの処理 を分割して、同時に処理を行うこ とを指す。並列分散処理すること で処理時間を短縮することが出来 る。
6.
Hadoopは数千台のサーバーを利 用して並列分散処理を行うことが 出来る。そのため、処理時間を数 千分の一に減らすことが出来る。
7.
例えばサーバー1台の場合に100 日かかる処理があったと仮定する。 この処理を100台のサーバーで構 成されるHadoopを利用すること で、処理時間を1日に減らすことが 出来る。
8.
ただし、、、
9.
100秒かかる処理を1秒に減らす ことは出来ない。ジョブの起動だ けで30秒近くかかる。そのため、 バッチ処理専用である。
10.
また、サーバー台数に応じて処理 能力が直線的に向上する代償とし て、Hadoopには色々と制約が存 在する。
11.
2.HDFS & MapReduce
12.
HadoopはコアとなるHDFSと MapReduce以外にも、様々な関 連コンポーネントが存在している。
13.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
14.
今回はHDFSとMapReduceにつ いて説明する。
15.
まずはHDFS
16.
HDFS(Hadoop Distributed File System)は分散ファイルシス テムである。複数のサーバーにファ イルを分割して保持することで巨 大なファイルも扱える。
17.
HDFSのアーキテクチャ
18.
http://hadoop.apache.org/hdfs/docs/current/hdfs_design.html より引用
19.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
20.
HDFSはマスター・スレイブ構成 になっており、1台のNameNode と複数台DataNodeによって構成 される。
21.
データを複数台のDataNodeで分 割して保持することで、ペタバイ トのファイルを扱うことが出来る。
22.
また、同じデータをDataNode間 で複製しているため、ある DataNodeが故障しても継続して 利用出来る。故障したDataNode のデータは他のDataNodeに再度 複製される。
23.
ただし、、、
24.
一度書き込んだファイルの更新は 出来ないという制約がある。
25.
また、NameNodeが故障した場 合はHDFS全体が利用できなくな る。そのため、NameNodeの耐 障害性を向上したい場合は、別途 対応を行う必要がある。
26.
次にMapReduce
27.
MapReduceは分散処理フレーム ワークである。
28.
MapReduceもマスター・スレイ ブ構成になっており、1台の JobTrackerと複数台 TaskTrackerによって構成される。
29.
MapReduceの流れ
30.
Googleを支える技術 より引用
31.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
32.
処理を自由に書けるわけではなく、 mapとreduceという処理の中身 を規約に従って記述する必要があ る。
33.
3.オープンソース
34.
HadoopはGoogleが公開したGFS およびMapReduceの論文を参考 にして作られている。
35.
Googleの技術との対応 Google Hadoop 分散ファイル システム GFS (Google File
System) HDFS (Hadoop Distributed File System) 分散処理 フレームワーク MapReduce Hadoop MapReduce
36.
GFSおよびMapReduceは論文の みが公開されていてソースは公開 されていない。一方、Hadoopは Apacheでホストされていて、オー プンソースである。
37.
そのため、Hadoopには様々なディ ストリビューションが存在する。
38.
ディストリビューション •Cloudera s Distribution
including Apache Hadoop (CDH) •Yahoo! Distribution of Hadoop •IBM Distribution of Apache Hadoop
39.
さらに
40.
Amazon Elastic MapReduce (EMR)
を利用すれば、サービスと してHadoopを利用出来る。
41.
4.事例
42.
事例1:Yahoo ソート •1テラバイトを62秒 (1460Node) •1ペタバイトを16時間強 (3558Node) http://storageconference.net/2010/Presentations/Research/9.Shvachko.pdf
43.
事例2:ニューヨークタイムズ データ変換 1100万強の記事のスキャン画像(4TB)をAWS 上にHadoopを構築 (100Node) して
24時 間でPDF(1.5TB)に変換した。 http://open.blogs.nytimes.com/2007/11/01/self-service-prorated-super-computing-fun/
44.
事例3:クックパッド データ解析 MySQLで7000時間かかるデータ 解析処理をHadoopを利用するこ とで30時間に短縮した。 http://www.slideshare.net/sasata299/961-5483293
Editor's Notes
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
Download now