SlideShare a Scribd company logo
1 of 24
Advanced Tech Night No.01



         MapReduceだけでない!?
          Hadoopとその仲間たち


                                     2011/04/22
                  Acroquest Technology 株式会社
                                     束野 仁政
自己紹介

 束野 仁政(つかの さとゆき) @snuffkin
 Acroquest Technology 株式会社
  ネットワークマネージメントソリューショング
  ループ
  エンジニアリングデザイナー
 仕事内容
 1.   Network Management Systemの開発が中心
 2.   何でもネットワークにつながり、大量データ処理を求め
      られる時代。そこで、眼を付けているのがHadoop
 趣味
  スポーツ観戦(生観戦の臨場感が好き)
 特徴
  声が高い。飲むと、ますます高くなる。
                                       1
                 Advanced Tech Night
まずは、質問

Q. 「Hadoop」って単語を聞いたことある
人?


Q. Hadoopをインストールしたことがある
人?

Q. HDFS、MapReduce、HBase以外の
   Hadoopプロダクトを知っている人?

                                 2
           Advanced Tech Night
伝えたいこと

いわゆる

Hadoop ≒ MapReduce
   Hadoop群
       >
    MapReduce                  3
         Advanced Tech Night
目次

1. 動機           5. 応用プロダクト
2. Hadoop概要のおさら    1. Pig
   い               2. Mahout
3. プロダクト構成         3. Sqoop
  1. ディストリビューショ    4. Flume
     ン
                6. 組合せてできること
  2. プロダクト一覧
4. 基本プロダクト      7. 最後に
 1.   HDFS
 2.   MapReduce
 3.   HBase
 4.   Hive                              4
                  Advanced Tech Night
1. 動機

1. Hadoopが紹介された当初は
   「Hadoop = MapReduce(+HDFS,HBase)」
   という感じだった。
2. 大御所Clouderaを始め、Hadoopは周辺プロダ
   クトが数多く開発されており、これらプロダク
   トを使った成果が次々と出ている。
3. ここでは、
   「Hadoopには、どんなプロダクトがあるか」
   「組合せることで、どんなことができるのか」
   を紹介する。


                                     5
               Advanced Tech Night
2. Hadoop概要のおさらい

 大量データの並列分散処理基盤
 安価なハードウェアを多数並列処理させる
  ことでスケーラビリティを実現する。




                                  6
            Advanced Tech Night
3. プロダクト構成 (1)ディストリビュー
ション
1. Hadoopは、複数のプロダクトで構成されている


                                  Hadoop≠MapReduce




2. Hadoopは、複数のディストリビューションがある
 ① Apache(http://hadoop.apache.org/)
   →本家コミュニティ。
 ② Cloudera社(http://www.cloudera.com/)
   →エンタープライズ利用/簡単適用可能なパッケージを提
   供。
 ③ Yahoo!社(http://developer.yahoo.com/hadoop/)
   →Yahoo!自身で使用実績のある版。セキュリティなどを強
   化。
                                                     7
                   Advanced Tech Night
3. プロダクト構成 (1)ディストリビュー
ション
1. Cloudera社が提供するHadoopディストリビュー
   ション
   CDH=Cloudera's Distribution for Hadoop

                               Hue                          Hue SDK

                      Oozie                                     Hive
                                                    Pig/
                                                    Hive


       Flume, Sqoop                                           HBase

                                                           Zookeeper




                                                                       8
                              Advanced Tech Night
3. Hadoopプロダクト構成 (2)プロダクト一
覧
No.   プロダクト       概要                               Apache   Cloudera
      名
1     Common      Hadoopで共通利用するライブラリ、API              ○        ○
2     HDFS        分散ファイルシステム                          ○        ○
3     MapReduce   分散処理エンジン                            ○        ○
4     HBase       HDFS上で動作するKey-Value Store           ○        ○
5     Zookeeper   Hadoop処理のコーディネータ                    ○        ○
6     Hive        SQLライクにHDFS上のデータを取得・加工す             ○        ○
                  る
7     Pig 注目!     データ処理を簡単に記述するための言語I/F               ○        ○
8     Mahout      機械学習ライブラリ                           ○        -
9     Avro        高速シリアライズ処理/RPCインタフェース               ○        -
10    Chukwa      分散大量データ収集インフラ                       ○        -
11    Oozie       ワークフローエンジン/スケジューラ                  -         ○
12    Sqoop       RDBMSとHDFSのインポート/エクスポート            -         ○
13    Flume 注     分散大量データ収集インフラ                      -         ○
      目!
                                                                9
14    Hue         Hadoopクラスタの状況を表示するUIツール
                             Advanced Tech Night     -         ○
4. 基本プロダクト
No.   プロダクト       概要                               Apache   Cloudera
      名
1     Common      Hadoopで共通利用するライブラリ、API              ○        ○
2     HDFS        分散ファイルシステム                          ○        ○
3     MapReduce   分散処理エンジン                            ○        ○
4     HBase       HDFS上で動作するKey-Value Store           ○        ○
5     Zookeeper   Hadoop処理のコーディネータ                    ○        ○
6     Hive        SQLライクにHDFS上のデータを取得・加工す             ○        ○
                  る
7     Pig 注目!     データ処理を簡単に記述するための言語I/F               ○        ○
8     Mahout      機械学習ライブラリ                           ○        -
9     Avro        高速シリアライズ処理/RPCインタフェース               ○        -
10    Chukwa      分散大量データ収集インフラ                       ○        -
11    Oozie       ワークフローエンジン/スケジューラ                  -         ○
12    Sqoop       RDBMSとHDFSのインポート/エクスポート            -         ○
13    Flume 注     分散大量データ収集インフラ                      -         ○
      目!
                                                                10
14    Hue         Hadoopクラスタの状況を表示するUIツール
                             Advanced Tech Night     -         ○
4. 基本プロダクト (1)HDFS

1. HDFSは、Hadoopが用いる分散ファイルシ
   ステム
2. Master/Slave方式で実現されている
 ① Master:Namenode 全体で1プロセス
 ② Slave:Datanode 各ノードに1プロセスMaster

設定ファイルに記述してお
くだけで、自動的にData
replicationが実行される。                    Slave




                                         11
                Advanced Tech Night
4. 基本プロダクト (2)MapReduce

1. MapReduceは、大量のデータをキーなどの情報で分
   散し、多数のサーバで並列処理を行うフレームワー
   ク
2. サーバを増設することで、処理性能を向上させるこ
   とができる




                                   12
             Advanced Tech Night
4. 基本プロダクト (3)HBase

1. HDFS上に構築されたKey-Value Store
2. 自動でレプリカが作成されるため、ある
   ノードでデータが壊れても、別のノードの
   データで処理が可能。
3. TB~PBの大規模データの処理が可能。




                                  13
            Advanced Tech Night
4. 基本プロダクト (4)Hive

1. SQLライクにHDFS上のデータを操作するためのコン
   ポーネント。
2. コマンドラインからの対話形式による操作で、以下
   のことが可能。
     ① SQLと同様、CRUDが可能。
     ② Hive用テーブルを操作するだけでなく、HDFSのファイ
           ルや、HDFS管理外のローカルファイルにもデータの保
           存が可能。
     ※ HiveQLという言語でデータを操作する。
 http://www.atmarkit.co.jp/fdb/single/s_hive/hive_01.html




                                                        14
                        Advanced Tech Night
5. 応用プロダクト
No.   プロダクト       概要                               Apache   Cloudera
      名
1     Common      Hadoopで共通利用するライブラリ、API              ○        ○
2     HDFS        分散ファイルシステム                          ○        ○
3     MapReduce   分散処理エンジン                            ○        ○
4     HBase       HDFS上で動作するKey-Value Store           ○        ○
5     Zookeeper   Hadoop処理のコーディネータ                    ○        ○
6     Hive        SQLライクにHDFS上のデータを取得・加工す             ○        ○
                  る
7     Pig 注目!     データ処理を簡単に記述するための言語I/F               ○        ○
8     Mahout      機械学習ライブラリ                           ○        -
9     Avro        高速シリアライズ処理/RPCインタフェース               ○        -
10    Chukwa      分散大量データ収集インフラ                       ○        -
11    Oozie       ワークフローエンジン/スケジューラ                  -         ○
12    Sqoop       RDBMSとHDFSのインポート/エクスポート            -         ○
13    Flume 注     分散大量データ収集インフラ                      -         ○
      目!
                                                                15
14    Hue         Hadoopクラスタの状況を表示するUIツール
                             Advanced Tech Night     -         ○
5. 応用プロダクト (1)Pig

1. MapperやReducerを記述しなくとも大規模データを処理
   できるスクリプト言語。
2. Pigを実行すると、裏でMapReduceのジョブに変換される
   ので、MapReduceのジョブを実装せずに、簡単に分散処
   理を実行できる。


 データフローなど、
 複雑な処理を行う
 場合はPig、簡単な
 データ操作を行う
 場合はHiveを使用
 するとよい。

                                    16
              Advanced Tech Night
5. 応用プロダクト (1)Pig

1. サンプル(年間最高気温を求める)
  ① データファイル
         ファイル名:temperature.csv フォーマット:年 月 日 気温
 2000   1 1 5
 2000   1 2 6
 2000   8 1 30
 …
 2010   12 31 5



  ② スクリプト
 records = LOAD ‘temperature.csv’ AS (year:int, month:int, day:int, temperature:int);
 grouped_records = GROUP records by year;
 max_tempepature = FOREACH grouped_records GENERATE group, MAX(records.tempetature);
 DUMP max_temp;



                                                                                        17
                                    Advanced Tech Night
5. 応用プロダクト (2)Mahout

1. Hadoop上で動作する機械学習ライブラリ
  ① 実装している機械学習アルゴリズムの例
   • Taste CF(協調フィルタリング)
   • MapReduce に対応した、いくつかのクラスタリング実装
     (K平均法、ファジィK平均法、Canopy、ディリクレ、平均シ
     フトなど)
   • 分散型単純ベイズ分類器と補完型単純ベイズ分類器の実装
   • 進化的プログラミングのための分散型適応度関数機能
   • 行列ライブラリーとベクトル・ライブラリー
  ② 具体的な用途
   • リコメンドエンジン
   • スパムメール・フィルタリング
2. 機械学習のタスク実行にMapReduceを用いるこ
   とでスケーラビリティを確保している。


                                    18
              Advanced Tech Night
5. 応用プロダクト (3)Sqoop

1. RDB-HDFS間でデータのコピーを行うため
   のツール。
2. RDBからHDFSにデータをインポートし、
   Hiveを使って解析する、といった使い方が
   可能。




                                  19
            Advanced Tech Night
5. 応用プロダクト (4)Flume

1. 分散環境での大量データ収集のインフラ
 ① データマイニング等の分野において、agentか
   らデータをHDFSに収集する必要がある。
 ② Flumeは、信頼性・スケーラビリティの高い
   データ収集インフラを提供する。




                                  20
            Advanced Tech Night
6. 組合せてできること

 大量データ収集と解析
 1. センサーネットワークから大量のデータを収集する。
 2. 収集したデータの解析を行う。
 → Flume – HDFS – Pig を組合せることで、実現でき
    る
 適用例
 1. センサーネット
    ワークからの
    データ収集・解
    析
 2. 大規模システム
    のログ収集・解
    析

                                    21
              Advanced Tech Night
8. 最後に

改めて、、、
    Hadoop群
        >
     MapReduce
                               22
         Advanced Tech Night
8. 最後に




  Enjoy Your Hadoop Life!
ご静聴ありがとうございまし
      た。


                                 23
           Advanced Tech Night

More Related Content

What's hot

ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
Satoshi Noto
 

What's hot (20)

Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
 
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
 
HDFS vs. MapR Filesystem
HDFS vs. MapR FilesystemHDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
SASとHadoopとの連携
SASとHadoopとの連携SASとHadoopとの連携
SASとHadoopとの連携
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
 
Apache Hadoopを改めて知る
Apache Hadoopを改めて知るApache Hadoopを改めて知る
Apache Hadoopを改めて知る
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門  #oreilly0724オライリーセミナー Hive入門  #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
 

Similar to ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち

Hadoopとその周辺の紹介
Hadoopとその周辺の紹介Hadoopとその周辺の紹介
Hadoopとその周辺の紹介
Shinya Okano
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
bigt23
 
Hadoopのインストール
HadoopのインストールHadoopのインストール
Hadoopのインストール
Noritada Shimizu
 

Similar to ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち (20)

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
 
Hadoopとその周辺の紹介
Hadoopとその周辺の紹介Hadoopとその周辺の紹介
Hadoopとその周辺の紹介
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
 
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring HadoopOSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
 
Hadoopのインストール
HadoopのインストールHadoopのインストール
Hadoopのインストール
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきたJavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 

More from AdvancedTechNight

CSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3DCSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3D
AdvancedTechNight
 
D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界
AdvancedTechNight
 
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
AdvancedTechNight
 
CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現
AdvancedTechNight
 
Stormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPIStormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPI
AdvancedTechNight
 
ななめ45°から見たJavaOne
ななめ45°から見たJavaOneななめ45°から見たJavaOne
ななめ45°から見たJavaOne
AdvancedTechNight
 
ATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMR
AdvancedTechNight
 
ATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlersATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlers
AdvancedTechNight
 

More from AdvancedTechNight (20)

CSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3DCSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3D
 
D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界
 
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
 
CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現
 
これから利用拡大?WebSocket
これから利用拡大?WebSocketこれから利用拡大?WebSocket
これから利用拡大?WebSocket
 
全部入り!WGPで高速JavaScript+HML5体験
全部入り!WGPで高速JavaScript+HML5体験全部入り!WGPで高速JavaScript+HML5体験
全部入り!WGPで高速JavaScript+HML5体験
 
Backbone.js入門
Backbone.js入門Backbone.js入門
Backbone.js入門
 
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
TypeScriptのススメ ~JavaエンジニアのためのJava(like)ScriptTypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
 
three.jsで作る3Dの世界
three.jsで作る3Dの世界three.jsで作る3Dの世界
three.jsで作る3Dの世界
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
 
Stormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPIStormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPI
 
Spine入門
Spine入門Spine入門
Spine入門
 
分散ストリーム処理フレームワーク Apache S4
分散ストリーム処理フレームワーク Apache S4分散ストリーム処理フレームワーク Apache S4
分散ストリーム処理フレームワーク Apache S4
 
Twitterのリアルタイム分散処理システム「Storm」入門 demo
Twitterのリアルタイム分散処理システム「Storm」入門 demoTwitterのリアルタイム分散処理システム「Storm」入門 demo
Twitterのリアルタイム分散処理システム「Storm」入門 demo
 
Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門
 
ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」
 
ななめ45°から見たJavaOne
ななめ45°から見たJavaOneななめ45°から見たJavaOne
ななめ45°から見たJavaOne
 
ATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMRATN No.1 Hadoop vs Amazon EMR
ATN No.1 Hadoop vs Amazon EMR
 
ATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlersATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlers
 
ATN No.2 Scala事始め
ATN No.2 Scala事始めATN No.2 Scala事始め
ATN No.2 Scala事始め
 

Recently uploaded

Recently uploaded (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち

  • 1. Advanced Tech Night No.01 MapReduceだけでない!? Hadoopとその仲間たち 2011/04/22 Acroquest Technology 株式会社 束野 仁政
  • 2. 自己紹介  束野 仁政(つかの さとゆき) @snuffkin  Acroquest Technology 株式会社 ネットワークマネージメントソリューショング ループ エンジニアリングデザイナー  仕事内容 1. Network Management Systemの開発が中心 2. 何でもネットワークにつながり、大量データ処理を求め られる時代。そこで、眼を付けているのがHadoop  趣味 スポーツ観戦(生観戦の臨場感が好き)  特徴 声が高い。飲むと、ますます高くなる。 1 Advanced Tech Night
  • 3. まずは、質問 Q. 「Hadoop」って単語を聞いたことある 人? Q. Hadoopをインストールしたことがある 人? Q. HDFS、MapReduce、HBase以外の Hadoopプロダクトを知っている人? 2 Advanced Tech Night
  • 4. 伝えたいこと いわゆる Hadoop ≒ MapReduce Hadoop群 > MapReduce 3 Advanced Tech Night
  • 5. 目次 1. 動機 5. 応用プロダクト 2. Hadoop概要のおさら 1. Pig い 2. Mahout 3. プロダクト構成 3. Sqoop 1. ディストリビューショ 4. Flume ン 6. 組合せてできること 2. プロダクト一覧 4. 基本プロダクト 7. 最後に 1. HDFS 2. MapReduce 3. HBase 4. Hive 4 Advanced Tech Night
  • 6. 1. 動機 1. Hadoopが紹介された当初は 「Hadoop = MapReduce(+HDFS,HBase)」 という感じだった。 2. 大御所Clouderaを始め、Hadoopは周辺プロダ クトが数多く開発されており、これらプロダク トを使った成果が次々と出ている。 3. ここでは、 「Hadoopには、どんなプロダクトがあるか」 「組合せることで、どんなことができるのか」 を紹介する。 5 Advanced Tech Night
  • 7. 2. Hadoop概要のおさらい  大量データの並列分散処理基盤  安価なハードウェアを多数並列処理させる ことでスケーラビリティを実現する。 6 Advanced Tech Night
  • 8. 3. プロダクト構成 (1)ディストリビュー ション 1. Hadoopは、複数のプロダクトで構成されている Hadoop≠MapReduce 2. Hadoopは、複数のディストリビューションがある ① Apache(http://hadoop.apache.org/) →本家コミュニティ。 ② Cloudera社(http://www.cloudera.com/) →エンタープライズ利用/簡単適用可能なパッケージを提 供。 ③ Yahoo!社(http://developer.yahoo.com/hadoop/) →Yahoo!自身で使用実績のある版。セキュリティなどを強 化。 7 Advanced Tech Night
  • 9. 3. プロダクト構成 (1)ディストリビュー ション 1. Cloudera社が提供するHadoopディストリビュー ション CDH=Cloudera's Distribution for Hadoop Hue Hue SDK Oozie Hive Pig/ Hive Flume, Sqoop HBase Zookeeper 8 Advanced Tech Night
  • 10. 3. Hadoopプロダクト構成 (2)プロダクト一 覧 No. プロダクト 概要 Apache Cloudera 名 1 Common Hadoopで共通利用するライブラリ、API ○ ○ 2 HDFS 分散ファイルシステム ○ ○ 3 MapReduce 分散処理エンジン ○ ○ 4 HBase HDFS上で動作するKey-Value Store ○ ○ 5 Zookeeper Hadoop処理のコーディネータ ○ ○ 6 Hive SQLライクにHDFS上のデータを取得・加工す ○ ○ る 7 Pig 注目! データ処理を簡単に記述するための言語I/F ○ ○ 8 Mahout 機械学習ライブラリ ○ - 9 Avro 高速シリアライズ処理/RPCインタフェース ○ - 10 Chukwa 分散大量データ収集インフラ ○ - 11 Oozie ワークフローエンジン/スケジューラ - ○ 12 Sqoop RDBMSとHDFSのインポート/エクスポート - ○ 13 Flume 注 分散大量データ収集インフラ - ○ 目! 9 14 Hue Hadoopクラスタの状況を表示するUIツール Advanced Tech Night - ○
  • 11. 4. 基本プロダクト No. プロダクト 概要 Apache Cloudera 名 1 Common Hadoopで共通利用するライブラリ、API ○ ○ 2 HDFS 分散ファイルシステム ○ ○ 3 MapReduce 分散処理エンジン ○ ○ 4 HBase HDFS上で動作するKey-Value Store ○ ○ 5 Zookeeper Hadoop処理のコーディネータ ○ ○ 6 Hive SQLライクにHDFS上のデータを取得・加工す ○ ○ る 7 Pig 注目! データ処理を簡単に記述するための言語I/F ○ ○ 8 Mahout 機械学習ライブラリ ○ - 9 Avro 高速シリアライズ処理/RPCインタフェース ○ - 10 Chukwa 分散大量データ収集インフラ ○ - 11 Oozie ワークフローエンジン/スケジューラ - ○ 12 Sqoop RDBMSとHDFSのインポート/エクスポート - ○ 13 Flume 注 分散大量データ収集インフラ - ○ 目! 10 14 Hue Hadoopクラスタの状況を表示するUIツール Advanced Tech Night - ○
  • 12. 4. 基本プロダクト (1)HDFS 1. HDFSは、Hadoopが用いる分散ファイルシ ステム 2. Master/Slave方式で実現されている ① Master:Namenode 全体で1プロセス ② Slave:Datanode 各ノードに1プロセスMaster 設定ファイルに記述してお くだけで、自動的にData replicationが実行される。 Slave 11 Advanced Tech Night
  • 13. 4. 基本プロダクト (2)MapReduce 1. MapReduceは、大量のデータをキーなどの情報で分 散し、多数のサーバで並列処理を行うフレームワー ク 2. サーバを増設することで、処理性能を向上させるこ とができる 12 Advanced Tech Night
  • 14. 4. 基本プロダクト (3)HBase 1. HDFS上に構築されたKey-Value Store 2. 自動でレプリカが作成されるため、ある ノードでデータが壊れても、別のノードの データで処理が可能。 3. TB~PBの大規模データの処理が可能。 13 Advanced Tech Night
  • 15. 4. 基本プロダクト (4)Hive 1. SQLライクにHDFS上のデータを操作するためのコン ポーネント。 2. コマンドラインからの対話形式による操作で、以下 のことが可能。 ① SQLと同様、CRUDが可能。 ② Hive用テーブルを操作するだけでなく、HDFSのファイ ルや、HDFS管理外のローカルファイルにもデータの保 存が可能。 ※ HiveQLという言語でデータを操作する。 http://www.atmarkit.co.jp/fdb/single/s_hive/hive_01.html 14 Advanced Tech Night
  • 16. 5. 応用プロダクト No. プロダクト 概要 Apache Cloudera 名 1 Common Hadoopで共通利用するライブラリ、API ○ ○ 2 HDFS 分散ファイルシステム ○ ○ 3 MapReduce 分散処理エンジン ○ ○ 4 HBase HDFS上で動作するKey-Value Store ○ ○ 5 Zookeeper Hadoop処理のコーディネータ ○ ○ 6 Hive SQLライクにHDFS上のデータを取得・加工す ○ ○ る 7 Pig 注目! データ処理を簡単に記述するための言語I/F ○ ○ 8 Mahout 機械学習ライブラリ ○ - 9 Avro 高速シリアライズ処理/RPCインタフェース ○ - 10 Chukwa 分散大量データ収集インフラ ○ - 11 Oozie ワークフローエンジン/スケジューラ - ○ 12 Sqoop RDBMSとHDFSのインポート/エクスポート - ○ 13 Flume 注 分散大量データ収集インフラ - ○ 目! 15 14 Hue Hadoopクラスタの状況を表示するUIツール Advanced Tech Night - ○
  • 17. 5. 応用プロダクト (1)Pig 1. MapperやReducerを記述しなくとも大規模データを処理 できるスクリプト言語。 2. Pigを実行すると、裏でMapReduceのジョブに変換される ので、MapReduceのジョブを実装せずに、簡単に分散処 理を実行できる。 データフローなど、 複雑な処理を行う 場合はPig、簡単な データ操作を行う 場合はHiveを使用 するとよい。 16 Advanced Tech Night
  • 18. 5. 応用プロダクト (1)Pig 1. サンプル(年間最高気温を求める) ① データファイル ファイル名:temperature.csv フォーマット:年 月 日 気温 2000 1 1 5 2000 1 2 6 2000 8 1 30 … 2010 12 31 5 ② スクリプト records = LOAD ‘temperature.csv’ AS (year:int, month:int, day:int, temperature:int); grouped_records = GROUP records by year; max_tempepature = FOREACH grouped_records GENERATE group, MAX(records.tempetature); DUMP max_temp; 17 Advanced Tech Night
  • 19. 5. 応用プロダクト (2)Mahout 1. Hadoop上で動作する機械学習ライブラリ ① 実装している機械学習アルゴリズムの例 • Taste CF(協調フィルタリング) • MapReduce に対応した、いくつかのクラスタリング実装 (K平均法、ファジィK平均法、Canopy、ディリクレ、平均シ フトなど) • 分散型単純ベイズ分類器と補完型単純ベイズ分類器の実装 • 進化的プログラミングのための分散型適応度関数機能 • 行列ライブラリーとベクトル・ライブラリー ② 具体的な用途 • リコメンドエンジン • スパムメール・フィルタリング 2. 機械学習のタスク実行にMapReduceを用いるこ とでスケーラビリティを確保している。 18 Advanced Tech Night
  • 20. 5. 応用プロダクト (3)Sqoop 1. RDB-HDFS間でデータのコピーを行うため のツール。 2. RDBからHDFSにデータをインポートし、 Hiveを使って解析する、といった使い方が 可能。 19 Advanced Tech Night
  • 21. 5. 応用プロダクト (4)Flume 1. 分散環境での大量データ収集のインフラ ① データマイニング等の分野において、agentか らデータをHDFSに収集する必要がある。 ② Flumeは、信頼性・スケーラビリティの高い データ収集インフラを提供する。 20 Advanced Tech Night
  • 22. 6. 組合せてできること  大量データ収集と解析 1. センサーネットワークから大量のデータを収集する。 2. 収集したデータの解析を行う。 → Flume – HDFS – Pig を組合せることで、実現でき る  適用例 1. センサーネット ワークからの データ収集・解 析 2. 大規模システム のログ収集・解 析 21 Advanced Tech Night
  • 23. 8. 最後に 改めて、、、 Hadoop群 > MapReduce 22 Advanced Tech Night
  • 24. 8. 最後に Enjoy Your Hadoop Life! ご静聴ありがとうございまし た。 23 Advanced Tech Night