SlideShare a Scribd company logo
1 of 19
第2回 NHNテクノロジーカンファレンス
    (2012年8月18日)




                                        日々進化するHadoopの 「いま」
                                        株式会社NTTデータ / 日本Hadoopユーザー会
                                        濱野 賢一朗



Copyright © 2012 NTT DATA Corporation
自己紹介
 濱野 賢一朗 (はまの けんいちろう) @hamaken
  株式会社NTTデータ 基盤システム事業本部 シニアエキスパート
            • 『BizXaaS Hadoop構築・運用ソリューション』
              『CDH Hadoopサポートサービス』 の中の人

  日本Hadoopユーザー会
  翔泳社 『Hadoop徹底入門』 監修者

  話題になった経産省のHadoop報告書のPM
            • 経済産業省 『分散制御処理技術等に係る
              データセンター高信頼化に向けた実証事業』
            • http://www.meti.go.jp/policy/mono_info_service/joho/
              downloadfiles/2010software_research/clou_dist_software.pdf


 Copyright © 2012 NTT DATA Corporation                                     2
おさらい: Hadoopとは
 オープンソースの並列分散処理ミドルウェア
  GoogleのGFS/MapReduceのオープンソース版クローン
  Apache Software Foundation のプロジェクトとして開発
  Javaで実装

 大きく2つのコンポーネントで構成される
  分散ファイルシステム: HDFS (Hadoop Distributed File System)
  大規模分散処理フレームワーク: Hadoop MapReduce Framework

 基本的なアイデア
  複数のIAサーバ・HDDに大容量データを分散して配置
  データを並列に読み込むことでスループットを向上
  データのローカリティを活かした分散処理
  分散処理固有の問題はMapReduceフレームワークで解決
 Copyright © 2012 NTT DATA Corporation                 3
おさらい: Hadoopクラスタの全体像

 集中管理型の分散システム                                                                 Hadoopマスタサーバ
  – 分散処理ジョブやデータの管理は
    マスタサーバで実施
  – スレーブサーバは、分散処理の                                                          NameNode         JobTracker
    実行やデータの実体を保存   Hadoopクライアント

・HDFS                                                                                       L2/L3スイッチ
  – マスター: NameNode
  – スレーブ: DataNode                                       Hadoopスレーブサーバ群
・MapReduce
                                                                                              L2スイッチ
  – マスター: JobTracker
  – スレーブ: TaskTracker


                                           DataNode        DataNode      DataNode      DataNode           DataNode
                                           TaskTracker     TaskTracker   TaskTracker   TaskTracker        TaskTracker
                                            ディスク            ディスク          ディスク          ディスク              ディスク

   Copyright © 2012 NTT DATA Corporation                                                                                4
おさらい:よくある誤解

× 高速なRDBMS
○ 大量データに特化したバッチ処理システム
       - オンライン処理には不向き (スループット優先)
       - 少量データには不向き


× 検索エンジン
○ 検索インデックス作成にも利用される
       - 低レイテンシが要求される処理の前処理など


 Copyright © 2012 NTT DATA Corporation   5
おさらい: データ保持アプローチの違い

RDB                                       Hadoop
 データを「管理」するという                            データの「管理」は行わない。
 観点からデータの重複を                              処理が高いスループットを生み出す
 避けるために正規化する。                             よう、非正規化する。




                                              ・
                                              ・
                                              ・
     正規化されたデータセット                             いくつかのデータセットを結合し、非正
                                                  規化したデータセット

 一度に走査する範囲を小さくする                          一度に走査する範囲を大きくする
 重複保持を排除する                                論理的走査範囲を単純物理分割、並列処理する
                                           重複保持していても気にしない
  Copyright © 2012 NTT DATA Corporation                            6
おさらい: HDFS
                                                                      ブロックの
                                         DataNode                       保存
       ブロック
                                         状態監視
           管理                                       Heartbeat             ① ① ③ ②

 メタ情報
  管理                                                                      ② ① ②


                             NameNode
                                                                          ③ ① ②       ①
                                    (Master)


                                           3   1    2                     ② ① ③ ①


                                                                          ①       ①   ②
ファイル
                                                          DataNode   (Slave)
                     クライアント
                                                    1つのブロックを複数のDataNodeで保存
 Copyright © 2012 NTT DATA Corporation
                                                    → 任意のDataNodeが故障してもデータを失わない           7
おさらい: MapReduce (アルゴリズム)

          スコア
          一覧
                                                        Shuffle: 同じKeyでデータを集約
                                              <A, 10>
                                                           <A, {10,25} >
                                              <B, 20>
                                                           <C, {10,5,15} >   何らかの処理
                                        Map   <C, 15>
                                                                   Reduc     <A, 35 >
                                              <D, 5>                 e       <C, 30 >
                                        Map   <A, 25>
                                              <C, 10>
                                              <D, 10>
                                                                   Reduc     <B, 30 >
                                              <B, 10>                e       <D, 15 >
                                        Map
                                              <C, 5>
                                                            <B, {20,10} >
                                                            <D, {5,10} >
     スコアの抽出                                       ・<Key, Value>の形でデータを管理
                                                  ・MapやReduceを分散処理させる
Copyright © 2012 NTT DATA Corporation                                                   8
おさらい: Hadoop MapReduce (フレームワーク)

                   MapReduce                 TaskTracker                          Map   Map   Reduce
                   ジョブ管理                      状態監視
  タスク
                                                                                  ① ① ③ ②
  管理
                                                    Heartbeat
                                                                       データのローカリティを意識した
JobTracker                                                             タスクの実行
 (MASTER)

                                                                              R    M     M    M
                   MapReduce
                     ジョブ
                                                                            同じ処理の投機的実行

                                                                            M       R    R
                      クライアント
                                                                                        タスク実行待ち
                                           Map,Reduce
                                                                TaskTracker
                                                                  (SLAVE)               タスク実行中
                                           タスクの実行
                                                                                        タスク実行(競争)中
   Copyright © 2012 NTT DATA Corporation                                                               9
Hadoopのエコシステム
 急速に発展するエコシステムがHadoopの魅力のひとつ




                    Pig                    Hive      Mahout    HBase
                                         MapReduce            ZooKeeper
                                                     HDFS

 Hadoopディストリビューションも成長中
  CDH (Cloudera’s Distribution including Apache Hadoop)
  HDP (Hortonworks Data Platform) など・・・
 Copyright © 2012 NTT DATA Corporation                                    10
主要なHadoopエコシステム

 Apache Pig
   シンプルなデータフローの記述によりデータ処理を定義
 Apache Hive
   SQLライクな記法により処理内容を定義
 Asakusa Framework
   日本ノーチラス・テクノロジーズが主導
   DSLにより処理内容を定義、業務バッチ処理への適用を指向

 Apache HBase
   HDFS上で動作するカラム指向型データベース
   「行キー」 「列ファミリ」 「値」 「タイムスタンプ」 でデータ管理
   行キーに対して 低レイテンシーな読み書きを実現

  Copyright © 2012 NTT DATA Corporation   11
主要なHadoopエコシステム

 Apache ZooKeeper
   分散ロックなど分散協調コーディネーションを実現

 Apache Sqoop
   RDBMSとHadoopを連携させるコネクタ
   効率的なデータのインポート/エクスポートを実現

 Apache Flume
   ネットワーク上に分散するログを収集できるログコレクタ
 Fluentd
   Treasure Data社が主導するログコレクタ



  Copyright © 2012 NTT DATA Corporation   12
Hadoopの動向
 Hadoopの開発は活発に進んでいるが・・・
 Hadoopのバージョンは、やや複雑な状況 (涙)
                                         Hadoop1.0系

                                         従来0.20.2xxと
                                         呼ばれていたもの



                                          新機能開発版
                                          • NameNode HA
                                          • Federation
                                          • MapReduce 2.0
                                          などなど...
  Hadoop2.0系
 Copyright © 2012 NTT DATA Corporation                      13
NameNode HA
 Hadoop単体ではSPOFと言われてきたNameNodeのHA化
   従来でも DRBD+ Pacemaker などをHadoopと連携して対応
 NameNodeのActive-Standby構成
   CDH 4.0.0 では、暫定的にNFSをベースとした構成が採用
   レポート: http://www.slideshare.net/hadoopxnttdata/cdh400namenode-ha
   今後、NFS/共有ディスクを利用しない実装 BookKeeper が登場

                                                                  ZooKeeper         quorum         NameNode(Act, Sby)
                                                                                                       状態の管理
                                                      ZooKeeper                 ZooKeeper


                                監視          ZKFC                                                 ZKFC

                             Active        NameNode                                          NameNode
                                                             チェックポイント通信                                   Standby

                                                                    NFS
・NameNodeプロセスの監視                                                  共有ディスク
・フェンシング実行                                                                edits共有
                                                DataNode    DataNode                  DataNode
・Act, Sbyへの状態遷を実行
                                                                              ・・・
   Copyright © 2012 NTT DATA Corporation                                                                                14
HDFS Federation

 NameNodeのメタ情報を分割して保持
  NameNodeメタ情報を分割保持、異なるNameNodeメタ情報も保持
 ひとつのクラスタで複数のNameSpaceを管理可能




                                         DataNodeでは
                                            異なる
                                          NameNode
                                            環境の
                                          データを保持


 Copyright © 2012 NTT DATA Corporation                15
YARN (MapReduce 2.0)
 YARN = Yet Another/Application Resource Negociator
 従来の JobTracker/TaskTracker の構成をリファクタリング
 MapReduce以外の分散処理フレームワークもサポート
  Resource Manager                          Node Manager
 MR基盤のリソース管理                                処理ノードの管理


                                           Application Master
                                          アプリケーション実行元

                                              Container
                                              処理を実行


                                          • リソース管理とAP管理を
                                            分離
                                          • 処理スロット制を廃止
  Copyright © 2012 NTT DATA Corporation                         16
Hadoopの 「いま」

 新バージョンが次々とリリースされています

 少しずつアーキテクチャーの見直しが進められています
  HDFS Federation、YARN など

 Hadoopエコシステムは成長を続けています
  各ソフトウェアの機能拡張やバージョンアップ
  Apache HCatalog : Pig/Hive等のメタ情報共通化
  Apache Ambari : Hadoop環境の構築・運用基盤

 Hadoopを契機にいくつかの技術が浸透中
  並列分散処理が身近になってきている
  機械学習などの比較的高度な分析手法
  比較的ルーズなオペレーションによる運用スケーラビリティの追求
 Copyright © 2012 NTT DATA Corporation   17
日本Hadoopユーザー会
 Webサイト http://hugjp.org/
 メーリングリスト https://groups.google.com/group/hadoop-jp?hl=ja
 イベント 『Hadoop Conference Japan』
     第1回 2009年11月13日@TEPIA 先端技術館 (331名)
     第2回 2011年2月22日@NTTデータ 本社ビル (348名)
     第3回 2011年9月26日@ベルサール汐留 (1178名)
 今年度もやります
     詳細は近日公開!




  Copyright © 2012 NTT DATA Corporation                      18
Copyright © 2011 NTT DATA Corporation




Copyright © 2012 NTT DATA Corporation

More Related Content

What's hot

40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)NTT DATA OSS Professional Services
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向 Masanori Itoh
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)オラクルエンジニア通信
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandradatastaxjp
 

What's hot (20)

40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 
Hadoop入門
Hadoop入門Hadoop入門
Hadoop入門
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Yahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用についてYahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用について
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 

Viewers also liked

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~Masahito Zembutsu
 
HDFSネームノードのHAについて #hcj13w
HDFSネームノードのHAについて #hcj13wHDFSネームノードのHAについて #hcj13w
HDFSネームノードのHAについて #hcj13wCloudera Japan
 
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCloudera Japan
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料Monta Yashi
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)Akira Shimosako
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Cloudera Japan
 
いまさら聞けないOpen stack
いまさら聞けないOpen stackいまさら聞けないOpen stack
いまさら聞けないOpen stackHayato Otsuka
 
実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~
実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~
実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~Rakuten Group, Inc.
 
20151128_SMeNG_態度は変えられるのか
20151128_SMeNG_態度は変えられるのか20151128_SMeNG_態度は変えられるのか
20151128_SMeNG_態度は変えられるのかTakanori Hiroe
 
20150321 医学:医療者教育研究ネットワーク@九州大学
20150321 医学:医療者教育研究ネットワーク@九州大学20150321 医学:医療者教育研究ネットワーク@九州大学
20150321 医学:医療者教育研究ネットワーク@九州大学Takanori Hiroe
 
HBase New Features
HBase New FeaturesHBase New Features
HBase New Featuresrxu
 

Viewers also liked (17)

分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
 
HDFSネームノードのHAについて #hcj13w
HDFSネームノードのHAについて #hcj13wHDFSネームノードのHAについて #hcj13w
HDFSネームノードのHAについて #hcj13w
 
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
Hadoop Conference Japan 2009 - NTT Data
Hadoop Conference Japan 2009 - NTT DataHadoop Conference Japan 2009 - NTT Data
Hadoop Conference Japan 2009 - NTT Data
 
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
 
いまさら聞けないOpen stack
いまさら聞けないOpen stackいまさら聞けないOpen stack
いまさら聞けないOpen stack
 
実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~
実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~
実用段階に入ったOpenStack ~ もうすぐ絶滅するというPrivate Cloudの多様性について ~
 
20151128_SMeNG_態度は変えられるのか
20151128_SMeNG_態度は変えられるのか20151128_SMeNG_態度は変えられるのか
20151128_SMeNG_態度は変えられるのか
 
20150321 医学:医療者教育研究ネットワーク@九州大学
20150321 医学:医療者教育研究ネットワーク@九州大学20150321 医学:医療者教育研究ネットワーク@九州大学
20150321 医学:医療者教育研究ネットワーク@九州大学
 
JSME_47th_Nigata
JSME_47th_NigataJSME_47th_Nigata
JSME_47th_Nigata
 
20150827_simplesize
20150827_simplesize20150827_simplesize
20150827_simplesize
 
HBase New Features
HBase New FeaturesHBase New Features
HBase New Features
 

Similar to 日々進化するHadoopの 「いま」

OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門Shinichi YAMASHITA
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門Shinichi YAMASHITA
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)NTT DATA OSS Professional Services
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Seiichiro Ishida
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
NOSQLの基礎知識(講義資料)
NOSQLの基礎知識(講義資料)NOSQLの基礎知識(講義資料)
NOSQLの基礎知識(講義資料)CLOUDIAN KK
 
Bigdata 2012 06-03
Bigdata 2012 06-03Bigdata 2012 06-03
Bigdata 2012 06-03Daisuke Ito
 
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...Insight Technology, Inc.
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase ReportSeiichiro Ishida
 
【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~
【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~
【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~IBM Analytics Japan
 

Similar to 日々進化するHadoopの 「いま」 (20)

OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門OSC2011 Tokyo/Spring Hadoop入門
OSC2011 Tokyo/Spring Hadoop入門
 
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB HadoopOSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
 
Hadoop - OSC2010 Tokyo/Spring
Hadoop - OSC2010 Tokyo/SpringHadoop - OSC2010 Tokyo/Spring
Hadoop - OSC2010 Tokyo/Spring
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
Hadoop上の多種多様な処理でPigの活きる道 (Hadoop Conferecne Japan 2013 Winter)
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Strata conference 2012
Strata conference 2012Strata conference 2012
Strata conference 2012
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
NOSQLの基礎知識(講義資料)
NOSQLの基礎知識(講義資料)NOSQLの基礎知識(講義資料)
NOSQLの基礎知識(講義資料)
 
Bigdata 2012 06-03
Bigdata 2012 06-03Bigdata 2012 06-03
Bigdata 2012 06-03
 
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
A12 既存のデータベース環境で分析業務を加速させるには? DB2が実現するソフトウエア分析ソリューション(DB2 BLU Acceleration)の仕...
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase Report
 
【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~
【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~
【株式会社ラック様】ハイブリッド・クラウド時代の データベース活用 ~事例・スタートアップ・メニューご紹介~
 

More from NTT DATA OSS Professional Services

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのことNTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~NTT DATA OSS Professional Services
 

More from NTT DATA OSS Professional Services (20)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (9)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

日々進化するHadoopの 「いま」

  • 1. 第2回 NHNテクノロジーカンファレンス (2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ / 日本Hadoopユーザー会 濱野 賢一朗 Copyright © 2012 NTT DATA Corporation
  • 2. 自己紹介  濱野 賢一朗 (はまの けんいちろう) @hamaken  株式会社NTTデータ 基盤システム事業本部 シニアエキスパート • 『BizXaaS Hadoop構築・運用ソリューション』 『CDH Hadoopサポートサービス』 の中の人  日本Hadoopユーザー会  翔泳社 『Hadoop徹底入門』 監修者  話題になった経産省のHadoop報告書のPM • 経済産業省 『分散制御処理技術等に係る データセンター高信頼化に向けた実証事業』 • http://www.meti.go.jp/policy/mono_info_service/joho/ downloadfiles/2010software_research/clou_dist_software.pdf Copyright © 2012 NTT DATA Corporation 2
  • 3. おさらい: Hadoopとは  オープンソースの並列分散処理ミドルウェア  GoogleのGFS/MapReduceのオープンソース版クローン  Apache Software Foundation のプロジェクトとして開発  Javaで実装  大きく2つのコンポーネントで構成される  分散ファイルシステム: HDFS (Hadoop Distributed File System)  大規模分散処理フレームワーク: Hadoop MapReduce Framework  基本的なアイデア  複数のIAサーバ・HDDに大容量データを分散して配置  データを並列に読み込むことでスループットを向上  データのローカリティを活かした分散処理  分散処理固有の問題はMapReduceフレームワークで解決 Copyright © 2012 NTT DATA Corporation 3
  • 4. おさらい: Hadoopクラスタの全体像  集中管理型の分散システム Hadoopマスタサーバ – 分散処理ジョブやデータの管理は マスタサーバで実施 – スレーブサーバは、分散処理の NameNode JobTracker 実行やデータの実体を保存 Hadoopクライアント ・HDFS L2/L3スイッチ – マスター: NameNode – スレーブ: DataNode Hadoopスレーブサーバ群 ・MapReduce L2スイッチ – マスター: JobTracker – スレーブ: TaskTracker DataNode DataNode DataNode DataNode DataNode TaskTracker TaskTracker TaskTracker TaskTracker TaskTracker ディスク ディスク ディスク ディスク ディスク Copyright © 2012 NTT DATA Corporation 4
  • 5. おさらい:よくある誤解 × 高速なRDBMS ○ 大量データに特化したバッチ処理システム - オンライン処理には不向き (スループット優先) - 少量データには不向き × 検索エンジン ○ 検索インデックス作成にも利用される - 低レイテンシが要求される処理の前処理など Copyright © 2012 NTT DATA Corporation 5
  • 6. おさらい: データ保持アプローチの違い RDB Hadoop データを「管理」するという データの「管理」は行わない。 観点からデータの重複を 処理が高いスループットを生み出す 避けるために正規化する。 よう、非正規化する。 ・ ・ ・ 正規化されたデータセット いくつかのデータセットを結合し、非正 規化したデータセット  一度に走査する範囲を小さくする  一度に走査する範囲を大きくする  重複保持を排除する 論理的走査範囲を単純物理分割、並列処理する  重複保持していても気にしない Copyright © 2012 NTT DATA Corporation 6
  • 7. おさらい: HDFS ブロックの DataNode 保存 ブロック 状態監視 管理 Heartbeat ① ① ③ ② メタ情報 管理 ② ① ② NameNode ③ ① ② ① (Master) 3 1 2 ② ① ③ ① ① ① ② ファイル DataNode (Slave) クライアント 1つのブロックを複数のDataNodeで保存 Copyright © 2012 NTT DATA Corporation → 任意のDataNodeが故障してもデータを失わない 7
  • 8. おさらい: MapReduce (アルゴリズム) スコア 一覧 Shuffle: 同じKeyでデータを集約 <A, 10> <A, {10,25} > <B, 20> <C, {10,5,15} > 何らかの処理 Map <C, 15> Reduc <A, 35 > <D, 5> e <C, 30 > Map <A, 25> <C, 10> <D, 10> Reduc <B, 30 > <B, 10> e <D, 15 > Map <C, 5> <B, {20,10} > <D, {5,10} > スコアの抽出 ・<Key, Value>の形でデータを管理 ・MapやReduceを分散処理させる Copyright © 2012 NTT DATA Corporation 8
  • 9. おさらい: Hadoop MapReduce (フレームワーク) MapReduce TaskTracker Map Map Reduce ジョブ管理 状態監視 タスク ① ① ③ ② 管理 Heartbeat データのローカリティを意識した JobTracker タスクの実行 (MASTER) R M M M MapReduce ジョブ 同じ処理の投機的実行 M R R クライアント タスク実行待ち Map,Reduce TaskTracker (SLAVE) タスク実行中 タスクの実行 タスク実行(競争)中 Copyright © 2012 NTT DATA Corporation 9
  • 10. Hadoopのエコシステム  急速に発展するエコシステムがHadoopの魅力のひとつ Pig Hive Mahout HBase MapReduce ZooKeeper HDFS  Hadoopディストリビューションも成長中  CDH (Cloudera’s Distribution including Apache Hadoop)  HDP (Hortonworks Data Platform) など・・・ Copyright © 2012 NTT DATA Corporation 10
  • 11. 主要なHadoopエコシステム  Apache Pig  シンプルなデータフローの記述によりデータ処理を定義  Apache Hive  SQLライクな記法により処理内容を定義  Asakusa Framework  日本ノーチラス・テクノロジーズが主導  DSLにより処理内容を定義、業務バッチ処理への適用を指向  Apache HBase  HDFS上で動作するカラム指向型データベース  「行キー」 「列ファミリ」 「値」 「タイムスタンプ」 でデータ管理  行キーに対して 低レイテンシーな読み書きを実現 Copyright © 2012 NTT DATA Corporation 11
  • 12. 主要なHadoopエコシステム  Apache ZooKeeper  分散ロックなど分散協調コーディネーションを実現  Apache Sqoop  RDBMSとHadoopを連携させるコネクタ  効率的なデータのインポート/エクスポートを実現  Apache Flume  ネットワーク上に分散するログを収集できるログコレクタ  Fluentd  Treasure Data社が主導するログコレクタ Copyright © 2012 NTT DATA Corporation 12
  • 13. Hadoopの動向  Hadoopの開発は活発に進んでいるが・・・  Hadoopのバージョンは、やや複雑な状況 (涙) Hadoop1.0系 従来0.20.2xxと 呼ばれていたもの 新機能開発版 • NameNode HA • Federation • MapReduce 2.0 などなど... Hadoop2.0系 Copyright © 2012 NTT DATA Corporation 13
  • 14. NameNode HA  Hadoop単体ではSPOFと言われてきたNameNodeのHA化  従来でも DRBD+ Pacemaker などをHadoopと連携して対応  NameNodeのActive-Standby構成  CDH 4.0.0 では、暫定的にNFSをベースとした構成が採用  レポート: http://www.slideshare.net/hadoopxnttdata/cdh400namenode-ha  今後、NFS/共有ディスクを利用しない実装 BookKeeper が登場 ZooKeeper quorum NameNode(Act, Sby) 状態の管理 ZooKeeper ZooKeeper 監視 ZKFC ZKFC Active NameNode NameNode チェックポイント通信 Standby NFS ・NameNodeプロセスの監視 共有ディスク ・フェンシング実行 edits共有 DataNode DataNode DataNode ・Act, Sbyへの状態遷を実行 ・・・ Copyright © 2012 NTT DATA Corporation 14
  • 15. HDFS Federation  NameNodeのメタ情報を分割して保持  NameNodeメタ情報を分割保持、異なるNameNodeメタ情報も保持  ひとつのクラスタで複数のNameSpaceを管理可能 DataNodeでは 異なる NameNode 環境の データを保持 Copyright © 2012 NTT DATA Corporation 15
  • 16. YARN (MapReduce 2.0)  YARN = Yet Another/Application Resource Negociator  従来の JobTracker/TaskTracker の構成をリファクタリング  MapReduce以外の分散処理フレームワークもサポート Resource Manager Node Manager MR基盤のリソース管理 処理ノードの管理 Application Master アプリケーション実行元 Container 処理を実行 • リソース管理とAP管理を 分離 • 処理スロット制を廃止 Copyright © 2012 NTT DATA Corporation 16
  • 17. Hadoopの 「いま」  新バージョンが次々とリリースされています  少しずつアーキテクチャーの見直しが進められています  HDFS Federation、YARN など  Hadoopエコシステムは成長を続けています  各ソフトウェアの機能拡張やバージョンアップ  Apache HCatalog : Pig/Hive等のメタ情報共通化  Apache Ambari : Hadoop環境の構築・運用基盤  Hadoopを契機にいくつかの技術が浸透中  並列分散処理が身近になってきている  機械学習などの比較的高度な分析手法  比較的ルーズなオペレーションによる運用スケーラビリティの追求 Copyright © 2012 NTT DATA Corporation 17
  • 18. 日本Hadoopユーザー会  Webサイト http://hugjp.org/  メーリングリスト https://groups.google.com/group/hadoop-jp?hl=ja  イベント 『Hadoop Conference Japan』  第1回 2009年11月13日@TEPIA 先端技術館 (331名)  第2回 2011年2月22日@NTTデータ 本社ビル (348名)  第3回 2011年9月26日@ベルサール汐留 (1178名)  今年度もやります  詳細は近日公開! Copyright © 2012 NTT DATA Corporation 18
  • 19. Copyright © 2011 NTT DATA Corporation Copyright © 2012 NTT DATA Corporation