SlideShare a Scribd company logo
Hadoopの今とこれから
Yifeng Jiang
Solutions Engineer, Hortonworks
2015/10/15
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋 逸峰 (Yifeng Jiang)
•  Solutions Engineer, Hortonworks
•  Apache HBase本の作者
•  ⽇本に来て10年経ちました…
•  趣味は⼭登り
•  Twitter: @uprush
Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
コード⾏数の増加
http://ajisakaa.blogspot.jp
Hortoworksのオープンリーダーシップ
組織毎のコード貢献(2014年)
Hortonworks
Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HortonworksのApache
コミュニティに対する影響力
コミッターの多くがHortonworks社員
-- Apache® Hadoop™プロジェクトの
全コミッターの1/3、および他の重要プロジェクト
のコミッターの大多数を占める
Hortonworksコミッターの役割
Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力
リーダーを通じて、重要な要件をコミュニティに
伝達
A PA C H E H A D O O P の コ ミ ッ タ ー
About Hortonworks
顧客
•  556 のお客様 (2015年8月5日時点)
•  2015年2期に119 新規お客様追加
•  NASDAQに上場(HDP)
Hortonworks Data Platform
•  完全にオープンなマルチテナント プラット
フォーム。あらゆるデータ、あらゆるアプリ。
•  一貫したエンタプライズ サービス:セキュリ
ティ、オペレーション、ガバナンス
お客様のためのパートナー
•  オープンソース コミュニティのリーダー、エ
ンタプライズ要件を満たすための革新に注力
•  比類のないHadoopのサポートサブスクリプ
ション
Founded in 2011
Original 24 architects, developers,
operators of Hadoop from Yahoo!
740+
E M P L O Y E E S
1350+
E C O S Y S T E M
PA R T N E R S
Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や
コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま
れている。
Social
Mapping
Payment
Tracking
Factory
Yields
Defect
Detection
Call
Analysis
Machine
Data
Product
Design
M & A
Due
Diligence
Next
Product
Recs
Store
Design
Risk
Modeling
Ad
Placement
Proactive
Repair
Disaster
Mitigation
Investment
Planning
Inventory
Predictions
Customer
Support
Sentiment
Analysis
Supply
Chain
Ad
Placement
Basket
Analysis
Segments
Cross-
Sell
Customer
Retention
Vendor
Scorecards
Optimize
Inventories
OPEX
Reduction
Mainframe
Offloads
Historical
Records
Data
as a
Service
Public
Data
Capture
Fraud
Prevention
Device
Data
Ingest
Rapid
Reporting
Digital
Protection
Hortonworks Data Platform (HDP)
Open Enterprise Hadoop
Open
Enterprise
Hadoop
オープン
相互運用性
一元化
万全の対応
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Open
Enterprise
Hadoop
Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
一元化	
万全の対応
オープン
Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
完全にオープンな
Hortonworks Data Platform
リスクの解消
完全なオープンソースであるApache技術を提
供することで、ベンダー固定化のリスクを解消
コミュニティイノベーションの最大化
数百社の企業の数百人の開発者により、
コミュニティイノベーションを最大化
シームレスな統合
共同エンジニアリングの取り組みを通して、
他の先進技術を統合	
コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化 	
イ ノ ベ ー シ ョ ン の
優 位 性
独自の HADOOP
時間 イノベーション
オープンコミュニティ
Open
Enterprise
Hadoop
Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
万全な対応
オープン
一元化
YA R N
データオペレーティングシステム
オペレーション セキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
プラットフォーム一元化
オペレーション、ガバナンス、セキュリティ
多様なアプリケーション
単一クラスタで同時実行
データ取り込みの最大化
ローフォーマットかどうかに関係なく、新旧の
ソースに対応
ビッグデータ資産の共有
すべての事業部門、機能部門、ユーザー間で
の共有
YARN ベースのアーキテクチャによるプラットフォーム一元化
Open
Enterprise
Hadoop
万全な対応
オープン
相互運用性
一元化	
© Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
最大限の柔軟性を提供
あ ら ゆ る デ ー タ
新旧のデータセット
あ ら ゆ る ア プ リ ケ ー シ ョ ン
複数のデータ分析エンジン
あ ら ゆ る 場 所
あらゆる環境に対応
バッチ
インタラクティブ
検索
ストリーミング
機械学習	
クリック
ストリーム
センサー
ソーシャル モバイル
ジオ
ロケーション
サーバ
ログ Linux Windows
クラウドオンプレミス
業界標準との同期
エコシステム相互運用性の向上
Hortonworksが立ち上げたOpen Data
Platform(ODP)イニシアティブの一環
選択肢の開放
HDPと統合された複数のベンダーのコンポーネ
ントを選択可能
無駄な当て推量の解消
システムバージョンの調整を行う必要がある
アーキテクトに対するメリット
HDP
Apache Hadoop対応
オープン
プラットフォーム
Pivotal HD
IIPApache
Hadoop
Apache
Ambari
O D P コ ア
エコシステムとの統合
パートナー
Open
Enterprise
Hadoop
Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
オープン
一元化	
相互運用性
万全な対応
信頼できるガバナンス
データ管理
データライフサイクル全般における管理
メタデータによるモデリング
ハイブリッドアプローチにより総合的なデータリ
ネージが実現
相互運用ソリューション
共通のメタデータストアにより、Hadoopエコシス
テム全体で相互運用が可能
オペレーション セキュリティ
GOVERNANCEガバナンス	
YA R N
データオペレーティングシステム
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
Apache Atlas – データガバナンスのための基盤
Rest API
Atlasサービス、 HDPコンポーネント、外部ツールへ
の柔軟なアクセスが可能
SQLのようなドメイン特化型言語を使った検索
キーワード、ファセット、フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビ
ティを取得
エクスチェンジ
既存のメタデータのインポートと、ダウンストリームシ
ステムへのメタデータのエクスポート
Apache Atlas
ナレッジストア
監査ストア
モデル型システム
ポリシールール分類
タグベースのポリシー
データライフサイクル
管理
リアルタイムのタグベースアクセス制御
REST API
サービス
検索 リネージ エクスチェンジ
ヘルスケア
HIPAA
HL7
l金融
SOX
Dodd-Frank
エネルギー
PPDM
小売業
PCI
PII
その他
CWM
YA R N
データオペレーティングシステム
OPERATIONS セキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
安定した運用
一元化
Hadoopクラスタの管理・監視
自動プロビジョニング
Cloudbreak APIにより、オンプレミスかクラウド
のいずれかの環境に数分でクラスタをプロビ
ジョニング
マネージドサービス
ダッシュボードとアラート機能により、高可用性
と一貫したライフサイクル管理を提供
オペレーション
包括的なセキュリティ
包括的なセキュリティ
プラットフォームアプローチによるセキュリティ
暗号化
保存データと移動中のデータの暗号化
管理の一元化
セキュリティポリシーとユーザー認証の管理
きめ細かな承認
データアクセスを管理
オペレーション	 SECURITY
ガバナンス	
セキュリティ	
YA R N
データオペレーティングシステム
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
安定した運用と包括的なセキュリティ
安定した運用
容易なセットアップと設定
リアルタイムのカスタマイズが可能なダッシュ
ボード
包括的なセキュリティ
すべてのコンポーネントの承認と監査
HDFSの透過的なデータ暗号化
Apache Ambari Apache Ranger
© Hortonworks Inc. 2015. All Rights Reserved
ビッグデータの技術革新
~ Hadoop Core ~
Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム
あらゆるアプリケーション、データセット、環境に対応する、
100%オープンソースのマルチテナント型データプラットフォーム
共有エンタープライズサービスの集中型アーキテクチャをベース
に構築
拡張可能な階層型ストレージ
リソース/ワークロード管理
信頼性に優れたデータガバナンスとメタデータ管理
安定した運用
包括的なセキュリティ
開発者向けAPIとツール
YARN
ガバナンス セキュリティ	
オペレーション
リソース管理
ストレージ
コモディティ アプライアンス クラウド
データアクセス:バッチ、インタラクティブ、リアルタイム
Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性
データの増加にあわせて水平方向に拡張し、1つ以上の
ノードを1度に追加
信頼性
高可用性(HA)とフォルトトレラント性により、データの
損失と破損を防止
コスト効率
階層型ストレージで汎用ハードウェアを採用
クロスワークロードアクセス
安全性
強力なアクセス制御と認証メカニズムの統合
すべてのユーザー/グループのデータセットへのアクセス
を細かく制御
移動中のデータ/保存データを保護
HDFS
YARN:データオペレーティングシステム
C A B C B B A C
B A B A C A
標準ベースの
データインターフェイス
NFS
発信元/
発信先
REST
RPC
発信元/
発信先
発信元/
発信先
あらゆるフォーマットのあらゆるデータを取り込み、保管
柔軟なリードアクセスにより多様なワークロードに対応
Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSのエンタプライズ機能
エンタプライズ機能
•  Namenode HA(冗⻑化)
•  単⼀障害点がない
•  ファイル システム スナップショット
•  HDFS NFS Gateway
•  HDFSをNFSマウント、データを簡単にHadoopに
•  データ暗号化 (HDFS TDE)
•  データを置くだけで⾃動暗号化
Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS -- 大規模向け更に効率アップ
⼤規模向け
•  ティア・ストレージ
•  HDD, SSD, アーカイブ, RAM Disk
•  アーカイブ・ティア:コストが最⼤1/6までダウン
•  Erasure Code
•  ⽇本のエンジニアからの貢献が⼤きい
•  3レプリケーションと⽐べ、ストレージ効率が2倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Compute Utilization
Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARNにおけるマルチテナント/ワークロード
Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ
セキュリティ、
プラットフォーム統合、
Zepplinによる可視化など
リソース管理 – Spark on YARN	
マルチテナントワークロードと予測可能なSLA
SparkR*
RデータサイエンティストはSpark機械学習を活用
可能
アプリケーション	
ガバナンスと統合	
セキュリティ	
オペレーション	
YARN
HDFS
	
Scala
Java
Python
API
Sparkコアエンジン	Sparkコアエンジン	
Spark
SQL
Spark
Streaming
MLlib GraphX
Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Apache Zeppelinについて	 インタラクティブな分析を可能にする
Webベースのノートブック
特徴
アドホックな実験
Spark + Hadoopとの緊密な統合
複数の⾔語バックエンドをサポート
Apacheでのインキュベート
ユースケース
データの探索と発⾒
データの視覚化
インタラクティブなスニペット⼀括処
理
「モダンデータサイエンススタジオ」
Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN - エコシステムの拡大
		
YARN:データオペレーティングシステム	
データアクセス
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	
N	
HDFS Hadoop Distributed File System
データ管理
環境の選択肢	
Linux Windows オンプレミス クラウド
バッチ
MapReduce
スクリプト
Pig
検索
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
ストリーム
Storm
インメモリ
Spark
その他
ISVエンジン
Tez Tez Slider Slider
SAS統合
SASで、Hadoopからのデータの取り出し、
Hadoopを利用したインメモリ処理、 Hadoop
クラスタ内での直接動作が可能に
Slider
Hbase、Accumolo、StormなどのSlider経由で
YARN上のDocker化アプリケーションを実行
Solr
HDP 2.3を利用して Solr検索エンジンをYARN
上で実行できるように
YARNとDocker
セキュアなクラスタおよびアンセキュアなクラス
タでコンテナを実行するための透過的な方法
Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Data Operating System
Enable all data and applications
TO BE
accessible and shared
BY
any end-user
Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 37 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
サンドボックスをダウンロードし、試し
てみてください:
hortonworks.com/sandbox
Page 38 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Thank You

More Related Content

What's hot

sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
Hadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめHadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
 
Deep Learning On Apache Spark
Deep Learning On Apache SparkDeep Learning On Apache Spark
Deep Learning On Apache Spark
Yuta Imai
 
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクトApache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
Yuta Imai
 
Apache ambari
Apache ambariApache ambari
Apache ambari
Yuta Imai
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
 
Apache Hiveの今とこれから - 2016
Apache Hiveの今とこれから - 2016Apache Hiveの今とこれから - 2016
Apache Hiveの今とこれから - 2016
Yuta Imai
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはdb tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはKoji Shinkubo
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
 
A Benchmark Test on Presto, Spark Sql and Hive on Tez
A Benchmark Test on Presto, Spark Sql and Hive on TezA Benchmark Test on Presto, Spark Sql and Hive on Tez
A Benchmark Test on Presto, Spark Sql and Hive on Tez
Gw Liu
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
 
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
Cloudera Japan
 
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingImpala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
 

What's hot (20)

sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
Hadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめHadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめ
 
Deep Learning On Apache Spark
Deep Learning On Apache SparkDeep Learning On Apache Spark
Deep Learning On Apache Spark
 
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクトApache NiFiで、楽して、つながる、広がる IoTプロジェクト
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
 
Apache ambari
Apache ambariApache ambari
Apache ambari
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
 
Apache Hiveの今とこれから - 2016
Apache Hiveの今とこれから - 2016Apache Hiveの今とこれから - 2016
Apache Hiveの今とこれから - 2016
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはdb tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
A Benchmark Test on Presto, Spark Sql and Hive on Tez
A Benchmark Test on Presto, Spark Sql and Hive on TezA Benchmark Test on Presto, Spark Sql and Hive on Tez
A Benchmark Test on Presto, Spark Sql and Hive on Tez
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
 
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingImpala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
 

Similar to Yifeng hadoop-present-public

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
PaaS勉強会#25 Helion Development Platform Tech Overview
PaaS勉強会#25 Helion Development Platform Tech OverviewPaaS勉強会#25 Helion Development Platform Tech Overview
PaaS勉強会#25 Helion Development Platform Tech Overview
Toru Makabe
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
OLAP options on Hadoop
OLAP options on HadoopOLAP options on Hadoop
OLAP options on Hadoop
Yuta Imai
 
20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearning20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearningTakumi Yoshida
 
CDH4セミナー資料
CDH4セミナー資料 CDH4セミナー資料
CDH4セミナー資料
Cloudera Japan
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
Joutaro Ooura
 
Okinawa Open Days HP事例紹介
Okinawa Open Days HP事例紹介Okinawa Open Days HP事例紹介
Okinawa Open Days HP事例紹介
Toru Makabe
 
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
Masaya Ishikawa
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
AdvancedTechNight
 

Similar to Yifeng hadoop-present-public (20)

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
PaaS勉強会#25 Helion Development Platform Tech Overview
PaaS勉強会#25 Helion Development Platform Tech OverviewPaaS勉強会#25 Helion Development Platform Tech Overview
PaaS勉強会#25 Helion Development Platform Tech Overview
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
OLAP options on Hadoop
OLAP options on HadoopOLAP options on Hadoop
OLAP options on Hadoop
 
20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearning20140711 evf2014 hadoop_recommendmachinelearning
20140711 evf2014 hadoop_recommendmachinelearning
 
CDH4セミナー資料
CDH4セミナー資料 CDH4セミナー資料
CDH4セミナー資料
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
 
Okinawa Open Days HP事例紹介
Okinawa Open Days HP事例紹介Okinawa Open Days HP事例紹介
Okinawa Open Days HP事例紹介
 
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
 

More from Yifeng Jiang

Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsHive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
 
introduction-to-apache-kafka
introduction-to-apache-kafkaintroduction-to-apache-kafka
introduction-to-apache-kafka
Yifeng Jiang
 
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataHive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
 
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerIntroduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
Yifeng Jiang
 
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneHDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
 
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesHortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
 
Spark Security
Spark SecuritySpark Security
Spark Security
Yifeng Jiang
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
 
Real-time Analytics in Financial
Real-time Analytics in FinancialReal-time Analytics in Financial
Real-time Analytics in Financial
Yifeng Jiang
 
Nifi workshop
Nifi workshopNifi workshop
Nifi workshop
Yifeng Jiang
 
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleSub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
 
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveKinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
 
Hive present-and-feature-shanghai
Hive present-and-feature-shanghaiHive present-and-feature-shanghai
Hive present-and-feature-shanghai
Yifeng Jiang
 
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopHadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれから
Yifeng Jiang
 
HDFS Deep Dive
HDFS Deep DiveHDFS Deep Dive
HDFS Deep Dive
Yifeng Jiang
 

More from Yifeng Jiang (16)

Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsHive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
 
introduction-to-apache-kafka
introduction-to-apache-kafkaintroduction-to-apache-kafka
introduction-to-apache-kafka
 
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataHive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
 
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerIntroduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
 
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneHDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
 
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesHortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
 
Spark Security
Spark SecuritySpark Security
Spark Security
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
 
Real-time Analytics in Financial
Real-time Analytics in FinancialReal-time Analytics in Financial
Real-time Analytics in Financial
 
Nifi workshop
Nifi workshopNifi workshop
Nifi workshop
 
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleSub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
 
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveKinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
 
Hive present-and-feature-shanghai
Hive present-and-feature-shanghaiHive present-and-feature-shanghai
Hive present-and-feature-shanghai
 
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopHadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれから
 
HDFS Deep Dive
HDFS Deep DiveHDFS Deep Dive
HDFS Deep Dive
 

Yifeng hadoop-present-public

  • 1. Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks 2015/10/15 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 2. Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) •  Solutions Engineer, Hortonworks •  Apache HBase本の作者 •  ⽇本に来て10年経ちました… •  趣味は⼭登り •  Twitter: @uprush
  • 3. Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 4. Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ コード⾏数の増加 http://ajisakaa.blogspot.jp
  • 6. Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HortonworksのApache コミュニティに対する影響力 コミッターの多くがHortonworks社員 -- Apache® Hadoop™プロジェクトの 全コミッターの1/3、および他の重要プロジェクト のコミッターの大多数を占める Hortonworksコミッターの役割 Open Enterprise Hadoopの革新と拡張 Hadoopロードマップに対する影響力 リーダーを通じて、重要な要件をコミュニティに 伝達 A PA C H E H A D O O P の コ ミ ッ タ ー
  • 7. About Hortonworks 顧客 •  556 のお客様 (2015年8月5日時点) •  2015年2期に119 新規お客様追加 •  NASDAQに上場(HDP) Hortonworks Data Platform •  完全にオープンなマルチテナント プラット フォーム。あらゆるデータ、あらゆるアプリ。 •  一貫したエンタプライズ サービス:セキュリ ティ、オペレーション、ガバナンス お客様のためのパートナー •  オープンソース コミュニティのリーダー、エ ンタプライズ要件を満たすための革新に注力 •  比類のないHadoopのサポートサブスクリプ ション Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! 740+ E M P L O Y E E S 1350+ E C O S Y S T E M PA R T N E R S
  • 8. Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま れている。 Social Mapping Payment Tracking Factory Yields Defect Detection Call Analysis Machine Data Product Design M & A Due Diligence Next Product Recs Store Design Risk Modeling Ad Placement Proactive Repair Disaster Mitigation Investment Planning Inventory Predictions Customer Support Sentiment Analysis Supply Chain Ad Placement Basket Analysis Segments Cross- Sell Customer Retention Vendor Scorecards Optimize Inventories OPEX Reduction Mainframe Offloads Historical Records Data as a Service Public Data Capture Fraud Prevention Device Data Ingest Rapid Reporting Digital Protection
  • 9. Hortonworks Data Platform (HDP) Open Enterprise Hadoop
  • 10. Open Enterprise Hadoop オープン 相互運用性 一元化 万全の対応 Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
  • 11. Open Enterprise Hadoop Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 相互運用性 一元化 万全の対応 オープン
  • 12. Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 完全にオープンな Hortonworks Data Platform リスクの解消 完全なオープンソースであるApache技術を提 供することで、ベンダー固定化のリスクを解消 コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により、 コミュニティイノベーションを最大化 シームレスな統合 共同エンジニアリングの取り組みを通して、 他の先進技術を統合 コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化 イ ノ ベ ー シ ョ ン の 優 位 性 独自の HADOOP 時間 イノベーション オープンコミュニティ
  • 13. Open Enterprise Hadoop Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 相互運用性 万全な対応 オープン 一元化
  • 14. YA R N データオペレーティングシステム オペレーション セキュリティ ガバナンス ストレージ ストレージ 機械学習バッチ ストリーミン グ インタラクティ ブ 検索 プラットフォーム一元化 オペレーション、ガバナンス、セキュリティ 多様なアプリケーション 単一クラスタで同時実行 データ取り込みの最大化 ローフォーマットかどうかに関係なく、新旧の ソースに対応 ビッグデータ資産の共有 すべての事業部門、機能部門、ユーザー間で の共有 YARN ベースのアーキテクチャによるプラットフォーム一元化
  • 16. 最大限の柔軟性を提供 あ ら ゆ る デ ー タ 新旧のデータセット あ ら ゆ る ア プ リ ケ ー シ ョ ン 複数のデータ分析エンジン あ ら ゆ る 場 所 あらゆる環境に対応 バッチ インタラクティブ 検索 ストリーミング 機械学習 クリック ストリーム センサー ソーシャル モバイル ジオ ロケーション サーバ ログ Linux Windows クラウドオンプレミス
  • 19. Open Enterprise Hadoop Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow オープン 一元化 相互運用性 万全な対応
  • 21. Apache Atlas – データガバナンスのための基盤 Rest API Atlasサービス、 HDPコンポーネント、外部ツールへ の柔軟なアクセスが可能 SQLのようなドメイン特化型言語を使った検索 キーワード、ファセット、フルテキストによる検索 データリネージとスキーマ HiveServer2上のすべてのSQLランタイムアクティビ ティを取得 エクスチェンジ 既存のメタデータのインポートと、ダウンストリームシ ステムへのメタデータのエクスポート Apache Atlas ナレッジストア 監査ストア モデル型システム ポリシールール分類 タグベースのポリシー データライフサイクル 管理 リアルタイムのタグベースアクセス制御 REST API サービス 検索 リネージ エクスチェンジ ヘルスケア HIPAA HL7 l金融 SOX Dodd-Frank エネルギー PPDM 小売業 PCI PII その他 CWM
  • 22. YA R N データオペレーティングシステム OPERATIONS セキュリティ ガバナンス ストレージ ストレージ 機械学習バッチ ストリーミン グ インタラクティ ブ 検索 安定した運用 一元化 Hadoopクラスタの管理・監視 自動プロビジョニング Cloudbreak APIにより、オンプレミスかクラウド のいずれかの環境に数分でクラスタをプロビ ジョニング マネージドサービス ダッシュボードとアラート機能により、高可用性 と一貫したライフサイクル管理を提供 オペレーション
  • 25. © Hortonworks Inc. 2015. All Rights Reserved ビッグデータの技術革新 ~ Hadoop Core ~ Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 26. Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFSとYARN – イノベーションの基盤 Hadoop / YARNを用いたデータオペレーティングシステム あらゆるアプリケーション、データセット、環境に対応する、 100%オープンソースのマルチテナント型データプラットフォーム 共有エンタープライズサービスの集中型アーキテクチャをベース に構築 拡張可能な階層型ストレージ リソース/ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向けAPIとツール YARN ガバナンス セキュリティ オペレーション リソース管理 ストレージ コモディティ アプライアンス クラウド データアクセス:バッチ、インタラクティブ、リアルタイム
  • 27. Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム 拡張性 データの増加にあわせて水平方向に拡張し、1つ以上の ノードを1度に追加 信頼性 高可用性(HA)とフォルトトレラント性により、データの 損失と破損を防止 コスト効率 階層型ストレージで汎用ハードウェアを採用 クロスワークロードアクセス 安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー/グループのデータセットへのアクセス を細かく制御 移動中のデータ/保存データを保護 HDFS YARN:データオペレーティングシステム C A B C B B A C B A B A C A 標準ベースの データインターフェイス NFS 発信元/ 発信先 REST RPC 発信元/ 発信先 発信元/ 発信先 あらゆるフォーマットのあらゆるデータを取り込み、保管 柔軟なリードアクセスにより多様なワークロードに対応
  • 28. Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFSのエンタプライズ機能 エンタプライズ機能 •  Namenode HA(冗⻑化) •  単⼀障害点がない •  ファイル システム スナップショット •  HDFS NFS Gateway •  HDFSをNFSマウント、データを簡単にHadoopに •  データ暗号化 (HDFS TDE) •  データを置くだけで⾃動暗号化
  • 29. Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS -- 大規模向け更に効率アップ ⼤規模向け •  ティア・ストレージ •  HDD, SSD, アーカイブ, RAM Disk •  アーカイブ・ティア:コストが最⼤1/6までダウン •  Erasure Code •  ⽇本のエンジニアからの貢献が⼤きい •  3レプリケーションと⽐べ、ストレージ効率が2倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization
  • 30. Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARNにおけるマルチテナント/ワークロード
  • 31. Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP 2.3内のApache Spark 1.4.1 完璧な組み合わせ セキュリティ、 プラットフォーム統合、 Zepplinによる可視化など リソース管理 – Spark on YARN マルチテナントワークロードと予測可能なSLA SparkR* RデータサイエンティストはSpark機械学習を活用 可能 アプリケーション ガバナンスと統合 セキュリティ オペレーション YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン Spark SQL Spark Streaming MLlib GraphX
  • 32. Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Apache Zeppelinについて インタラクティブな分析を可能にする Webベースのノートブック 特徴 アドホックな実験 Spark + Hadoopとの緊密な統合 複数の⾔語バックエンドをサポート Apacheでのインキュベート ユースケース データの探索と発⾒ データの視覚化 インタラクティブなスニペット⼀括処 理 「モダンデータサイエンススタジオ」
  • 33. Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN - エコシステムの拡大 YARN:データオペレーティングシステム データアクセス 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System データ管理 環境の選択肢 Linux Windows オンプレミス クラウド バッチ MapReduce スクリプト Pig 検索 Solr SQL Hive NoSQL HBase Accumulo Phoenix ストリーム Storm インメモリ Spark その他 ISVエンジン Tez Tez Slider Slider SAS統合 SASで、Hadoopからのデータの取り出し、 Hadoopを利用したインメモリ処理、 Hadoop クラスタ内での直接動作が可能に Slider Hbase、Accumolo、StormなどのSlider経由で YARN上のDocker化アプリケーションを実行 Solr HDP 2.3を利用して Solr検索エンジンをYARN 上で実行できるように YARNとDocker セキュアなクラスタおよびアンセキュアなクラス タでコンテナを実行するための透過的な方法
  • 34. Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user
  • 35. Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 36. Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 37. Page 37 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow サンドボックスをダウンロードし、試し てみてください: hortonworks.com/sandbox
  • 38. Page 38 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow Thank You