Hadoopの今とこれから
Yifeng Jiang
Solutions Engineer, Hortonworks
2015/10/15
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋 逸峰 (Yifeng Jiang)
•  Solutions Engineer, Hortonworks
•  Apache HBase本の作者
•  ⽇本に来て10年経ちました…
•  趣味は⼭登り
•  Twitter: @uprush
Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
コード⾏数の増加
http://ajisakaa.blogspot.jp
Hortoworksのオープンリーダーシップ
組織毎のコード貢献(2014年)
Hortonworks
Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HortonworksのApache
コミュニティに対する影響力
コミッターの多くがHortonworks社員
-- Apache® Hadoop™プロジェクトの
全コミッターの1/3、および他の重要プロジェクト
のコミッターの大多数を占める
Hortonworksコミッターの役割
Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力
リーダーを通じて、重要な要件をコミュニティに
伝達
A PA C H E H A D O O P の コ ミ ッ タ ー
About Hortonworks
顧客
•  556 のお客様 (2015年8月5日時点)
•  2015年2期に119 新規お客様追加
•  NASDAQに上場(HDP)
Hortonworks Data Platform
•  完全にオープンなマルチテナント プラット
フォーム。あらゆるデータ、あらゆるアプリ。
•  一貫したエンタプライズ サービス:セキュリ
ティ、オペレーション、ガバナンス
お客様のためのパートナー
•  オープンソース コミュニティのリーダー、エ
ンタプライズ要件を満たすための革新に注力
•  比類のないHadoopのサポートサブスクリプ
ション
Founded in 2011
Original 24 architects, developers,
operators of Hadoop from Yahoo!
740+
E M P L O Y E E S
1350+
E C O S Y S T E M
PA R T N E R S
Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や
コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま
れている。
Social
Mapping
Payment
Tracking
Factory
Yields
Defect
Detection
Call
Analysis
Machine
Data
Product
Design
M & A
Due
Diligence
Next
Product
Recs
Store
Design
Risk
Modeling
Ad
Placement
Proactive
Repair
Disaster
Mitigation
Investment
Planning
Inventory
Predictions
Customer
Support
Sentiment
Analysis
Supply
Chain
Ad
Placement
Basket
Analysis
Segments
Cross-
Sell
Customer
Retention
Vendor
Scorecards
Optimize
Inventories
OPEX
Reduction
Mainframe
Offloads
Historical
Records
Data
as a
Service
Public
Data
Capture
Fraud
Prevention
Device
Data
Ingest
Rapid
Reporting
Digital
Protection
Hortonworks Data Platform (HDP)
Open Enterprise Hadoop
Open
Enterprise
Hadoop
オープン
相互運用性
一元化
万全の対応
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Open
Enterprise
Hadoop
Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
一元化	
万全の対応
オープン
Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
完全にオープンな
Hortonworks Data Platform
リスクの解消
完全なオープンソースであるApache技術を提
供することで、ベンダー固定化のリスクを解消
コミュニティイノベーションの最大化
数百社の企業の数百人の開発者により、
コミュニティイノベーションを最大化
シームレスな統合
共同エンジニアリングの取り組みを通して、
他の先進技術を統合	
コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化 	
イ ノ ベ ー シ ョ ン の
優 位 性
独自の HADOOP
時間 イノベーション
オープンコミュニティ
Open
Enterprise
Hadoop
Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
万全な対応
オープン
一元化
YA R N
データオペレーティングシステム
オペレーション セキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
プラットフォーム一元化
オペレーション、ガバナンス、セキュリティ
多様なアプリケーション
単一クラスタで同時実行
データ取り込みの最大化
ローフォーマットかどうかに関係なく、新旧の
ソースに対応
ビッグデータ資産の共有
すべての事業部門、機能部門、ユーザー間で
の共有
YARN ベースのアーキテクチャによるプラットフォーム一元化
Open
Enterprise
Hadoop
万全な対応
オープン
相互運用性
一元化	
© Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
最大限の柔軟性を提供
あ ら ゆ る デ ー タ
新旧のデータセット
あ ら ゆ る ア プ リ ケ ー シ ョ ン
複数のデータ分析エンジン
あ ら ゆ る 場 所
あらゆる環境に対応
バッチ
インタラクティブ
検索
ストリーミング
機械学習	
クリック
ストリーム
センサー
ソーシャル モバイル
ジオ
ロケーション
サーバ
ログ Linux Windows
クラウドオンプレミス
業界標準との同期
エコシステム相互運用性の向上
Hortonworksが立ち上げたOpen Data
Platform(ODP)イニシアティブの一環
選択肢の開放
HDPと統合された複数のベンダーのコンポーネ
ントを選択可能
無駄な当て推量の解消
システムバージョンの調整を行う必要がある
アーキテクトに対するメリット
HDP
Apache Hadoop対応
オープン
プラットフォーム
Pivotal HD
IIPApache
Hadoop
Apache
Ambari
O D P コ ア
エコシステムとの統合
パートナー
Open
Enterprise
Hadoop
Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
オープン
一元化	
相互運用性
万全な対応
信頼できるガバナンス
データ管理
データライフサイクル全般における管理
メタデータによるモデリング
ハイブリッドアプローチにより総合的なデータリ
ネージが実現
相互運用ソリューション
共通のメタデータストアにより、Hadoopエコシス
テム全体で相互運用が可能
オペレーション セキュリティ
GOVERNANCEガバナンス	
YA R N
データオペレーティングシステム
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
Apache Atlas – データガバナンスのための基盤
Rest API
Atlasサービス、 HDPコンポーネント、外部ツールへ
の柔軟なアクセスが可能
SQLのようなドメイン特化型言語を使った検索
キーワード、ファセット、フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビ
ティを取得
エクスチェンジ
既存のメタデータのインポートと、ダウンストリームシ
ステムへのメタデータのエクスポート
Apache Atlas
ナレッジストア
監査ストア
モデル型システム
ポリシールール分類
タグベースのポリシー
データライフサイクル
管理
リアルタイムのタグベースアクセス制御
REST API
サービス
検索 リネージ エクスチェンジ
ヘルスケア
HIPAA
HL7
l金融
SOX
Dodd-Frank
エネルギー
PPDM
小売業
PCI
PII
その他
CWM
YA R N
データオペレーティングシステム
OPERATIONS セキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
安定した運用
一元化
Hadoopクラスタの管理・監視
自動プロビジョニング
Cloudbreak APIにより、オンプレミスかクラウド
のいずれかの環境に数分でクラスタをプロビ
ジョニング
マネージドサービス
ダッシュボードとアラート機能により、高可用性
と一貫したライフサイクル管理を提供
オペレーション
包括的なセキュリティ
包括的なセキュリティ
プラットフォームアプローチによるセキュリティ
暗号化
保存データと移動中のデータの暗号化
管理の一元化
セキュリティポリシーとユーザー認証の管理
きめ細かな承認
データアクセスを管理
オペレーション	 SECURITY
ガバナンス	
セキュリティ	
YA R N
データオペレーティングシステム
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
安定した運用と包括的なセキュリティ
安定した運用
容易なセットアップと設定
リアルタイムのカスタマイズが可能なダッシュ
ボード
包括的なセキュリティ
すべてのコンポーネントの承認と監査
HDFSの透過的なデータ暗号化
Apache Ambari Apache Ranger
© Hortonworks Inc. 2015. All Rights Reserved
ビッグデータの技術革新
~ Hadoop Core ~
Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム
あらゆるアプリケーション、データセット、環境に対応する、
100%オープンソースのマルチテナント型データプラットフォーム
共有エンタープライズサービスの集中型アーキテクチャをベース
に構築
拡張可能な階層型ストレージ
リソース/ワークロード管理
信頼性に優れたデータガバナンスとメタデータ管理
安定した運用
包括的なセキュリティ
開発者向けAPIとツール
YARN
ガバナンス セキュリティ	
オペレーション
リソース管理
ストレージ
コモディティ アプライアンス クラウド
データアクセス:バッチ、インタラクティブ、リアルタイム
Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性
データの増加にあわせて水平方向に拡張し、1つ以上の
ノードを1度に追加
信頼性
高可用性(HA)とフォルトトレラント性により、データの
損失と破損を防止
コスト効率
階層型ストレージで汎用ハードウェアを採用
クロスワークロードアクセス
安全性
強力なアクセス制御と認証メカニズムの統合
すべてのユーザー/グループのデータセットへのアクセス
を細かく制御
移動中のデータ/保存データを保護
HDFS
YARN:データオペレーティングシステム
C A B C B B A C
B A B A C A
標準ベースの
データインターフェイス
NFS
発信元/
発信先
REST
RPC
発信元/
発信先
発信元/
発信先
あらゆるフォーマットのあらゆるデータを取り込み、保管
柔軟なリードアクセスにより多様なワークロードに対応
Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSのエンタプライズ機能
エンタプライズ機能
•  Namenode HA(冗⻑化)
•  単⼀障害点がない
•  ファイル システム スナップショット
•  HDFS NFS Gateway
•  HDFSをNFSマウント、データを簡単にHadoopに
•  データ暗号化 (HDFS TDE)
•  データを置くだけで⾃動暗号化
Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS -- 大規模向け更に効率アップ
⼤規模向け
•  ティア・ストレージ
•  HDD, SSD, アーカイブ, RAM Disk
•  アーカイブ・ティア:コストが最⼤1/6までダウン
•  Erasure Code
•  ⽇本のエンジニアからの貢献が⼤きい
•  3レプリケーションと⽐べ、ストレージ効率が2倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Compute Utilization
Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARNにおけるマルチテナント/ワークロード
Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ
セキュリティ、
プラットフォーム統合、
Zepplinによる可視化など
リソース管理 – Spark on YARN	
マルチテナントワークロードと予測可能なSLA
SparkR*
RデータサイエンティストはSpark機械学習を活用
可能
アプリケーション	
ガバナンスと統合	
セキュリティ	
オペレーション	
YARN
HDFS
	
Scala
Java
Python
API
Sparkコアエンジン	Sparkコアエンジン	
Spark
SQL
Spark
Streaming
MLlib GraphX
Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Apache Zeppelinについて	 インタラクティブな分析を可能にする
Webベースのノートブック
特徴
アドホックな実験
Spark + Hadoopとの緊密な統合
複数の⾔語バックエンドをサポート
Apacheでのインキュベート
ユースケース
データの探索と発⾒
データの視覚化
インタラクティブなスニペット⼀括処
理
「モダンデータサイエンススタジオ」
Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN - エコシステムの拡大
		
YARN:データオペレーティングシステム	
データアクセス
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	
N	
HDFS Hadoop Distributed File System
データ管理
環境の選択肢	
Linux Windows オンプレミス クラウド
バッチ
MapReduce
スクリプト
Pig
検索
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
ストリーム
Storm
インメモリ
Spark
その他
ISVエンジン
Tez Tez Slider Slider
SAS統合
SASで、Hadoopからのデータの取り出し、
Hadoopを利用したインメモリ処理、 Hadoop
クラスタ内での直接動作が可能に
Slider
Hbase、Accumolo、StormなどのSlider経由で
YARN上のDocker化アプリケーションを実行
Solr
HDP 2.3を利用して Solr検索エンジンをYARN
上で実行できるように
YARNとDocker
セキュアなクラスタおよびアンセキュアなクラス
タでコンテナを実行するための透過的な方法
Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Data Operating System
Enable all data and applications
TO BE
accessible and shared
BY
any end-user
Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 37 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
サンドボックスをダウンロードし、試し
てみてください:
hortonworks.com/sandbox
Page 38 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Thank You

Yifeng hadoop-present-public

  • 1.
    Hadoopの今とこれから Yifeng Jiang Solutions Engineer,Hortonworks 2015/10/15 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 2.
    Page 2 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) •  Solutions Engineer, Hortonworks •  Apache HBase本の作者 •  ⽇本に来て10年経ちました… •  趣味は⼭登り •  Twitter: @uprush
  • 3.
    Page 3 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 4.
    Page 4 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ コード⾏数の増加 http://ajisakaa.blogspot.jp
  • 5.
  • 6.
    Page 6 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved HortonworksのApache コミュニティに対する影響力 コミッターの多くがHortonworks社員 -- Apache® Hadoop™プロジェクトの 全コミッターの1/3、および他の重要プロジェクト のコミッターの大多数を占める Hortonworksコミッターの役割 Open Enterprise Hadoopの革新と拡張 Hadoopロードマップに対する影響力 リーダーを通じて、重要な要件をコミュニティに 伝達 A PA C H E H A D O O P の コ ミ ッ タ ー
  • 7.
    About Hortonworks 顧客 •  556のお客様 (2015年8月5日時点) •  2015年2期に119 新規お客様追加 •  NASDAQに上場(HDP) Hortonworks Data Platform •  完全にオープンなマルチテナント プラット フォーム。あらゆるデータ、あらゆるアプリ。 •  一貫したエンタプライズ サービス:セキュリ ティ、オペレーション、ガバナンス お客様のためのパートナー •  オープンソース コミュニティのリーダー、エ ンタプライズ要件を満たすための革新に注力 •  比類のないHadoopのサポートサブスクリプ ション Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! 740+ E M P L O Y E E S 1350+ E C O S Y S T E M PA R T N E R S
  • 8.
    Page 8 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま れている。 Social Mapping Payment Tracking Factory Yields Defect Detection Call Analysis Machine Data Product Design M & A Due Diligence Next Product Recs Store Design Risk Modeling Ad Placement Proactive Repair Disaster Mitigation Investment Planning Inventory Predictions Customer Support Sentiment Analysis Supply Chain Ad Placement Basket Analysis Segments Cross- Sell Customer Retention Vendor Scorecards Optimize Inventories OPEX Reduction Mainframe Offloads Historical Records Data as a Service Public Data Capture Fraud Prevention Device Data Ingest Rapid Reporting Digital Protection
  • 9.
    Hortonworks Data Platform(HDP) Open Enterprise Hadoop
  • 10.
    Open Enterprise Hadoop オープン 相互運用性 一元化 万全の対応 Page 10 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
  • 11.
    Open Enterprise Hadoop Page 11 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 相互運用性 一元化 万全の対応 オープン
  • 12.
    Page 12 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved 完全にオープンな Hortonworks Data Platform リスクの解消 完全なオープンソースであるApache技術を提 供することで、ベンダー固定化のリスクを解消 コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により、 コミュニティイノベーションを最大化 シームレスな統合 共同エンジニアリングの取り組みを通して、 他の先進技術を統合 コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化 イ ノ ベ ー シ ョ ン の 優 位 性 独自の HADOOP 時間 イノベーション オープンコミュニティ
  • 13.
    Open Enterprise Hadoop Page 13 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 相互運用性 万全な対応 オープン 一元化
  • 14.
    YA R N データオペレーティングシステム オペレーションセキュリティ ガバナンス ストレージ ストレージ 機械学習バッチ ストリーミン グ インタラクティ ブ 検索 プラットフォーム一元化 オペレーション、ガバナンス、セキュリティ 多様なアプリケーション 単一クラスタで同時実行 データ取り込みの最大化 ローフォーマットかどうかに関係なく、新旧の ソースに対応 ビッグデータ資産の共有 すべての事業部門、機能部門、ユーザー間で の共有 YARN ベースのアーキテクチャによるプラットフォーム一元化
  • 15.
  • 16.
    最大限の柔軟性を提供 あ ら ゆる デ ー タ 新旧のデータセット あ ら ゆ る ア プ リ ケ ー シ ョ ン 複数のデータ分析エンジン あ ら ゆ る 場 所 あらゆる環境に対応 バッチ インタラクティブ 検索 ストリーミング 機械学習 クリック ストリーム センサー ソーシャル モバイル ジオ ロケーション サーバ ログ Linux Windows クラウドオンプレミス
  • 17.
  • 18.
  • 19.
    Open Enterprise Hadoop Page 19 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow オープン 一元化 相互運用性 万全な対応
  • 20.
  • 21.
    Apache Atlas –データガバナンスのための基盤 Rest API Atlasサービス、 HDPコンポーネント、外部ツールへ の柔軟なアクセスが可能 SQLのようなドメイン特化型言語を使った検索 キーワード、ファセット、フルテキストによる検索 データリネージとスキーマ HiveServer2上のすべてのSQLランタイムアクティビ ティを取得 エクスチェンジ 既存のメタデータのインポートと、ダウンストリームシ ステムへのメタデータのエクスポート Apache Atlas ナレッジストア 監査ストア モデル型システム ポリシールール分類 タグベースのポリシー データライフサイクル 管理 リアルタイムのタグベースアクセス制御 REST API サービス 検索 リネージ エクスチェンジ ヘルスケア HIPAA HL7 l金融 SOX Dodd-Frank エネルギー PPDM 小売業 PCI PII その他 CWM
  • 22.
    YA R N データオペレーティングシステム OPERATIONSセキュリティ ガバナンス ストレージ ストレージ 機械学習バッチ ストリーミン グ インタラクティ ブ 検索 安定した運用 一元化 Hadoopクラスタの管理・監視 自動プロビジョニング Cloudbreak APIにより、オンプレミスかクラウド のいずれかの環境に数分でクラスタをプロビ ジョニング マネージドサービス ダッシュボードとアラート機能により、高可用性 と一貫したライフサイクル管理を提供 オペレーション
  • 23.
  • 24.
  • 25.
    © Hortonworks Inc.2015. All Rights Reserved ビッグデータの技術革新 ~ Hadoop Core ~ Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 26.
    Page 26 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFSとYARN – イノベーションの基盤 Hadoop / YARNを用いたデータオペレーティングシステム あらゆるアプリケーション、データセット、環境に対応する、 100%オープンソースのマルチテナント型データプラットフォーム 共有エンタープライズサービスの集中型アーキテクチャをベース に構築 拡張可能な階層型ストレージ リソース/ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向けAPIとツール YARN ガバナンス セキュリティ オペレーション リソース管理 ストレージ コモディティ アプライアンス クラウド データアクセス:バッチ、インタラクティブ、リアルタイム
  • 27.
    Page 27 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム 拡張性 データの増加にあわせて水平方向に拡張し、1つ以上の ノードを1度に追加 信頼性 高可用性(HA)とフォルトトレラント性により、データの 損失と破損を防止 コスト効率 階層型ストレージで汎用ハードウェアを採用 クロスワークロードアクセス 安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー/グループのデータセットへのアクセス を細かく制御 移動中のデータ/保存データを保護 HDFS YARN:データオペレーティングシステム C A B C B B A C B A B A C A 標準ベースの データインターフェイス NFS 発信元/ 発信先 REST RPC 発信元/ 発信先 発信元/ 発信先 あらゆるフォーマットのあらゆるデータを取り込み、保管 柔軟なリードアクセスにより多様なワークロードに対応
  • 28.
    Page 28 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFSのエンタプライズ機能 エンタプライズ機能 •  Namenode HA(冗⻑化) •  単⼀障害点がない •  ファイル システム スナップショット •  HDFS NFS Gateway •  HDFSをNFSマウント、データを簡単にHadoopに •  データ暗号化 (HDFS TDE) •  データを置くだけで⾃動暗号化
  • 29.
    Page 29 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS -- 大規模向け更に効率アップ ⼤規模向け •  ティア・ストレージ •  HDD, SSD, アーカイブ, RAM Disk •  アーカイブ・ティア:コストが最⼤1/6までダウン •  Erasure Code •  ⽇本のエンジニアからの貢献が⼤きい •  3レプリケーションと⽐べ、ストレージ効率が2倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization
  • 30.
    Page 30 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved YARNにおけるマルチテナント/ワークロード
  • 31.
    Page 31 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP 2.3内のApache Spark 1.4.1 完璧な組み合わせ セキュリティ、 プラットフォーム統合、 Zepplinによる可視化など リソース管理 – Spark on YARN マルチテナントワークロードと予測可能なSLA SparkR* RデータサイエンティストはSpark機械学習を活用 可能 アプリケーション ガバナンスと統合 セキュリティ オペレーション YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン Spark SQL Spark Streaming MLlib GraphX
  • 32.
    Page 32 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Apache Zeppelinについて インタラクティブな分析を可能にする Webベースのノートブック 特徴 アドホックな実験 Spark + Hadoopとの緊密な統合 複数の⾔語バックエンドをサポート Apacheでのインキュベート ユースケース データの探索と発⾒ データの視覚化 インタラクティブなスニペット⼀括処 理 「モダンデータサイエンススタジオ」
  • 33.
    Page 33 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN - エコシステムの拡大 YARN:データオペレーティングシステム データアクセス 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System データ管理 環境の選択肢 Linux Windows オンプレミス クラウド バッチ MapReduce スクリプト Pig 検索 Solr SQL Hive NoSQL HBase Accumulo Phoenix ストリーム Storm インメモリ Spark その他 ISVエンジン Tez Tez Slider Slider SAS統合 SASで、Hadoopからのデータの取り出し、 Hadoopを利用したインメモリ処理、 Hadoop クラスタ内での直接動作が可能に Slider Hbase、Accumolo、StormなどのSlider経由で YARN上のDocker化アプリケーションを実行 Solr HDP 2.3を利用して Solr検索エンジンをYARN 上で実行できるように YARNとDocker セキュアなクラスタおよびアンセキュアなクラス タでコンテナを実行するための透過的な方法
  • 34.
    Page 34 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user
  • 35.
    Page 35 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 36.
    Page 36 ©Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 37.
    Page 37 ©Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow サンドボックスをダウンロードし、試し てみてください: hortonworks.com/sandbox
  • 38.
    Page 38 ©Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow Thank You