Yifeng hadoop-present-public

Hadoopの今とこれから
Yifeng Jiang
Solutions Engineer, Hortonworks
2015/10/15
© Hortonworks Inc. 2011 – 2015. All Rights Reserved

自己紹介
蒋逸峰 (Yifeng Jiang)
•  Solutions Engineer, Hortonworks
•  Apache HBase本の作者
•  ⽇本に来て１０年経ちました…
•  趣味は⼭登り
•  Twitter: @uprush

Hadoopコミュニティのアクティビティ
コード⾏数の増加
http://ajisakaa.blogspot.jp

Hortoworksのオープンリーダーシップ
組織毎のコード貢献（2014年）
Hortonworks

HortonworksのApache
コミュニティに対する影響力
コミッターの多くがHortonworks社員
-- Apache® Hadoop™プロジェクトの
全コミッターの1/3、および他の重要プロジェクト
のコミッターの大多数を占める
Hortonworksコミッターの役割
Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力
リーダーを通じて、重要な要件をコミュニティに
伝達
A PA C H E H A D O O P のコミッター

About Hortonworks
顧客
•  556 のお客様 (2015年8月5日時点)
•  2015年2期に119 新規お客様追加
•  NASDAQに上場（HDP）
Hortonworks Data Platform
•  完全にオープンなマルチテナントプラット
フォーム。あらゆるデータ、あらゆるアプリ。
•  一貫したエンタプライズサービス：セキュリ
ティ、オペレーション、ガバナンス
お客様のためのパートナー
•  オープンソースコミュニティのリーダー、エ
ンタプライズ要件を満たすための革新に注力
•  比類のないHadoopのサポートサブスクリプ
ション
Founded in 2011
Original 24 architects, developers,
operators of Hadoop from Yahoo!
740+
E M P L O Y E E S
1350+
E C O S Y S T E M
PA R T N E R S

お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や
コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま
れている。
Social
Mapping
Payment
Tracking
Factory
Yields
Defect
Detection
Call
Analysis
Machine
Data
Product
Design
M & A
Due
Diligence
Next
Product
Recs
Store
Design
Risk
Modeling
Ad
Placement
Proactive
Repair
Disaster
Mitigation
Investment
Planning
Inventory
Predictions
Customer
Support
Sentiment
Analysis
Supply
Chain
Ad
Placement
Basket
Analysis
Segments
Cross-
Sell
Customer
Retention
Vendor
Scorecards
Optimize
Inventories
OPEX
Reduction
Mainframe
Offloads
Historical
Records
Data
as a
Service
Public
Data
Capture
Fraud
Prevention
Device
Data
Ingest
Rapid
Reporting
Digital
Protection

Hortonworks Data Platform (HDP)
Open Enterprise Hadoop

Open
Enterprise
Hadoop
オープン
相互運用性
一元化
万全の対応
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

Open
Enterprise
Hadoop
相互運用性
一元化
万全の対応
オープン

完全にオープンな
Hortonworks Data Platform
リスクの解消
完全なオープンソースであるApache技術を提
供することで、ベンダー固定化のリスクを解消
コミュニティイノベーションの最大化
数百社の企業の数百人の開発者により、
コミュニティイノベーションを最大化
シームレスな統合
共同エンジニアリングの取り組みを通して、
他の先進技術を統合
コミュニティイノベーションの最大化
イノベーションの
優位性
独自の HADOOP
時間イノベーション
オープンコミュニティ

Open
Enterprise
Hadoop
相互運用性
万全な対応
オープン
一元化

YA R N
データオペレーティングシステム
オペレーションセキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
プラットフォーム一元化
オペレーション、ガバナンス、セキュリティ
多様なアプリケーション
単一クラスタで同時実行
データ取り込みの最大化
ローフォーマットかどうかに関係なく、新旧の
ソースに対応
ビッグデータ資産の共有
すべての事業部門、機能部門、ユーザー間で
の共有
YARN ベースのアーキテクチャによるプラットフォーム一元化

Open
Enterprise
Hadoop
万全な対応
オープン
相互運用性
一元化
© Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow

最大限の柔軟性を提供
あらゆるデータ
新旧のデータセット
あらゆるアプリケーション
複数のデータ分析エンジン
あらゆる場所
あらゆる環境に対応
バッチ
インタラクティブ
検索
ストリーミング
機械学習
クリック
ストリーム
センサー
ソーシャルモバイル
ジオ
ロケーション
サーバ
ログ Linux Windows
クラウドオンプレミス

業界標準との同期
エコシステム相互運用性の向上
Hortonworksが立ち上げたOpen Data
Platform（ODP）イニシアティブの一環
選択肢の開放
HDPと統合された複数のベンダーのコンポーネ
ントを選択可能
無駄な当て推量の解消
システムバージョンの調整を行う必要がある
アーキテクトに対するメリット
HDP
Apache Hadoop対応
オープン
プラットフォーム
Pivotal HD
IIPApache
Hadoop
Apache
Ambari
O D P コア

エコシステムとの統合
パートナー

Open
Enterprise
Hadoop
オープン
一元化
相互運用性
万全な対応

信頼できるガバナンス
データ管理
データライフサイクル全般における管理
メタデータによるモデリング
ハイブリッドアプローチにより総合的なデータリ
ネージが実現
相互運用ソリューション
共通のメタデータストアにより、Hadoopエコシス
テム全体で相互運用が可能
オペレーションセキュリティ
GOVERNANCEガバナンス
YA R N
ストレージ
ストレージ
ストリーミン
グ
ブ
検索

Apache Atlas – データガバナンスのための基盤
Rest API
Atlasサービス、 HDPコンポーネント、外部ツールへ
の柔軟なアクセスが可能
SQLのようなドメイン特化型言語を使った検索
キーワード、ファセット、フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビ
ティを取得
エクスチェンジ
既存のメタデータのインポートと、ダウンストリームシ
ステムへのメタデータのエクスポート
Apache Atlas
ナレッジストア
監査ストア
モデル型システム
ポリシールール分類
タグベースのポリシー
データライフサイクル
管理
リアルタイムのタグベースアクセス制御
REST API
サービス
検索リネージエクスチェンジ
ヘルスケア
HIPAA
HL7
l金融
SOX
Dodd-Frank
エネルギー
PPDM
小売業
PCI
PII
その他
CWM

YA R N
OPERATIONS セキュリティ
ガバナンス
ストレージ
ストレージ
ストリーミン
グ
ブ
検索
安定した運用
一元化
Hadoopクラスタの管理・監視
自動プロビジョニング
Cloudbreak APIにより、オンプレミスかクラウド
のいずれかの環境に数分でクラスタをプロビ
ジョニング
マネージドサービス
ダッシュボードとアラート機能により、高可用性
と一貫したライフサイクル管理を提供
オペレーション

包括的なセキュリティ
プラットフォームアプローチによるセキュリティ
暗号化
保存データと移動中のデータの暗号化
管理の一元化
セキュリティポリシーとユーザー認証の管理
きめ細かな承認
データアクセスを管理
オペレーション SECURITY
ガバナンス
セキュリティ
YA R N
ストレージ
ストレージ
ストリーミン
グ
ブ
検索

安定した運用と包括的なセキュリティ
安定した運用
容易なセットアップと設定
リアルタイムのカスタマイズが可能なダッシュ
ボード
すべてのコンポーネントの承認と監査
HDFSの透過的なデータ暗号化
Apache Ambari Apache Ranger

© Hortonworks Inc. 2015. All Rights Reserved
ビッグデータの技術革新
~ Hadoop Core ~
Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム
あらゆるアプリケーション、データセット、環境に対応する、
100%オープンソースのマルチテナント型データプラットフォーム
共有エンタープライズサービスの集中型アーキテクチャをベース
に構築
拡張可能な階層型ストレージ
リソース/ワークロード管理
信頼性に優れたデータガバナンスとメタデータ管理
安定した運用
開発者向けAPIとツール
YARN
ガバナンスセキュリティ
リソース管理
ストレージ
コモディティアプライアンスクラウド
データアクセス：バッチ、インタラクティブ、リアルタイム

HDFS：拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性
データの増加にあわせて水平方向に拡張し、1つ以上の
ノードを1度に追加
信頼性
高可用性（HA）とフォルトトレラント性により、データの
損失と破損を防止
コスト効率
階層型ストレージで汎用ハードウェアを採用
クロスワークロードアクセス
安全性
強力なアクセス制御と認証メカニズムの統合
すべてのユーザー/グループのデータセットへのアクセス
を細かく制御
移動中のデータ/保存データを保護
HDFS
YARN：データオペレーティングシステム
C A B C B B A C
B A B A C A
標準ベースの
データインターフェイス
NFS
発信元/
発信先
REST
RPC
発信元/
発信先
発信元/
発信先
あらゆるフォーマットのあらゆるデータを取り込み、保管
柔軟なリードアクセスにより多様なワークロードに対応

HDFSのエンタプライズ機能
エンタプライズ機能
•  Namenode HA（冗⻑化）
•  単⼀障害点がない
•  ファイルシステムスナップショット
•  HDFS NFS Gateway
•  HDFSをNFSマウント、データを簡単にHadoopに
•  データ暗号化 (HDFS TDE)
•  データを置くだけで⾃動暗号化

HDFS -- 大規模向け更に効率アップ
⼤規模向け
•  ティア・ストレージ
•  HDD, SSD, アーカイブ, RAM Disk
•  アーカイブ・ティア:コストが最⼤1/6までダウン
•  Erasure Code
•  ⽇本のエンジニアからの貢献が⼤きい
•  ３レプリケーションと⽐べ、ストレージ効率が２倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Compute Utilization

YARNにおけるマルチテナント／ワークロード

HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ
セキュリティ、
プラットフォーム統合、
Zepplinによる可視化など
リソース管理 – Spark on YARN
マルチテナントワークロードと予測可能なSLA
SparkR*
RデータサイエンティストはSpark機械学習を活用
可能
アプリケーション
ガバナンスと統合
セキュリティ
YARN
HDFS

Scala
Java
Python
API
Sparkコアエンジン Sparkコアエンジン
Spark
SQL
Spark
Streaming
MLlib GraphX

Apache Zeppelinについてインタラクティブな分析を可能にする
Webベースのノートブック
特徴
アドホックな実験
Spark + Hadoopとの緊密な統合
複数の⾔語バックエンドをサポート
Apacheでのインキュベート
ユースケース
データの探索と発⾒
データの視覚化
インタラクティブなスニペット⼀括処
理
「モダンデータサイエンススタジオ」

YARN - エコシステムの拡大

YARN：データオペレーティングシステム
データアクセス
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
データ管理
環境の選択肢
Linux Windows オンプレミスクラウド
バッチ
MapReduce
スクリプト
Pig
検索
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
ストリーム
Storm
インメモリ
Spark
その他
ISVエンジン
Tez Tez Slider Slider
SAS統合
SASで、Hadoopからのデータの取り出し、
Hadoopを利用したインメモリ処理、 Hadoop
クラスタ内での直接動作が可能に
Slider
Hbase、Accumolo、StormなどのSlider経由で
YARN上のDocker化アプリケーションを実行
Solr
HDP 2.3を利用して Solr検索エンジンをYARN
上で実行できるように
YARNとDocker
セキュアなクラスタおよびアンセキュアなクラス
タでコンテナを実行するための透過的な方法

Data Operating System
Enable all data and applications
TO BE
accessible and shared
BY
any end-user

Yifeng hadoop-present-public

More Related Content

What's hot

Similar to Yifeng hadoop-present-public

More from Yifeng Jiang

Yifeng hadoop-present-public