SlideShare a Scribd company logo
1 of 31
How to build a successful Data Warehouse on Hadoop
Simon Harris, Senior Performance Architect, Big Data. IBM.
貝嶋創, Technical Sales, BigData, IBM
2
 どのHadoop上のSQLソリューションを使うべきか ???
• ベンダーロックインの有無
 既存DB、DWHからのポーティング
• データの移動
• ワークロードの移動 (SQL)
 Hadoop上のWareHouseを実運用環境へ
• パフォーマンス、拡張性、ワークロードマネージャー
• セルフチューニング
• エンタープライズレベルセキュリティ
 DWHからHadoopへのコネクティビティ
• Federation
• Spark exploitation
 さらなる価値の創造
Agenda
3
お客様からのコメント …
Hiveで十分間に合ってます!!
もしくは
Hiveでも良いのですが、BI・レポーティングが簡単にできるものはないで
すか?
Hive/MapReduceへの同時接続数が増えワークロードが増加すると問題が
置きます.この状況でクエリの遅延がないようにできませんか?
増え続けるワークロードに対して現在持っているHadoopを増強し続ける
つもりです.ただし、無制限な増強を回避する方法はないでしょうか?
変えたいことは色々ありますが,どこから始めればよいでしょうか?
4
Hadoop上のSQLエンジンの多数の選択肢 – 何を選択するか
??
 SQLエンジンは多数発表されており、信じられないペースで成熟してい
ます!
 SQL on Hadoop はローコストで,簡単にスケールアウトできます.
 ただし、すべてのエンジンは長所・短所があります,
何を選択すればよいでしょうか?
IBM Big SQL
SQL
5
Hive Execution Engine
(open source)
そもそもHiveとは…
3つの構成要素
Hive
(Open Source)
Hive Storage Model (open source)
Hive
metastore
(open
source)
MapReduce
CSV
Tab
Delim
.
Parquet ORC Others
1
23
6
Hive Execution Engine
(open source)
実行エンジンは変換が可能
Hive Metastoreとファイル(フォーマット)を活用
Big SQL
(IBM)
Hive
(Open Source)
Hive Storage Model (open source)
Hive
metastore
(open
source)
C/C++
MPP
Engine
Spark SQL
(Open Source)
Impala
(Open Source)
CSV
Tab
Delim
.
Parquet ORC Others
• Big SQL は他のオープンソースエンジンと同様の構成
• ロックインしません. データはHadoopが管理します. いつでもHive環境に戻
ることが可能.
7
ODPi Interoperable Solutions
ODPi is a nonprofit organization committed to simplification & standardization of the
big data ecosystem.
As a shared industry effort , ODPi is focused on promoting and advancing the state of Apache Hadoop® and big data
technologies for the enterprise. See https://www.odpi.org/ for more details.
7
 Open Data Platform initiative
(ODPi) は
ディストリビューションの標準化と,
Hadoop エコシステムの発展を促進
 Big SQL v4.2 はODPi での運用が可
能であり,
IBM と HortonWorks
のHadoop ディストリビューション
で動作.
ODPi: ディストリビューション間での相互運用性
ODPi Runtime Compliant Platforms
ODPi Runtime Specification
HDFS YARN MapReduce
Hive HCFS
Big SQL
(IBM)
8
 どのHadoop上のSQLソリューションを使うべきか ???
• ベンダーロックインの有無
 既存DB、DWHからのポーティング
• データの移動
• ワークロードの移動 (SQL)
 Hadoop上のWareHouseを実運用環境へ
• パフォーマンス、拡張性、ワークロードマネージャー
• セルフチューニング
• エンタープライズレベルセキュリティ
 DWHからHadoopへのコネクティビティ
• Federation
• Spark exploitation
 さらなる価値の創造
Agenda
9
既存のDWHからHadoop WareHouseへどのように移動するの
か?
 データ移動はシンプル – 問題は時間だけ!
 データ移動に関するツールやテクニックはすでに広く知られている
$$$ $
EXPORT -> COPY TO HDFS
Sqoop
Federation: INSERT..SELECT..
 Storage format ?
 Partitioning Columns ?
10
問題はSQLアプリケーションの移動!
 DWHは複雑なSQLを実行,移植ができるのか?
 RDBMSのベンダーはそれぞれ独自の構文や関数を持っている – ANSI
SQL準拠に加えて
 SQL over Hadoop ベンダーによるSQLスタンダード対応は途上
 急速に改善されては来ていますが…
Query re-writes ?
Porting is made simpler if the SQL
over Hadoop solution is ANSI
Compliant, and can understand the
SQL dialect of the original
Warehouse.
11
Big SQL は様々なベンダーのSQLを実行可能.
Porting effort to Hadoop will be reduced.
Big SQL は ANSI SQL
対応だけではなく、
DB2,
Oracle,
Netezza
のSQLを実行可能です
SQL コンパチビリティは
100%ではありませんが, Big
SQL は複数のベンダーで実装さ
れているSQLのポーティングを
容易にします
Big SQL
Common Query
Compiler/Optimizer
Read & Scan
Optimized
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
ANSI SQL 2003/2011+
Hive
Storage
Hive
metastore
12
SQL on Hadoop ソリューションのチャレンジ
ポーティングにも以下の考慮点がある:
 スケジュール
 チューニング(SQLリライト)
 アーキテクチャの違い(データ構造)
Hadoopのアーキテクチャは従来のデータウェアハウスの機
能との間にはチャレンジあり
 すべてはトレードオフ!
 HadoopによりDWHで直面してきた問題の解決も可能
 リレーショナルデータだけではないデータ処理
13
 どのHadoop上のSQLソリューションを使うべきか ???
• ベンダーロックインの有無
 既存DB、DWHからのポーティング
• データの移動
• ワークロードの移動 (SQL)
 Hadoop上のWareHouseを実運用環境へ
• パフォーマンス、拡張性、ワークロードマネージャー
• セルフチューニング
• エンタープライズレベルセキュリティ
 DWHからHadoopへのコネクティビティ
• Federation
• Spark exploitation
 さらなる価値の創造
Agenda
14
パフォーマンスとスケーラビリティ
Why do they matter so much in SQL over Hadoop !
 HadoopのSQLソリューションは既存のRDBMSより遅い
 2x – 10x slower
 重要な機能の欠如 – キャッシュ/インデックス/データ配置 etc….
 未成熟 - オプティマイザやワークロードマネージャ
 これらはRDBMsが長年取り組んできた分野
 RDBMsの特徴的な機能:
 カラムナストレージ
 インメモリDB
 データ圧縮
 このギャップを埋めるには時間が必要
15
北米のテレコム会社のProof of Concept実施結果
以下のチャートはお客様によりBig SQLを評価した際の結果です.
Teradataのデータ増加に対して対応が必要な状況:
Option 1: Teradataの容量をアップして対応 ($$$)
Option 2: Hadoopへのオフロードを実施
7つの複雑なSQLを選択して評価を実施
16
12.0
154.0
345.0
43.0
140.0
3.0
59.0
29.7
154.9
39.2
7.9
26.7
7.1
21.8
0
60
120
180
240
300
360
420
1 2 3 4 5 6 7
Time(sec)
Query Number
Teradata vs. Big SQL Baseline Query Comparison
Elapsed time (secs). Smaller is better
Teradata
Big SQL
Big SQL Query Performance:
at Major North American Telecom
17
Big SQL Concurrency Testing
at Major North American Telecom
0
100
200
300
400
500
600
700
800
900
1 2 3 4 5 6 7
Seconds
Query
User 1
User 2
User 3
User 4
User 5
Query User 1 User 2 User 3 User 4 User 5
1 62.9 39.3 36.2 49.8 48.3
2 379.9 395.4 253.6 372 378.4
3 776.2 768 587.4 773.2 778.3
4 10.8 12 10.7 26.8 10
5 30.7 35.8 29.8 47.5 57.2
6 8.3 8.9 8.8 10 9.5
7 30.1 35.7 27.6 39.1 40.7
Consistent response
times as number of
users grows
18
0
50
100
150
200
250
0 20 40 60 80 100 120
Throughput(Queries/Hour)
Number of Users
Number of Users vs. Throughput
0
2,000
4,000
6,000
8,000
10,000
12,000
14,000
0 50 100 150
TestTime(sec)
Number of Users
Number of Users vs. Test
Time
o Workload throughput peaks at about 10
concurrent users and is consistent for even 100
concurrent users
o Big SQL default workload management (WLM)
ensures memory is not used up, so throughput
does not decrease
o Test time gets proportionally longer after 10
users, as expected
o The test time does not get exponentially
longer with 100 users
Big SQL Workload Throughput for Concurrent Users
at Major North American Telecom
19
チューニング !
Readers
Sorting
Filesystem
Database
Hadoopのチューニングは熟練者であっても大変
Hadoop上のジョブを考慮した数百にのぼるパラメータの最適
値を決定
 さらに個々のクエリについてのチューニングも必要
Big SQLはSelf Tuning Memory Manager (STMM) による自
動チューニング
 メモリ割り当てをモニターして自動でメモリ割り当て
 BigSQL Consumerへのメモリの自動再割り当て
20
Role Based Access
Control
Row Level Security
Colum Level
Security
Separation of Duties
/ Audit
 Apache Rangerは中央集約型のア
クセスコントロールやログ取得を行
うセキュリティフレームワーク.
 Big SQLは現状Rangerとは連携し
ていない. ただし, Hiveではでき
ないセキュリティ機能を提供
 Big SQLの提供するセキュリティ
 GRANT / REVOKE
 列・行レベルマスク
 SQLによる設定
セキュリティ
Security models vary across the vendors
BRANCH
_A
BRANCH
_B
FINANCE
See it in action on YouTube:
https://www.youtube.com/watch?v=N2F
N5h25-_s
21
 どのHadoop上のSQLソリューションを使うべきか ???
• ベンダーロックインの有無
 既存DB、DWHからのポーティング
• データの移動
• ワークロードの移動 (SQL)
 Hadoop上のWareHouseを実運用環境へ
• パフォーマンス、拡張性、ワークロードマネージャー
• セルフチューニング
• エンタープライズレベルセキュリティ
 DWHからHadoopへのコネクティビティ
• Federation
• Spark exploitation
 さらなる価値の創造
Agenda
22
データベースフェデレーション
 データウェアハウスは1つのDBに限らない
 様々なデータソースに分散しているデータにアクセス
• 他システムのデータへのアクセスし
• ソースデータを持っているシステムからデータを取得
Big SQL
Common Query
Compiler/Optimizer
Read & Scan
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
ANSI SQL 2003/2011+
Hive
Storage
Hive
metastore
23
BigSQLとSparkのインテグレーション
Integration is Technology Preview (Big SQL v4.2)
Big SQL
Common Query
Compiler/Optimizer
Spark
Read & Scan
Optimized
Read and
In-Memory Analytics
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
ANSI SQL 2003/2011+
Hive
Storage
Hive
metastore
 Sparkはデータアナリストやデータサイエンティストが利用するインメモリアー
キテクチャ
 SparkとHadoopのDWHとの相互利用は重要
24 HDFS
Big SQL Head Node
Spark Exec.
Big SQL
Worker
Spark Exec.
Big SQL
Worker
Spark Exec.
Big SQL
Worker
Spark Exec.
Big SQL
Worker
= Fast data transfer over
shared memory
Big SQL は Spark インメモリ実行エンジン:
Integration is Technology Preview (Big SQL v4.2)
 Big SQLのHead NodeがSparkを起動
 Spark executors が Big SQL workersと協調動作
 それぞれの実行プロセスが共有メモリを通じて協調動作
25
 どのHadoop上のSQLソリューションを使うべきか ???
• ベンダーロックインの有無
 既存DB、DWHからのポーティング
• データの移動
• ワークロードの移動 (SQL)
 Hadoop上のWareHouseを実運用環境へ
• パフォーマンス、拡張性、ワークロードマネージャー
• セルフチューニング
• エンタープライズレベルセキュリティ
 DWHからHadoopへのコネクティビティ
• Federation
• Spark exploitation
 さらなる価値の創造
Agenda
26
SQL
分析のための
アドホックな
データ整形
フェデレー
ション
キーバリュー
の高速なデー
タストア
少数ユーザー
によるアド
ホックなクエ
リ
ELT や単純で,
巨大なデータ
を処理するク
エリ
多数のユー
ザーが接続す
る環境での複
雑なSQL
オペレーショ
ナルデータス
トア
Big SQL
Hive Spark SQL
Big SQL
HBase
Big SQL
Phoenix
Spark SQL
Hive
Big SQL
HBase
Big SQL
Phoenix
SQL over Hadoop ユースケース
27
 Operational Data Stores はAnalyticsの組織において重要
 Hadoop上でUpdateやDeleteを実行するのは難しい
 HBaseはHadoopのベースコンポーネントの一つであり、キ
ーバリュー型
 ODSとしての利用は可能だがSQLの実行はできない
 Apache Phoenix はSQLインターフェースを提供
 Non-ANSI SQL
 セキュリティモデルとユーザー認証
 HiveとHBaseには別のConnectionが必要
 HiveとHBaseのテーブルのjoinは現在開発中.No ETA.
OLTP
Warehouse
ODS
Operational Data Store (ODS) on Hadoop
28
Building an Operational Data Store on Hadoop with Big SQL
 Big SQLならHBaseでもANSI SQLを利用可能
 1接続でHiveとHBaseにアクセス
 1つのJDBC/ODBCドライバ
 統合されたセキュリティ機能
 Hive,HBase間のJoin
 BigSQLのテーブルを
ODSとして利用可能
Big SQL
Common Query
Compiler/Optimizer
Spark
Read & Scan
Optimized
Insert/Update/Delete
Lookup
Optimized
Read and
In-Memory Analytics
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
Native
tables (row &
column)
ANSI SQL 2003/2011+
HBaseHive
Storage
Hive
metastore
Regular RDBMs tables.
29
Building an OLTP system on Hadoop using Big SQL
 HBaseは小範囲のルックアップや更新処理には優れるため、OLTP的な利用
も可能
 OLTPワークロードにはBigSQL・ローカルテーブルの利用も可能
Big SQL
Common Query
Compiler/Optimizer
Spark
Read & Scan
Optimized
Insert/Update/Delete
Lookup
Optimized
Read and
In-Memory Analytics
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
Native
tables (row &
column)
ANSI SQL 2003/2011+
HBaseHive
Storage
Hive
metastore
Regular RDBMs tables.
30
サマリ: HadoopのData Warehouse
 ベンダーロックインは避ける
– Hive metastoreとストレージモデルを共用
 ワークロードの移動・移行はできるだけシンプルに
 RDBMSで利用していた機能に関しても考慮 (Grantなど)
 他のデータソースへの接続を考慮
 Sparkとの利用を考慮
SQL on Hadoop を積極的に使いましょう
– 単なるDWHよりも多くの処理が可能です
31
Big SQL エコシステム
Big SQL
Common Query
Compiler/Optimizer
Spark
Read & Scan
Optimized
Insert/Update/Delete
Lookup
Optimized
Read and
In-Memory Analytics
Optimized
Federation
Oracle
SQL
Server
Teradata
DB2
IBM IOP
Hadoop
Hortonworks
HDP Hadoop
Native
tables (row &
column)
ANSI SQL 2003/2011+
HBaseHive
Storage
Hive
metastore
Regular RDBMs tables.

More Related Content

What's hot

HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureDataWorks Summit
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandradatastaxjp
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-publicYifeng Jiang
 
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for EveryoneApache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for EveryoneYifeng Jiang
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
HAWQをCDHで動かしてみた
HAWQをCDHで動かしてみたHAWQをCDHで動かしてみた
HAWQをCDHで動かしてみたadachij2002
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_FdwKohei KaiGai
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Makoto Sato
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!Nagato Kasaki
 
OLAP options on Hadoop
OLAP options on HadoopOLAP options on Hadoop
OLAP options on HadoopYuta Imai
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014Cloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan
 

What's hot (20)

HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructureHDInsight & CosmosDB - Global IoT · Big data processing infrastructure
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
 
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for EveryoneApache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
HAWQをCDHで動かしてみた
HAWQをCDHで動かしてみたHAWQをCDHで動かしてみた
HAWQをCDHで動かしてみた
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
 
OLAP options on Hadoop
OLAP options on HadoopOLAP options on Hadoop
OLAP options on Hadoop
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
 

Viewers also liked

From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...
From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...
From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...DataWorks Summit/Hadoop Summit
 
A Container-based Sizing Framework for Apache Hadoop/Spark Clusters
A Container-based Sizing Framework for Apache Hadoop/Spark ClustersA Container-based Sizing Framework for Apache Hadoop/Spark Clusters
A Container-based Sizing Framework for Apache Hadoop/Spark ClustersDataWorks Summit/Hadoop Summit
 
Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...
Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...
Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...DataWorks Summit/Hadoop Summit
 
Generating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNE
Generating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNEGenerating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNE
Generating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNEDataWorks Summit/Hadoop Summit
 
Network for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPANNetwork for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPANDataWorks Summit/Hadoop Summit
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...DataWorks Summit/Hadoop Summit
 
How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...
How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...
How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...DataWorks Summit/Hadoop Summit
 
Major advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL complianceMajor advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL complianceDataWorks Summit/Hadoop Summit
 
Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...DataWorks Summit/Hadoop Summit
 
Using Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataUsing Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataDataWorks Summit/Hadoop Summit
 

Viewers also liked (20)

From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...
From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...
From a single droplet to a full bottle, our journey to Hadoop at Coca-Cola Ea...
 
Comparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBaseComparison of Transactional Libraries for HBase
Comparison of Transactional Libraries for HBase
 
A Container-based Sizing Framework for Apache Hadoop/Spark Clusters
A Container-based Sizing Framework for Apache Hadoop/Spark ClustersA Container-based Sizing Framework for Apache Hadoop/Spark Clusters
A Container-based Sizing Framework for Apache Hadoop/Spark Clusters
 
Rebuilding Web Tracking Infrastructure for Scale
Rebuilding Web Tracking Infrastructure for ScaleRebuilding Web Tracking Infrastructure for Scale
Rebuilding Web Tracking Infrastructure for Scale
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
SEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile gamesSEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile games
 
Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...
Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...
Leveraging smart meter data for electric utilities: Comparison of Spark SQL w...
 
Generating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNE
Generating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNEGenerating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNE
Generating Recommendations at Amazon Scale with Apache Spark and Amazon DSSTNE
 
#HSTokyo16 Apache Spark Crash Course
#HSTokyo16 Apache Spark Crash Course #HSTokyo16 Apache Spark Crash Course
#HSTokyo16 Apache Spark Crash Course
 
Network for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPANNetwork for the Large-scale Hadoop cluster at Yahoo! JAPAN
Network for the Large-scale Hadoop cluster at Yahoo! JAPAN
 
Hadoop Summit Tokyo HDP Sandbox Workshop
Hadoop Summit Tokyo HDP Sandbox Workshop Hadoop Summit Tokyo HDP Sandbox Workshop
Hadoop Summit Tokyo HDP Sandbox Workshop
 
Hadoop Summit Tokyo Apache NiFi Crash Course
Hadoop Summit Tokyo Apache NiFi Crash CourseHadoop Summit Tokyo Apache NiFi Crash Course
Hadoop Summit Tokyo Apache NiFi Crash Course
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
 
Why is my Hadoop cluster slow?
Why is my Hadoop cluster slow?Why is my Hadoop cluster slow?
Why is my Hadoop cluster slow?
 
How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...
How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...
How to overcome mysterious problems caused by large and multi-tenancy Hadoop ...
 
Streamline Hadoop DevOps with Apache Ambari
Streamline Hadoop DevOps with Apache AmbariStreamline Hadoop DevOps with Apache Ambari
Streamline Hadoop DevOps with Apache Ambari
 
Apache Hadoop 3.0 What's new in YARN and MapReduce
Apache Hadoop 3.0 What's new in YARN and MapReduceApache Hadoop 3.0 What's new in YARN and MapReduce
Apache Hadoop 3.0 What's new in YARN and MapReduce
 
Major advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL complianceMajor advancements in Apache Hive towards full support of SQL compliance
Major advancements in Apache Hive towards full support of SQL compliance
 
Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...Data infrastructure architecture for medium size organization: tips for colle...
Data infrastructure architecture for medium size organization: tips for colle...
 
Using Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch dataUsing Hadoop to build a Data Quality Service for both real-time and batch data
Using Hadoop to build a Data Quality Service for both real-time and batch data
 

Similar to The truth about SQL and Data Warehousing on Hadoop

Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase ReportSeiichiro Ishida
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTeruo Kawasaki
 
Dbts2015 tokyo vector_in_hadoop_vortex
Dbts2015 tokyo vector_in_hadoop_vortexDbts2015 tokyo vector_in_hadoop_vortex
Dbts2015 tokyo vector_in_hadoop_vortexKoji Shinkubo
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2Dell TechCenter Japan
 
Snowflake Architecture and Performance
Snowflake Architecture and PerformanceSnowflake Architecture and Performance
Snowflake Architecture and PerformanceMineaki Motohashi
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)Akira Shimosako
 
BdasとSpark概要
BdasとSpark概要BdasとSpark概要
BdasとSpark概要Yu Ishikawa
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 
Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)
Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)
Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)Masayuki Ozawa
 
実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターンHiroyasu Suzuki
 
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...Insight Technology, Inc.
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)オラクルエンジニア通信
 
Denali ctp3 always on availability groups 概要
Denali ctp3 always on  availability groups 概要Denali ctp3 always on  availability groups 概要
Denali ctp3 always on availability groups 概要Masayuki Ozawa
 

Similar to The truth about SQL and Data Warehousing on Hadoop (20)

Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase Report
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
Dbts2015 tokyo vector_in_hadoop_vortex
Dbts2015 tokyo vector_in_hadoop_vortexDbts2015 tokyo vector_in_hadoop_vortex
Dbts2015 tokyo vector_in_hadoop_vortex
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2
 
Snowflake Architecture and Performance
Snowflake Architecture and PerformanceSnowflake Architecture and Performance
Snowflake Architecture and Performance
 
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
BdasとSpark概要
BdasとSpark概要BdasとSpark概要
BdasとSpark概要
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)
Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)
Sql server 2012 の新機能を 3 つの視点でご紹介(大阪版)
 
実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン実践!AWSクラウドデザインパターン
実践!AWSクラウドデザインパターン
 
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
 
Denali ctp3 always on availability groups 概要
Denali ctp3 always on  availability groups 概要Denali ctp3 always on  availability groups 概要
Denali ctp3 always on availability groups 概要
 
Reflex works20120818 1
Reflex works20120818 1Reflex works20120818 1
Reflex works20120818 1
 

More from DataWorks Summit/Hadoop Summit

Unleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerUnleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerDataWorks Summit/Hadoop Summit
 
Enabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformEnabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformDataWorks Summit/Hadoop Summit
 
Double Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDouble Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDataWorks Summit/Hadoop Summit
 
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...DataWorks Summit/Hadoop Summit
 
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...DataWorks Summit/Hadoop Summit
 
Mool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLMool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLDataWorks Summit/Hadoop Summit
 
The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)DataWorks Summit/Hadoop Summit
 
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...DataWorks Summit/Hadoop Summit
 

More from DataWorks Summit/Hadoop Summit (20)

Running Apache Spark & Apache Zeppelin in Production
Running Apache Spark & Apache Zeppelin in ProductionRunning Apache Spark & Apache Zeppelin in Production
Running Apache Spark & Apache Zeppelin in Production
 
State of Security: Apache Spark & Apache Zeppelin
State of Security: Apache Spark & Apache ZeppelinState of Security: Apache Spark & Apache Zeppelin
State of Security: Apache Spark & Apache Zeppelin
 
Unleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache RangerUnleashing the Power of Apache Atlas with Apache Ranger
Unleashing the Power of Apache Atlas with Apache Ranger
 
Enabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science PlatformEnabling Digital Diagnostics with a Data Science Platform
Enabling Digital Diagnostics with a Data Science Platform
 
Revolutionize Text Mining with Spark and Zeppelin
Revolutionize Text Mining with Spark and ZeppelinRevolutionize Text Mining with Spark and Zeppelin
Revolutionize Text Mining with Spark and Zeppelin
 
Double Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSenseDouble Your Hadoop Performance with Hortonworks SmartSense
Double Your Hadoop Performance with Hortonworks SmartSense
 
Hadoop Crash Course
Hadoop Crash CourseHadoop Crash Course
Hadoop Crash Course
 
Data Science Crash Course
Data Science Crash CourseData Science Crash Course
Data Science Crash Course
 
Apache Spark Crash Course
Apache Spark Crash CourseApache Spark Crash Course
Apache Spark Crash Course
 
Dataflow with Apache NiFi
Dataflow with Apache NiFiDataflow with Apache NiFi
Dataflow with Apache NiFi
 
Schema Registry - Set you Data Free
Schema Registry - Set you Data FreeSchema Registry - Set you Data Free
Schema Registry - Set you Data Free
 
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...
 
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...
 
Mool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and MLMool - Automated Log Analysis using Data Science and ML
Mool - Automated Log Analysis using Data Science and ML
 
How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient How Hadoop Makes the Natixis Pack More Efficient
How Hadoop Makes the Natixis Pack More Efficient
 
HBase in Practice
HBase in Practice HBase in Practice
HBase in Practice
 
The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)The Challenge of Driving Business Value from the Analytics of Things (AOT)
The Challenge of Driving Business Value from the Analytics of Things (AOT)
 
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS HadoopBreaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop
 
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
From Regulatory Process Verification to Predictive Maintenance and Beyond wit...
 
Backup and Disaster Recovery in Hadoop
Backup and Disaster Recovery in Hadoop Backup and Disaster Recovery in Hadoop
Backup and Disaster Recovery in Hadoop
 

Recently uploaded

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Recently uploaded (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

The truth about SQL and Data Warehousing on Hadoop

  • 1. How to build a successful Data Warehouse on Hadoop Simon Harris, Senior Performance Architect, Big Data. IBM. 貝嶋創, Technical Sales, BigData, IBM
  • 2. 2  どのHadoop上のSQLソリューションを使うべきか ??? • ベンダーロックインの有無  既存DB、DWHからのポーティング • データの移動 • ワークロードの移動 (SQL)  Hadoop上のWareHouseを実運用環境へ • パフォーマンス、拡張性、ワークロードマネージャー • セルフチューニング • エンタープライズレベルセキュリティ  DWHからHadoopへのコネクティビティ • Federation • Spark exploitation  さらなる価値の創造 Agenda
  • 4. 4 Hadoop上のSQLエンジンの多数の選択肢 – 何を選択するか ??  SQLエンジンは多数発表されており、信じられないペースで成熟してい ます!  SQL on Hadoop はローコストで,簡単にスケールアウトできます.  ただし、すべてのエンジンは長所・短所があります, 何を選択すればよいでしょうか? IBM Big SQL SQL
  • 5. 5 Hive Execution Engine (open source) そもそもHiveとは… 3つの構成要素 Hive (Open Source) Hive Storage Model (open source) Hive metastore (open source) MapReduce CSV Tab Delim . Parquet ORC Others 1 23
  • 6. 6 Hive Execution Engine (open source) 実行エンジンは変換が可能 Hive Metastoreとファイル(フォーマット)を活用 Big SQL (IBM) Hive (Open Source) Hive Storage Model (open source) Hive metastore (open source) C/C++ MPP Engine Spark SQL (Open Source) Impala (Open Source) CSV Tab Delim . Parquet ORC Others • Big SQL は他のオープンソースエンジンと同様の構成 • ロックインしません. データはHadoopが管理します. いつでもHive環境に戻 ることが可能.
  • 7. 7 ODPi Interoperable Solutions ODPi is a nonprofit organization committed to simplification & standardization of the big data ecosystem. As a shared industry effort , ODPi is focused on promoting and advancing the state of Apache Hadoop® and big data technologies for the enterprise. See https://www.odpi.org/ for more details. 7  Open Data Platform initiative (ODPi) は ディストリビューションの標準化と, Hadoop エコシステムの発展を促進  Big SQL v4.2 はODPi での運用が可 能であり, IBM と HortonWorks のHadoop ディストリビューション で動作. ODPi: ディストリビューション間での相互運用性 ODPi Runtime Compliant Platforms ODPi Runtime Specification HDFS YARN MapReduce Hive HCFS Big SQL (IBM)
  • 8. 8  どのHadoop上のSQLソリューションを使うべきか ??? • ベンダーロックインの有無  既存DB、DWHからのポーティング • データの移動 • ワークロードの移動 (SQL)  Hadoop上のWareHouseを実運用環境へ • パフォーマンス、拡張性、ワークロードマネージャー • セルフチューニング • エンタープライズレベルセキュリティ  DWHからHadoopへのコネクティビティ • Federation • Spark exploitation  さらなる価値の創造 Agenda
  • 9. 9 既存のDWHからHadoop WareHouseへどのように移動するの か?  データ移動はシンプル – 問題は時間だけ!  データ移動に関するツールやテクニックはすでに広く知られている $$$ $ EXPORT -> COPY TO HDFS Sqoop Federation: INSERT..SELECT..  Storage format ?  Partitioning Columns ?
  • 10. 10 問題はSQLアプリケーションの移動!  DWHは複雑なSQLを実行,移植ができるのか?  RDBMSのベンダーはそれぞれ独自の構文や関数を持っている – ANSI SQL準拠に加えて  SQL over Hadoop ベンダーによるSQLスタンダード対応は途上  急速に改善されては来ていますが… Query re-writes ? Porting is made simpler if the SQL over Hadoop solution is ANSI Compliant, and can understand the SQL dialect of the original Warehouse.
  • 11. 11 Big SQL は様々なベンダーのSQLを実行可能. Porting effort to Hadoop will be reduced. Big SQL は ANSI SQL 対応だけではなく、 DB2, Oracle, Netezza のSQLを実行可能です SQL コンパチビリティは 100%ではありませんが, Big SQL は複数のベンダーで実装さ れているSQLのポーティングを 容易にします Big SQL Common Query Compiler/Optimizer Read & Scan Optimized IBM IOP Hadoop Hortonworks HDP Hadoop ANSI SQL 2003/2011+ Hive Storage Hive metastore
  • 12. 12 SQL on Hadoop ソリューションのチャレンジ ポーティングにも以下の考慮点がある:  スケジュール  チューニング(SQLリライト)  アーキテクチャの違い(データ構造) Hadoopのアーキテクチャは従来のデータウェアハウスの機 能との間にはチャレンジあり  すべてはトレードオフ!  HadoopによりDWHで直面してきた問題の解決も可能  リレーショナルデータだけではないデータ処理
  • 13. 13  どのHadoop上のSQLソリューションを使うべきか ??? • ベンダーロックインの有無  既存DB、DWHからのポーティング • データの移動 • ワークロードの移動 (SQL)  Hadoop上のWareHouseを実運用環境へ • パフォーマンス、拡張性、ワークロードマネージャー • セルフチューニング • エンタープライズレベルセキュリティ  DWHからHadoopへのコネクティビティ • Federation • Spark exploitation  さらなる価値の創造 Agenda
  • 14. 14 パフォーマンスとスケーラビリティ Why do they matter so much in SQL over Hadoop !  HadoopのSQLソリューションは既存のRDBMSより遅い  2x – 10x slower  重要な機能の欠如 – キャッシュ/インデックス/データ配置 etc….  未成熟 - オプティマイザやワークロードマネージャ  これらはRDBMsが長年取り組んできた分野  RDBMsの特徴的な機能:  カラムナストレージ  インメモリDB  データ圧縮  このギャップを埋めるには時間が必要
  • 15. 15 北米のテレコム会社のProof of Concept実施結果 以下のチャートはお客様によりBig SQLを評価した際の結果です. Teradataのデータ増加に対して対応が必要な状況: Option 1: Teradataの容量をアップして対応 ($$$) Option 2: Hadoopへのオフロードを実施 7つの複雑なSQLを選択して評価を実施
  • 16. 16 12.0 154.0 345.0 43.0 140.0 3.0 59.0 29.7 154.9 39.2 7.9 26.7 7.1 21.8 0 60 120 180 240 300 360 420 1 2 3 4 5 6 7 Time(sec) Query Number Teradata vs. Big SQL Baseline Query Comparison Elapsed time (secs). Smaller is better Teradata Big SQL Big SQL Query Performance: at Major North American Telecom
  • 17. 17 Big SQL Concurrency Testing at Major North American Telecom 0 100 200 300 400 500 600 700 800 900 1 2 3 4 5 6 7 Seconds Query User 1 User 2 User 3 User 4 User 5 Query User 1 User 2 User 3 User 4 User 5 1 62.9 39.3 36.2 49.8 48.3 2 379.9 395.4 253.6 372 378.4 3 776.2 768 587.4 773.2 778.3 4 10.8 12 10.7 26.8 10 5 30.7 35.8 29.8 47.5 57.2 6 8.3 8.9 8.8 10 9.5 7 30.1 35.7 27.6 39.1 40.7 Consistent response times as number of users grows
  • 18. 18 0 50 100 150 200 250 0 20 40 60 80 100 120 Throughput(Queries/Hour) Number of Users Number of Users vs. Throughput 0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 0 50 100 150 TestTime(sec) Number of Users Number of Users vs. Test Time o Workload throughput peaks at about 10 concurrent users and is consistent for even 100 concurrent users o Big SQL default workload management (WLM) ensures memory is not used up, so throughput does not decrease o Test time gets proportionally longer after 10 users, as expected o The test time does not get exponentially longer with 100 users Big SQL Workload Throughput for Concurrent Users at Major North American Telecom
  • 19. 19 チューニング ! Readers Sorting Filesystem Database Hadoopのチューニングは熟練者であっても大変 Hadoop上のジョブを考慮した数百にのぼるパラメータの最適 値を決定  さらに個々のクエリについてのチューニングも必要 Big SQLはSelf Tuning Memory Manager (STMM) による自 動チューニング  メモリ割り当てをモニターして自動でメモリ割り当て  BigSQL Consumerへのメモリの自動再割り当て
  • 20. 20 Role Based Access Control Row Level Security Colum Level Security Separation of Duties / Audit  Apache Rangerは中央集約型のア クセスコントロールやログ取得を行 うセキュリティフレームワーク.  Big SQLは現状Rangerとは連携し ていない. ただし, Hiveではでき ないセキュリティ機能を提供  Big SQLの提供するセキュリティ  GRANT / REVOKE  列・行レベルマスク  SQLによる設定 セキュリティ Security models vary across the vendors BRANCH _A BRANCH _B FINANCE See it in action on YouTube: https://www.youtube.com/watch?v=N2F N5h25-_s
  • 21. 21  どのHadoop上のSQLソリューションを使うべきか ??? • ベンダーロックインの有無  既存DB、DWHからのポーティング • データの移動 • ワークロードの移動 (SQL)  Hadoop上のWareHouseを実運用環境へ • パフォーマンス、拡張性、ワークロードマネージャー • セルフチューニング • エンタープライズレベルセキュリティ  DWHからHadoopへのコネクティビティ • Federation • Spark exploitation  さらなる価値の創造 Agenda
  • 22. 22 データベースフェデレーション  データウェアハウスは1つのDBに限らない  様々なデータソースに分散しているデータにアクセス • 他システムのデータへのアクセスし • ソースデータを持っているシステムからデータを取得 Big SQL Common Query Compiler/Optimizer Read & Scan Optimized Federation Oracle SQL Server Teradata DB2 IBM IOP Hadoop Hortonworks HDP Hadoop ANSI SQL 2003/2011+ Hive Storage Hive metastore
  • 23. 23 BigSQLとSparkのインテグレーション Integration is Technology Preview (Big SQL v4.2) Big SQL Common Query Compiler/Optimizer Spark Read & Scan Optimized Read and In-Memory Analytics Optimized Federation Oracle SQL Server Teradata DB2 IBM IOP Hadoop Hortonworks HDP Hadoop ANSI SQL 2003/2011+ Hive Storage Hive metastore  Sparkはデータアナリストやデータサイエンティストが利用するインメモリアー キテクチャ  SparkとHadoopのDWHとの相互利用は重要
  • 24. 24 HDFS Big SQL Head Node Spark Exec. Big SQL Worker Spark Exec. Big SQL Worker Spark Exec. Big SQL Worker Spark Exec. Big SQL Worker = Fast data transfer over shared memory Big SQL は Spark インメモリ実行エンジン: Integration is Technology Preview (Big SQL v4.2)  Big SQLのHead NodeがSparkを起動  Spark executors が Big SQL workersと協調動作  それぞれの実行プロセスが共有メモリを通じて協調動作
  • 25. 25  どのHadoop上のSQLソリューションを使うべきか ??? • ベンダーロックインの有無  既存DB、DWHからのポーティング • データの移動 • ワークロードの移動 (SQL)  Hadoop上のWareHouseを実運用環境へ • パフォーマンス、拡張性、ワークロードマネージャー • セルフチューニング • エンタープライズレベルセキュリティ  DWHからHadoopへのコネクティビティ • Federation • Spark exploitation  さらなる価値の創造 Agenda
  • 27. 27  Operational Data Stores はAnalyticsの組織において重要  Hadoop上でUpdateやDeleteを実行するのは難しい  HBaseはHadoopのベースコンポーネントの一つであり、キ ーバリュー型  ODSとしての利用は可能だがSQLの実行はできない  Apache Phoenix はSQLインターフェースを提供  Non-ANSI SQL  セキュリティモデルとユーザー認証  HiveとHBaseには別のConnectionが必要  HiveとHBaseのテーブルのjoinは現在開発中.No ETA. OLTP Warehouse ODS Operational Data Store (ODS) on Hadoop
  • 28. 28 Building an Operational Data Store on Hadoop with Big SQL  Big SQLならHBaseでもANSI SQLを利用可能  1接続でHiveとHBaseにアクセス  1つのJDBC/ODBCドライバ  統合されたセキュリティ機能  Hive,HBase間のJoin  BigSQLのテーブルを ODSとして利用可能 Big SQL Common Query Compiler/Optimizer Spark Read & Scan Optimized Insert/Update/Delete Lookup Optimized Read and In-Memory Analytics Optimized Federation Oracle SQL Server Teradata DB2 IBM IOP Hadoop Hortonworks HDP Hadoop Native tables (row & column) ANSI SQL 2003/2011+ HBaseHive Storage Hive metastore Regular RDBMs tables.
  • 29. 29 Building an OLTP system on Hadoop using Big SQL  HBaseは小範囲のルックアップや更新処理には優れるため、OLTP的な利用 も可能  OLTPワークロードにはBigSQL・ローカルテーブルの利用も可能 Big SQL Common Query Compiler/Optimizer Spark Read & Scan Optimized Insert/Update/Delete Lookup Optimized Read and In-Memory Analytics Optimized Federation Oracle SQL Server Teradata DB2 IBM IOP Hadoop Hortonworks HDP Hadoop Native tables (row & column) ANSI SQL 2003/2011+ HBaseHive Storage Hive metastore Regular RDBMs tables.
  • 30. 30 サマリ: HadoopのData Warehouse  ベンダーロックインは避ける – Hive metastoreとストレージモデルを共用  ワークロードの移動・移行はできるだけシンプルに  RDBMSで利用していた機能に関しても考慮 (Grantなど)  他のデータソースへの接続を考慮  Sparkとの利用を考慮 SQL on Hadoop を積極的に使いましょう – 単なるDWHよりも多くの処理が可能です
  • 31. 31 Big SQL エコシステム Big SQL Common Query Compiler/Optimizer Spark Read & Scan Optimized Insert/Update/Delete Lookup Optimized Read and In-Memory Analytics Optimized Federation Oracle SQL Server Teradata DB2 IBM IOP Hadoop Hortonworks HDP Hadoop Native tables (row & column) ANSI SQL 2003/2011+ HBaseHive Storage Hive metastore Regular RDBMs tables.