株式会社インサイトテクノロジー
宮地 敬史
Attunity Replicate + Kafka + Hadoop
マルチデータベースによるデータレイクの構築
自己紹介
 データベースエンジニア(一応、マルチDB)
 最近は、データベース間のデータ連携についての
案件に従事することが多くなっています
プライベートなことですが・・・
 犬x2、猫x4とにぎやかに過ごしています!
Agenda
1. データ分析基盤の構築 / 課題
2. Attunity社製品のご紹介
3. DEMO
4. 導入事例
1.データ分析基盤の構築 / 課題
1. データ分析基盤の構築 / 課題
業務システム Enterprise Data
Warehouse(EDW)
一般的なデータ分析基盤
【課題①】
 データウェアハウスの使用状況
データマート Business
Analytics
Visualization
& Dashboards
データベースシステム
分析系
ETL
・データのうち、50-70%は使用されない
or 使用頻度が低い
・CPUの稼働の、45-65%はETL/ELT
・ETLで使用するCPUのうち、25-35%は、
使用されないデータのロードの為に使われる
・本当にHotなデータは、3%程度
HOTデータ
COLD
データ
【対策】
 ETL処理の外部へのOFFLOAD
 COLDデータを(比較的)安価なDiskに退避
1. データ分析基盤の構築 / 課題
業務システム Enterprise Data
Warehouse(EDW)
一般的なデータ分析基盤
【課題②】
 高付加価値の分析の為には、より
多くのソースデータが必要
データマート Business
Analytics
Visualization
& Dashboards
データベースシステム
分析系
ETL
HOTデータ
COLD
データ
OLTP,ERP,
CRM,etc
ドキュメント,
Eメール
Web Logs,
Click Streams
Social
Networks
Machine
Generated
Sensor
Data
Geolocation
Data
これらのデータも取り込んで
分析をしたい
1. データ分析基盤の構築 / 課題
業務システム Enterprise Data
Warehouse(EDW)
Hadoopを使用したデータ分析基盤の最適化
データマート Business
Analytics
Visualization
& Dashboards
データベースシステム
分析系
HOTデータ
COLDデータ
ETL
OLTP,ERP,
CRM,etc
ドキュメント,
Eメール
Web Logs,
Click Streams
Social
Networks
Machine
Generated
Sensor
Data
Geolocation
Data
Data
Science
新規ソースから
のデータ
COLDデータ/使用頻度が低いデータはHadoopへ
→ より多くのデータをより安く格納
ETL処理はHadoopへ
→ EDWは分析/レポーティングのみ実行
Hadoop上で大規模データのETL
より高度/付加価値の高い分析の為に
→ 非構造化/半構造化データをHadoopに
HadoopでETL処理をしたデータをEDW用に転送
→ 高付加価値の分析
1. データ分析基盤の構築 / 課題
高度な分析
機会
• データディスカバリ
- 新しいデータタイプを結合・検索し、
新しい洞察を見出す
• 様々な角度からユーザーをサポート
- ユーザー価値を高める
• 予測分析
- 予防的メンテナンス
- リソースの最適化
- 行動の洞察
課題
• データ取込み
ソース、テーブルデータを手作業で取り込み
ボトルネック: 熟練したリソースや時間・コスト
の不足
• フレッシュデータ
効率的にデルタの特定や処理が簡単ではない
ボトルネック: 複雑さ、インパクト、パフォーマンス
• 迅速な洞察までにかかる時間
すべてのデータ取込みは開発プロジェクト
ボトルネック: 構築と保守のための手作業の
コーディング
1. データ分析基盤の構築 / 課題
Hadoopを使用したデータ分析基盤の最適化(高度な分析)のために・・・
1. COLDデータ/使用頻度の低いデータの特定
2. より鮮度の高い(ニアリアルタイム)データの連携
2. Attunity社製品のご紹介
Financial Services Manufacturing / Industrials GovernmentHealth Care
Technology / Telecommunications Other Industries
Enterprise Data Management
On Premises | Cloud | Across Platforms
Attunity社 概要
 1988年創業、データ統合において、20年以上にわたる研究開発と経験
 CDC(更新データ捕捉)技術における独立系リーディング企業
 米国、英国、イスラエル、日本、香港、台湾、韓国など、全世界的事業規模
65ヶ国で2,000社以上の顧客
Microsoft with OEM and for over 8 Years
Oracle with OEM for over 13 years
IBM with OEM for over 9 years
Amazon (AWS) as a technology partner
Teradata as a reseller for Data Warehouse /Hadoop market
マイクロソフト、オラクル、IBMやその他の企業から認められ、選ばれた技術
企業のデータ管理に最適なATTUNITYのプラットフォーム
おさらい
Hadoopを使用したデータ分析基盤の最適化(高度な分析)のために・・・
1. COLDデータ/使用頻度の低いデータの特定
2. より鮮度の高い(ニアリアルタイム)データの連携
企業のデータ管理に最適なATTUNITYのプラットフォーム
ATTUNITY VISIBILITYで可能なこと
未使用/頻繁に使われないデータの発見を可視化
おさらい
Hadoopを使用したデータ分析基盤の最適化(高度な分析)のために・・・
1. COLDデータ/使用頻度の低いデータの特定
2. より鮮度の高い(ニアリアルタイム)データの連携
企業のデータ管理に最適なATTUNITYのプラットフォーム
ATTUNITY REPLICATE
 エージェントレス (LUW)
 ブラウザベースのGUIによる簡易設定・監視
 異種データベース間のデータ高速転送・同期
 FULL LOAD(初期コピー)~CDC(変更データ反映)までシームレスに連携
 データのフィルタリング・加工
【Target】【Source】
SQL Server 2005/2008/2012/2014
MySQL 5.5/5.6
Sybase ASE 12.5/15/15.5/16
IMS
PostgresSQL 9.4.2↑(Win) 9.4(Linux)
 主要対応環境
 ロジカルレプリケーション(データベース同期)
Oracle10g/11g/12c
RDBMS
Oracle
SQL Server
DB2 LUW
DB2 iSeries
DB2 z/OS
MySQL
PostgreSQL
Sybase ASE
Informix
Data Warehouse
Exadata
Teradata
Netezza
Vertica
Actian Vector
Actian Matrix
(SAP / HANA)
Hortonworks
Cloudera
MapR
Pivotal
Hadoop
IMS/DB
SQL M/P
Enscribe
RMS
VSAM
Legacy
Amazon RDS
Salesforce
Cloud
RDBMS
Oracle
SQL Server
DB2 LUW
MySQL
PostgreSQL
Sybase ASE
Informix
Data Warehouse
Exadata
Teradata
Netezza
Vertica
Pivotal DB
(Greenplum)
Pivotal HAWQ
Actian Vector
Sybase IQ
SAP / HANA
Hortonworks
Cloudera
MapR
Pivotal
Hadoop
MongoDB
NoSQL
Amazon
RDS/Redshift/EC2
Google Cloud SQL
Azure SQL Data
Warehouse
Cloud
Kafka
Message Broker
targets
sources
Oracle
SQL
DB2
SAP
サポートデータベース
ATTUNITY REPLICATE 構成
Replicate Server
対応OS(64bit)
• Linux Red Hat 6.2 and above
• SUSE Linux 11 and above
• Windows Server 2008
• Windows Server 2012
• Windows 7
推奨H/Wスペック
 CPU : Quad core ~8core↑
 Memory : 8GB~64GB↑
 Disk : 320GB~500GB
 Network : 1Gbps~10Gbps×2
SOURCE
DATABASE
TARGET
DATABASE
Read Write
Full Load
Change Data Capture
ATTUNITY REPLICATE アーキテクチャ
ATTUNITY REPLICATE アーキテクチャ
Attunity Replicate for Enterprise Hadoop
Attunity Replicate for Enterprise Hadoop
What’s and Why Hortonworks?
What’s and Why Hortonworks?
What’s and Why Hortonworks?
ATTUNITY REPLICATE CDCテクノロジーと
HORTONWORKS HDP/HDF
CDC HDF
自動データ取込み HDP/HDFデータレイクの
迅速な開発
チェンジデータキャプチャ
(CDC)で増分更新
リアルタイムビッグデータ分析
用に継続的な
データレイク分析
多様なデータソースに対応 データベース、DWH、メイン
フレームに対応
Kafkaへのデータストリーミング → HDF → HDP
3. DEMO
Oracle 11gR2
デモ環境
Oracle 10gR2
4. 事例のご紹介
導入事例: アメリカ 某自動車製造メーカー
•グローバルな分析を中央集中化すること
•迅速な洞察と競合他社に対する強みを見出すこと
4,500 applications
DB2 MF SQL Oracle
全世界に社員数20万人、
50工場
• 多様なアプリケーション、地理情報に関する大量のデータ
• 分析の遅延 => 機会損失
Challenges
•KafkaデータブローカーでHadoopデータレイク上に一元管理
•Attunity Replicateで全ソース/ターゲットを最小時間で統合
•約1,000,000ドル(1億円)削減
Goals
Goals
ELT
導入事例: アメリカ 某自動車製造メーカー
Single Analytic Environment
Oracle, SQLServer,DB2,
Teradata, etc
※200以上のデータソース
まとめ
業務システム Enterprise Data
Warehouse(EDW)
COLDデータ/使用頻度の低いデータの特定
データマート Business
Analytics
Visualization
& Dashboards
データベースシステム
分析系
ELT
HOTデータ
COLD
データ
まとめ
業務システム Enterprise Data
Warehouse(EDW)
多様なソースデータを(ニア)リアルタイムに簡単に連携
データマート Business
Analytics
Visualization
& Dashboards
データベースシステム
分析系
HOTデータ
COLDデータ
ELT
OLTP,ERP,
CRM,etc
ドキュメント,
Eメール
Web Logs,
Click Streams
Social
Networks
Machine
Generated
Sensor
Data
Geolocation
Data
Data
Science
新規ソースから
のデータ
記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。
Copyright 2017 Insight Technology, Inc. All Rights Reserved.
ございました

[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータベースによるデータレイクの構築 by 株式会社インサイトテクノロジー 宮地 敬史