Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケートしよう!』

66 views

Published on

[db tech showcase Tokyo 2018] #dbts2018 #E28
『Hadoop DataLakeにリアルタイムでデータをレプリケートしよう!』
株式会社インサイトテクノロジー - プロダクトコンサルティング事業部 シニアマネージャー 宮地 敬史

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケートしよう!』

  1. 1. 株式会社インサイトテクノロジー 宮地 敬史 Hadoop DataLakeにリアルタイムでデータを レプリケートしよう!
  2. 2. 自己紹介  データベースエンジニア(一応、マルチDB)  最近は、データベース間のデータ連携についての 案件に従事することが多くなっています プライベートなことですが・・・  犬x2、猫x4とにぎやかに過ごしています!
  3. 3. Agenda 1. データ分析基盤の構築 / 課題 2. Attunity社製品のご紹介 3. DEMO 4. 導入事例
  4. 4. 1.データ分析基盤の構築 / 課題
  5. 5. 1. データ分析基盤の構築 / 課題 業務システム Enterprise Data Warehouse(EDW) これまでの一般的なデータ分析基盤 【課題①】  データウェアハウスの使用状況 データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 ETL ・データのうち、50-70%は使用されない or 使用頻度が低い ・CPUの稼働の、45-65%はETL/ELT ・ETLで使用するCPUのうち、25-35%は、 使用されないデータのロードの為に使われる ・本当にHotなデータは、3%程度 HOTデータ COLD データ 【対策】  ETL処理の外部へのOFFLOAD  COLDデータを(比較的)安価なDiskに退避 OLTP,ERP, CRM,etc バッチ処理
  6. 6. 1. データ分析基盤の構築 / 課題 業務システム Enterprise Data Warehouse(EDW) これまでの一般的なデータ分析基盤 【課題②】  高付加価値の分析の為には、 過去データを含め、より多くの ソースデータが必要 データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 ETL ドキュメント, Eメール Web Logs, Click Streams Social Networks Machine Generated Sensor Data Geolocation Data これらのデータも取り込んで 分析をしたい バッチ処理 OLTP,ERP, CRM,etc
  7. 7. 1. データ分析基盤の構築 / 課題 業務システム Enterprise Data Warehouse(EDW) Hadoopを使用したデータ分析基盤 データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 ETL ドキュメント, Eメール Web Logs, Click Streams Social Networks Machine Generated Sensor Data Geolocation Data Data Science 新規ソースから のデータ より高度/付加価値の高い分析の為に → 非構造化/半構造化データをHadoopに ETL バッチ処理 HadoopでETL処理をしたデータをEDW用に転送 → 高付加価値の分析 HOTデータ COLD データ OLTP,ERP, CRM,etc 時間が掛かる 時間が掛かる
  8. 8. 1. データ分析基盤の構築 / 課題 業務システム Enterprise Data Warehouse(EDW) Hadoopを使用したデータ分析基盤の最適化① データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 COLDデータ ETL ドキュメント, Eメール Web Logs, Click Streams Social Networks Machine Generated Sensor Data Geolocation Data Data Science 新規ソースから のデータ バッチ処理 バッチ処理 COLDデータ/使用頻度が低いデータはHadoopへ → より多くのデータをより安く格納 ETL処理はHadoopへ → EDWは分析/レポーティングのみ実行 Hadoop上で大規模データのETL より高度/付加価値の高い分析の為に → 非構造化/半構造化データをHadoopに HadoopでETL処理をしたデータをEDW用に転送 → 高付加価値の分析 OLTP,ERP, CRM,etc 時間が掛かる 時間が掛かる HOTデータ COLD データ
  9. 9. 1. データ分析基盤の構築 / 課題 業務システム Enterprise Data Warehouse(EDW) Hadoopを使用したデータ分析基盤の最適化② データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 HOTデータ COLDデータ ETL ドキュメント, Eメール Web Logs, Click Streams Social Networks Machine Generated Sensor Data Geolocation Data Data Science 新規ソースから のデータ より高度/付加価値の高い分析の為に → 非構造化/半構造化データをHadoopに バッチ処理 HadoopでETL処理をしたデータをEDW用に転送 → 高付加価値の分析 バッチ処理 OLTP,ERP, CRM,etc バッチ処理 業務システム からのデータ 処理に必要な更新データのリアルタイム送信
  10. 10. 1. データ分析基盤の構築 / 課題 Hadoopを使用したデータ分析基盤の最適化(高度な分析)のために・・・ 1. COLDデータ/使用頻度の低いデータの特定 2. より鮮度の高い(ニアリアルタイム)データの連携
  11. 11. 1. データ分析基盤の構築 / 課題 高度な分析 機会 • データディスカバリ - 新しいデータタイプを結合・検索し、 新しい洞察を見出す • 様々な角度からユーザーをサポート - ユーザー価値を高める • 予測分析 - 予防的メンテナンス - リソースの最適化 - 行動の洞察 課題 • データ取込み ソース、テーブルデータを手作業で取り込み ボトルネック: 熟練したリソースや時間・コストの不足 • フレッシュデータ 効率的なデルタの特定/処理が簡単ではない ボトルネック: 複雑さ、インパクト、パフォーマンス • 迅速な洞察までにかかる時間 すべてのデータ取込みは開発プロジェクト ボトルネック: 構築/保守時の手作業のコーディング
  12. 12. 2. Attunity社製品のご紹介
  13. 13. Financial Services Manufacturing / Industrials GovernmentHealth Care Technology / Telecommunications Other Industries Enterprise Data Management On Premises | Cloud | Across Platforms Attunity社 概要  1988年創業、データ統合において、20年以上にわたる研究開発と経験  CDC(更新データ捕捉)技術における独立系リーディング企業  米国、英国、イスラエル、日本、香港、台湾、韓国など、全世界的事業規模 65ヶ国で2,000社以上の顧客
  14. 14. Microsoft with OEM and for over 8 Years Oracle with OEM for over 13 years IBM with OEM for over 9 years Amazon (AWS) as a technology partner Teradata as a reseller for Data Warehouse /Hadoop market マイクロソフト、オラクル、IBMやその他の企業から認められ、選ばれた技術
  15. 15. 企業のデータ管理に最適なATTUNITYのプラットフォーム
  16. 16. おさらい Hadoopを使用したデータ分析基盤の最適化(高度な分析)のために・・・ 1. COLDデータ/使用頻度の低いデータの特定 2. より鮮度の高い(ニアリアルタイム)データの連携
  17. 17. 企業のデータ管理に最適なATTUNITYのプラットフォーム
  18. 18. ATTUNITY VISIBILITYで可能なこと 未使用/頻繁に使われないデータを可視化
  19. 19. おさらい Hadoopを使用したデータ分析基盤の最適化(高度な分析)のために・・・ 1. COLDデータ/使用頻度の低いデータの特定 2. より鮮度の高い(ニアリアルタイム)データの連携
  20. 20. 企業のデータ管理に最適なATTUNITYのプラットフォーム
  21. 21. ATTUNITY REPLICATE  エージェントレス (LUW)  ブラウザベースのGUIによる簡易設定・監視  異種データベース間のデータ高速転送・同期  データのフィルタリング・加工 【Target】【Source】 SQL Server 2005/2008/2012/2014 MySQL 5.5/5.6 Sybase ASE 12.5/15/15.5/16 IMSIMS PostgresSQL 9.4.2↑(Win) 9.4(Linux)  主要対応環境  ロジカルレプリケーション(データベース同期) Oracle10g/11g/12c
  22. 22. RDBMS Oracle SQL Server DB2 LUW DB2 iSeries DB2 z/OS MySQL PostgreSQL Sybase ASE Informix Data Warehouse Exadata Teradata Netezza Vertica Actian Vector Actian Matrix (SAP / HANA) Hortonworks Cloudera MapR Pivotal Hadoop IMS/DB SQL M/P Enscribe RMS VSAM Legacy Amazon RDS Microsoft Azure Cloud RDBMS Oracle SQL Server DB2 LUW MySQL PostgreSQL Sybase ASE Informix Data Warehouse Exadata Teradata Netezza Vertica Pivotal DB (Greenplum) Pivotal HAWQ Actian Vector Sybase IQ SAP / HANA Hortonworks Cloudera MapR Pivotal Hadoop MongoDB NoSQL Amazon RDS/Redshift/EC2 Google Cloud SQL Azure SQL Data Warehouse Cloud Kafka Amazon Kinesis Data Streams Azure Event Hubs Streaming targets sources SAP HANA SAP サポートデータベース
  23. 23. ATTUNITY REPLICATE 構成 Replicate Server 対応OS(64bit) • Linux Red Hat 6.2 and above • SUSE Linux 11 and above • Windows Server 2008 • Windows Server 2012 • Windows Server 2016 対応OS(64bit) • Linux Red Hat 6.2 and above • SUSE Linux 11 and above • Windows Server 2008 • Windows Server 2012 • Windows Server 2016 推奨H/Wスペック  CPU : Quad core ~8core↑  Memory : 8GB~64GB↑  Disk : 320GB~500GB  Network : 1Gbps~10Gbps×2 推奨H/Wスペック  CPU : Quad core ~8core↑  Memory : 8GB~64GB↑  Disk : 320GB~500GB  Network : 1Gbps~10Gbps×2 SOURCE DATABASE TARGET DATABASE Read Write Full LoadFull Load Change Data CaptureChange Data Capture
  24. 24. ATTUNITY REPLICATE アーキテクチャ
  25. 25. ATTUNITY REPLICATE アーキテクチャ
  26. 26. ATTUNITY REPLICATE アーキテクチャ  差分データの適用は、リアルタイムで行われる  ソース側のデータ更新順に差分適用可能  各ターゲットDB用に最適化(高速化)されたバッチ適用モードがある
  27. 27. ATTUNITY COMPOSE FOR HIVE  FullLoad(全データ転送)  差分同期 → INSERTのみ連携。UPDATE/DELETEは連携できず・・・  DDL(カラム追加、削除) → 連携できず・・・  Attunity Compose For Hiveでは  Attunity ReplicateでのHadoop連携  FullLoad(全データ転送)  差分同期 → INSERTに加え、UPDATE/DELETEが連携可能に!  DDL(カラム追加、削除) → 連携可能に! ※Hiveで更新処理をしているので、少し遅いです・・・ ※Sparcで処理の高速化中とのこと
  28. 28. 3. DEMO
  29. 29. デモ環境 Oracle Database 11g
  30. 30. 4. 事例のご紹介
  31. 31. 導入事例: アメリカ 某自動車製造メーカー •グローバルな分析を中央集中化すること •迅速な洞察と競合他社に対する強みを見出すこと 4,500 applications DB2 MF SQL Oracle 全世界に社員数20万人、 50工場 • 多様なアプリケーション、地理情報に関する大量のデータ • 分析の遅延 => 機会損失 Challenges •KafkaデータブローカーでHadoopデータレイク上に一元管理 •Attunity Replicateで全ソース/ターゲットを最小時間で統合 •約1,000,000ドル(1億円)削減 Goals Goals
  32. 32. ELT 導入事例: アメリカ 某自動車製造メーカー Single Analytic Environment Oracle, SQLServer,DB2, Teradata, etc ※200以上のデータソース
  33. 33. 導入事例: Prudential Singapore
  34. 34. まとめ 業務システム Enterprise Data Warehouse(EDW) COLDデータ/使用頻度の低いデータの特定 データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 ELT HOTデータ COLD データ
  35. 35. まとめ 業務システム Enterprise Data Warehouse(EDW) 多様なソースデータを(ニア)リアルタイムに簡単に連携 データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 HOTデータ COLDデータ ELT OLTP,ERP, CRM,etc ドキュメント, Eメール Web Logs, Click Streams Social Networks Machine Generated Sensor Data Geolocation Data Data Science 新規ソースから のデータ
  36. 36. 業務システム Enterprise Data Warehouse(EDW) データマート Business Analytics Visualization & Dashboards データベースシステム 分析系 HOTデータ ドキュメント, Eメール Web Logs, Click Streams Social Networks Machine Generated Sensor Data Geolocation Data Data Science OLTP,ERP, CRM,etc まとめ 多様なソースデータをニアリアルタイムにHadoop基盤に簡単に連携 COLDデータ ETL 新規ソースから のデータ 業務システム からのデータ 処理に必要な更新データのリアルタイム送信 バッチ処理
  37. 37. 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2018 Insight Technology, Inc. All Rights Reserved. ございました

×