Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」

818 views

Published on

2025年の崖に立ち向かうSAP S/4HANA移行セミナー 講演資料
日時 2019年7月31日(水) 13:30 ~17:30
主催 株式会社BeeX
共催 株式会社電通国際情報サービス
協賛 アマゾン ウェブ サービス ジャパン株式会社

株式会社BeeX
シニアテクノロジーアーキテクト
大友 佑介

Published in: Technology
  • DOWNLOAD FULL MOVIE, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... ,DOWNLOAD FULL. MOVIE 4K,FHD,HD,480P here { https://tinyurl.com/yybdfxwh }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL MOVIE, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... ,DOWNLOAD FULL. MOVIE 4K,FHD,HD,480P here { https://tinyurl.com/yybdfxwh }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL MOVIE, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... ,DOWNLOAD FULL. MOVIE 4K,FHD,HD,480P here { https://tinyurl.com/yybdfxwh }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL MOVIE, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... ,DOWNLOAD FULL. MOVIE 4K,FHD,HD,480P here { https://tinyurl.com/yybdfxwh }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」

  1. 1. 1Copyright © 2019 BeeX Inc. All Rights Reserved. デジタル化への第一歩 エンタープライズデータレイク構築事例 ご紹介
  2. 2. 2Copyright © 2019 BeeX Inc. All Rights Reserved. 事例プロジェクトの背景
  3. 3. 3Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して 文化 データドリブンな経営 勘よりデータ
  4. 4. 4Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して スキル 文化 データドリブンな経営 勘よりデータ 分析できる人
  5. 5. 5Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して データ スキル 文化 データドリブンな経営 「データ」にフォーカス 勘よりデータ 分析できる人 分析するデータ
  6. 6. 6Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク(Data Lake)
  7. 7. 7Copyright © 2019 BeeX Inc. All Rights Reserved. AWS様ページより引用 データレイクとは データレイクは、規模にかかわらず、すべての構造化データと非構造 化データを保存できる一元化されたリポジトリ です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュ ボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、 的確な意思決定に役立てることができます。 引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
  8. 8. 8Copyright © 2019 BeeX Inc. All Rights Reserved. AWS様ページより引用 データレイクとは データレイクは、規模にかかわらず、すべての構造化データと非構造 化データを保存できる一元化されたリポジトリ です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュ ボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、 的確な意思決定に役立てることができます。 引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/ どんな「大きさ」、「種類」のデータも そのまま入れられ、適宜取り出せる場所
  9. 9. 9Copyright © 2019 BeeX Inc. All Rights Reserved. エンタープライズ・データレイク 構築事例
  10. 10. 10Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  11. 11. 11Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  12. 12. 12Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  13. 13. 13Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  14. 14. 14Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  15. 15. 15Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム SAP
  16. 16. 16Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム 使えるデータが 適切に維持・管理されている SAP
  17. 17. 17Copyright © 2019 BeeX Inc. All Rights Reserved. 「データ」における課題とエンタープライズ・データレイク データを介して「人」と「サービス」をつなぐ 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム 使えるデータが 適切に維持・管理されている SAP
  18. 18. 18Copyright © 2019 BeeX Inc. All Rights Reserved. データレイクの実装例
  19. 19. 19Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ データレイク AWSにおけるデータレイクの中心となるサービス S3
  20. 20. 20Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ 保管する データレイク
  21. 21. 21Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ 保管する データレイク 入れる アップロード生データ 変換/整形 生データ 生
  22. 22. 22Copyright © 2019 BeeX Inc. All Rights Reserved. データレイク データの流れ 保管する データレイク 入れる アップロード生データ 変換/整形 生データ 使う 読み込み 集計/分析生
  23. 23. 23Copyright © 2019 BeeX Inc. All Rights Reserved. 入れる 使う データレイク データの流れ アップロード生データ 変換/整形 読み込み 集計/分析 保管する 生データ データレイク この流れをパイプラインと呼びます 「集計/分析」からパイプラインを遡りながら説明します 生
  24. 24. 24Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  25. 25. 25Copyright © 2019 BeeX Inc. All Rights Reserved. 現場での学び ◆ セルフサービスBIが普及 • Tableau、 QlikView、 QuickSight等 • より製造現場に近い人がBIを使いこなしている
  26. 26. 26Copyright © 2019 BeeX Inc. All Rights Reserved. 現場での学び ◆ まずは見える化 • 画面を見せることで初めて製造現場側もイメージができる • 見える化できればあとは創意工夫 ◆ セルフサービスBIが普及 • Tableau、 QlikView、 QuickSight等 • より製造現場に近い人がBIを使いこなしている
  27. 27. 27Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 データを利用したいユーザ ≠ データサイエンティスト 少ない 生
  28. 28. 28Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 Jupyter Notebookを使い Pythonで分析 データを利用したいユーザ ≠ データサイエンティスト 生
  29. 29. 29Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 Jupyter Notebookを使い Pythonで分析 既存のBIツール、 既存のSQLスキルで分析 データを利用したいユーザ ≠ データサイエンティスト 生
  30. 30. 30Copyright © 2019 BeeX Inc. All Rights Reserved. 「一般ユーザ」が利用できるデータは? アップロード生データ 変換/整形 読み込み 集計/分析保管 Jupyter Notebookを使い Pythonで分析 既存のBIツール、 既存のSQLスキルで分析 SQLで読み込める形式でデータが保管されていてほしい データを利用したいユーザ ≠ データサイエンティスト 生
  31. 31. 31Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 アップロード生データ 変換/整形 読み込み 集計/分析保管 SQLで読み込める形式で データを保管するためには 生
  32. 32. 32Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 DB,テーブル構造・型情報 SQL実行可能な構造 アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  33. 33. 33Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 DB,テーブル構造・型情報 保管コスト、分析パフォーマンス SQL実行可能な構造 大容量データへの対応 アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  34. 34. 34Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  35. 35. 35Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス AWS Glue Parquet SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  36. 36. 36Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス AWS Glue Parquet SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 少し説明 生
  37. 37. 37Copyright © 2019 BeeX Inc. All Rights Reserved. Apache Parquet(パーケイ)とは 列指向ファイルフォーマット ファイル として扱える
  38. 38. 38Copyright © 2019 BeeX Inc. All Rights Reserved. Apache Parquet(パーケイ)とは 列指向ファイルフォーマット ◆ 列指向(SAP HANAも列指向) ・ 必要な列のみ読み込み(I/O削減) ・ 高圧縮率 ◆ データの型情報 ・ String、Int、Boolean,Date、 Decimal型など ・ 型毎の最適化 ⇨ 高圧縮率 ファイル として扱える 男性 女性 男性 02/11 女性 女性 32 45 23 37 28 03/23 11/03 08/06 09/16 男性 女性 男性 02/11 女性 女性 32 45 23 37 28 03/23 11/03 08/06 09/16 行指向 (CSV,JSON等) 列指向(Parquet)
  39. 39. 39Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報 保管コスト、分析パフォーマンス AWS Glue Parquet SQL実行可能な構造 大容量データへの対応 どこに、どんなデータがあるか アップロード生データ 変換/整形 読み込み 集計/分析保管 変換/整形と 合わせて説明 生
  40. 40. 40Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用可能な形式に変換するために アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  41. 41. 41Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用可能な形式に変換するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 生
  42. 42. 42Copyright © 2019 BeeX Inc. All Rights Reserved. SQL利用可能な形式に変換するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue 生
  43. 43. 43Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換)
  44. 44. 44Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo 生
  45. 45. 45Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー DB・テーブル構造 カラム名 型 no 整数 first_name 文字列 last_name 文字列 no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo 生
  46. 46. 46Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー DB・テーブル構造 カラム名 型 no 整数 first_name 文字列 last_name 文字列 Glue ETL Job 参照 サーバーレス no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo 生
  47. 47. 47Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー カラム名 型 no 整数 first_name 文字列 last_name 文字列 Glue ETL Job 参照 サーバーレス no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo DB・テーブル構造 生
  48. 48. 48Copyright © 2019 BeeX Inc. All Rights Reserved. AWS Glue 利用例 (SQL利用可能な形式に変換) 生データ アップロード CSVやJSON など Glueクローラー no, first_name, last_name 1, Hiroki, Masaru 2, Tashiro, Hiroki 3, Yusuke, Otomo カラム名 型 no 整数 first_name 文字列 last_name 文字列 Glue ETL Job 参照 サーバーレス SQL Athena Redshift Spectrum 参照 DB・テーブル構造 生
  49. 49. 49Copyright © 2019 BeeX Inc. All Rights Reserved. 標準化された形式・場所に保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでコードを簡素化 ・ RedshiftやAthenaとの連携 生
  50. 50. 50Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内には色々なデータがありパイプラインが多くなる アップロード アップロード アップロード データレイク SAP ・ ・ ・ ・ ・ ・ 標準化された ディレクトリ構造 Glueによる 変換/整形 生 生 生
  51. 51. 51Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内には色々なデータがありパイプラインが多くなる アップロード アップロード アップロード データレイク SAP ・ ・ ・ ・ ・ ・ 標準化された ディレクトリ構造 変換/整形 変換/整形 変換/整形 生 生 生
  52. 52. 52Copyright © 2019 BeeX Inc. All Rights Reserved. 標準化された形式・場所に保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue 課題 ・ パイプラインの増加 ・ 開発工数の増加 ・ 運用者スキルのバラツキ ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでコードを簡素化 ・ RedshiftやAthenaとの連携 生
  53. 53. 53Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内の多様なデータを標準化し保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 簡潔なコードで分散ETL処理記述可能 AWS Glue 課題 標準化 自動化 ・ パイプラインの増加 ・ 開発工数の増加 ・ 運用者スキルのバラツキ ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでコードを簡素化 ・ RedshiftやAthenaとの連携 生
  54. 54. 54Copyright © 2019 BeeX Inc. All Rights Reserved. EXCEL申請書をマスタとすることで定義の標準化・自動化 利用申請書 兼データ定義書 兼ヒアリングシート 開発ツール Fluentd Glue Redshift 申請書マスターとし て設定を生成 設定ファイル生成 Crawler登録 ETLジョブ生成・登録 View定義生成 ユーザ
  55. 55. 55Copyright © 2019 BeeX Inc. All Rights Reserved. 企業内の多様なデータを標準化し保管するために アップロード生データ 変換/整形 読み込み 集計/分析保管 利用申請書 簡潔なコードで分散ETL処理記述可能 AWS Glue 課題 ツール 自動設定 ・ パイプラインの増加 ・ 開発工数の増加 ・ 運用者スキルのバラツキ 標準化・自動化の 仕組みを開発 ・ 高いスケーラビリティ ・ 1秒単位の従量課金 ・ スキーマの自動検出 ・ 独自ライブラリでより簡易なコード ・ RedshiftやAthenaとの連携 生
  56. 56. 56Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み 集計/分析保管生 変換処理開発の効率化はしましたが 標準化 自動化
  57. 57. 57Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 変換処理はシンプルに保ちたい ⇨ 最低限標準化されたフォーマットでアップロード 生 集計/分析
  58. 58. 58Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 変換処理はシンプルに保ちたい ⇨ 最低限標準化されたフォーマットでアップロード ユーザ側がデータをアップロードするハードルは下げたい 生 集計/分析
  59. 59. 59Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 変換処理をシンプルに保ちたい ⇨ 標準フォーマット 生 集計/分析
  60. 60. 60Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  61. 61. 61Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 SAP ETL 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 CSV プロジェクト保有 ETLツール ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  62. 62. 62Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 SAP ETL 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 CSV DB ETL Parquet Glueのよる DBアクセス プロジェクト保有 ETLツール ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  63. 63. 63Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側のアップロード形式と方式の標準化 アップロード生データ 変換/整形 読み込み保管 SAP ETL JSON (GZIP) 文字コード UTF-8 等 改行コード CRLF,LF 等 フォーマット CSV,JSON 等 圧縮 GZIP 等 タイムゾーン UTC、JST 等 CSV等 CSV DB ログ DB ETL Parquet 汎用用途・OSS Fluentd Glueのよる DBアクセス プロジェクト保有 ETLツール ア ッ プ ロ ー ド 方 式 の 標 準 メ ニ ュ ー 化 変換処理をシンプルに保ちたい ⇨ 標準フォーマット ユーザ利用のハードルを下げたい 生 集計/分析
  64. 64. 64Copyright © 2019 BeeX Inc. All Rights Reserved. データマート Fluentd awscli WinSCP ETL A社様データレイク実装例 アーキテクチャ一部抜粋 CSV、JSON等 一時保管 Parquet 長期保管 変換 Data Lake層 DWH層 Tier1 Tier2 大 規 模 分 析 層 ETL RDBMS Tableau アプリケーション ツール Python Glueジョブ 1日数回 SQLによる 分析・集計 Redshift spectrum 他AWSサービス アップロード生データ 変換/整形 読み込み 集計/分析保管 生
  65. 65. 65Copyright © 2019 BeeX Inc. All Rights Reserved. プロジェクトの特徴・進め方
  66. 66. 66Copyright © 2019 BeeX Inc. All Rights Reserved. データドリブンな経営の実現を目指して データ スキル 文化 データドリブンな経営 勘よりデータ 分析できる人 分析するデータ 「データ」にフォーカス
  67. 67. 67Copyright © 2019 BeeX Inc. All Rights Reserved. データを介して「人」と「サービス」をつなぐ 多種多様なレガシーシステム データを利用したいのは 一般ユーザ ≠データサイエンティスト 組織を跨がる全社データ活用 企業の中核データ 顧客マスタ 取引伝票 工場毎に異なるライン 事業所固有システム 使えるデータが 適切に維持・管理されている SAP
  68. 68. 68Copyright © 2019 BeeX Inc. All Rights Reserved. データレイクは 使ってもらってこそ価値がある ユーザに使ってもらえる サービスを作る
  69. 69. 69Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門
  70. 70. 70Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 特にRedshiftとGlueは開発ペースが早い ユーザの利便性が大きく改善する新機能が続々リリース 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門 続々追加される新機能
  71. 71. 71Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門 続々追加される新機能 多種多様で形になっていない 要件 ユーザは複数部門、要件が形になっていない場合も 要件は能動的、積極的に引き出す 特にRedshiftとGlueは開発ペースが早い ユーザの利便性が大きく改善する新機能が続々リリース
  72. 72. 72Copyright © 2019 BeeX Inc. All Rights Reserved. 当初のプロジェクトはウォーターフォールを想定していた 情シス 部門 BeeX 企画 要件 定義 設計 開発 納品 検収 運用・保守 事業 部門 続々追加される新機能 進め方を調整 多種多様で形になっていない 要件 ユーザは複数部門、要件が形になっていない場合も 要件は能動的、積極的に引き出す 特にRedshiftとGlueは開発ペースが早い ユーザの利便性が大きく改善する新機能が続々リリース
  73. 73. 73Copyright © 2019 BeeX Inc. All Rights Reserved. AWSを利用した サービス 社内プロジェクトだが構図はB2B2Cに近い B B C
  74. 74. 74Copyright © 2019 BeeX Inc. All Rights Reserved. AWSを利用した サービス DataLakeを利用した 事業部側プロジェクト 社内プロジェクトだが構図はB2B2Cに近い B B C
  75. 75. 75Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側に要件を探しにいく プロトタイピング PoC事業部側 プロジェクト ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ
  76. 76. 76Copyright © 2019 BeeX Inc. All Rights Reserved. ユーザ側に要件を探しにいく プロトタイピング PoC事業部側 プロジェクト ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ 本当のユーザが更に先にいる場合も
  77. 77. 77Copyright © 2019 BeeX Inc. All Rights Reserved. ウォーターフォールとアジャイルのハイブリット的な進め方 標準化設計環境構築 運用設計 要件定義 プロトタイピング PoC 対話とフィードバック DataLake プロジェクト 事業部側 プロジェクト ・ウォーターフォール的 ・着実,正確 ・高品質,安定 ・標準化,展開 ・中長期 ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ 本当のユーザが更に先にいる場合も
  78. 78. 78Copyright © 2019 BeeX Inc. All Rights Reserved. データマート Fluentd awscli WinSCP ETL A社様データレイク実装例 CSV、JSON等 一時保管 Parquet 長期保管 変換 Data Lake層 DWH層 Tier1 Tier2 大 規 模 分 析 層 ETL RDBMS Tableau アプリケーション ツール Python Glueジョブ 1日数回 SQLによる 分析・集計 Redshift spectrum 他AWSサービス
  79. 79. 79Copyright © 2019 BeeX Inc. All Rights Reserved. ニアリアルタイム分析 データマート Fluentd awscli WinSCP ETL データレイク実装例 ユースケースを元に見える化層を拡張 画像、動画や日誌、非構造化データに関しては別の流れを定義しています PostgreSQL 一時保管 CSV、JSON等 一時保管 Parquet 長期保管 変換 Data Lake層 Elasticsearch Service DWH層 Tier1 Tier2 大 規 模 分 析 層 見 え る 化 層 ETL Fluentd ETL RDBMS Tableau Browser アプリケーション ツール Python Glueジョブ 1日数回 SQLによる 分析・集計 Redshift spectrum 他AWSサービス 他AWSサービス
  80. 80. 80Copyright © 2019 BeeX Inc. All Rights Reserved. ウォーターフォールとアジャイルのハイブリット的な進め方 標準化設計環境構築 運用設計 要件定義 プロトタイピング PoC 対話とフィードバック 展開 ブラッシュアップ DataLake プロジェクト 事業部側 プロジェクト ・ウォーターフォール的 ・着実,正確 ・高品質,安定 ・標準化,展開 ・中長期 ・アジャイル的 ・高速 ・柔軟 ・短期 ・見えるモノ 本当のユーザが更に先にいる場合も 本稼働
  81. 81. 81Copyright © 2019 BeeX Inc. All Rights Reserved. データレイクの開発・運用体制 データスチュワードチーム
  82. 82. 82Copyright © 2019 BeeX Inc. All Rights Reserved. テクノロジだけではデータレイクを機能させるのは難しい このデータは データレイクにど う入れれば良 い? データの内容に 誤りがあったから 調整したい 青システムの データを使いた い 他の事業部は どんな使い方し てるなかな?
  83. 83. 83Copyright © 2019 BeeX Inc. All Rights Reserved. データスチュワードとは データスチュワードの主な役割 • 核となるメタデータの作成と管理 • ルールと標準の文書化 • データ品質の問題管理 • データガバナンス運営アクティビティの実施 ※DMBOKより引用 データスチュワード(Data Steward) 組織内のデータ統制を保つ責任を負う役割、組織 Data Steward (執事)
  84. 84. 84Copyright © 2019 BeeX Inc. All Rights Reserved. データスチュワードチームの設置 データスチュワードチーム データの健全性を保ち「データスワンプ」にしない 利用しやすいサービスに
  85. 85. 85Copyright © 2019 BeeX Inc. All Rights Reserved. まとめ • エンタープライズデータレイクの特徴 • 「技術の壁」と「組織の壁」 • データレイク実装例 • 入れる・保管する・使う • SQLでのデータ取得をするためのパイプライン • プロジェクトの進め方、体制 • B2B2Cのサービスを作る意識 • アジャイルとウォーターフォールのハイブリッド • データスチュワードチーム
  86. 86. 86Copyright © 2019 BeeX Inc. All Rights Reserved.

×