Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

GCPUG in Osaka #6 5分でCloud Dataprepを説明する

406 views

Published on

GCPUG in Osaka #6 LT

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

GCPUG in Osaka #6 5分でCloud Dataprepを説明する

  1. 1. Datalake
  2. 2. Datalake? • A data lake is a method of storing data within a system or repository,in its natural format, that facilitates the collocation of data in variousschemata and structural forms, usually object blobs or files. • The idea of data lake is to have a single store of all data in the enterprise ranging from rawdata (which implies exact copy of source system data) to transformed data whichis used for various tasks including reporting, visualization, analytics andmachine learning. • The data lake includes structured data from relationaldatabases (rows and columns), semi-structured data (CSV, logs, XML, JSON),unstructured data (emails, documents, PDFs) and even binary data (images, audio,video) thus creating a centralized data store accommodating all forms of data. • https://en.wikipedia.org/wiki/Data_lake
  3. 3. ETL • Extract • Transform • Load
  4. 4. ETL? Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指 す。 • Extract - 外部の情報源からデータを抽出 • Transform - 抽出したデータをビジネスでの必要に応じて変換・加工 • Load - 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード ETLは、データウェアハウスにデータを実際にロードする方法として重要である。ETLという用語は データウェアハウスでのデータのロードだけでなく、任意のデータベースでのロード工程を指すこ ともある。ETLはレガシーシステムとの統合にも使われる。通常のETL実装は、処理についての監査 証跡を記録する。ほとんど全ての設計において、この監査証跡は、元のデータが利用不可能な場合 にETLの結果を再現できるほどの細粒度のレベルにはなっていない。 https://ja.wikipedia.org/wiki/Extract/Transform/Load
  5. 5. よくある要望 データの変更がよくあって、いちいち開 発費払ってられないんで、変更は自分で やりたい
  6. 6. Cloud Dataprep •分析用データを視覚的に探索、クリーニング、準備 するためのインテリジェント クラウドデータ サービ ス(https://cloud.google.com/dataprep/?hl=ja) •フルマネージド •Prep==準備 •UIが秀逸 •データ分析の前準備は、Dataprepで全てできるかも
  7. 7. Excel CSV JSON TXT LOG TSV Avro CSV JSON Avro • 検出 • クレンジング • 拡張
  8. 8. CSV JSON TXT LOG TSV Avro CSV JSON Avro • 検出 • クレンジング • 拡張 Excel
  9. 9. Cloud Dataprep
  10. 10. mismatched missing
  11. 11. Cloud Dataprep あるデータをクリックすると クリックしたデータが反転する
  12. 12. Cloud Dataprep
  13. 13. Cloud Dataprep
  14. 14. エンジニア目線のUSE CASE •データをもらったらとりあえずDataprepに入れて眺める •開発するにしてもイメージをつかみやすい •お客さんに見せる •このデータじゃ無理でしょ・・・ •Tableauとかいらなくね?
  15. 15. 残念なところ RDBで使いたい
  16. 16. 残念なところ Google Ghromeしか使えない

×