Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ビッグデータ・データマートとは

429 views

Published on

ビッグデータとデータマート【タガヤス その2】登壇資料

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

ビッグデータ・データマートとは

  1. 1. © Opt, Inc. All Rights Reserved. ビッグデータ・データマートとは 株式会社オプト 仙台テクノロジー開発部 第2回タガヤス登壇資料 
  2. 2. © Opt, Inc. All Rights Reserved. 自己紹介 名 前:萩野 輝(はぎの あきら) 所 属:株式会社オプト 仙台テクノロジー開発部 好 物:カツ丼   注目点:公の場での登壇は
  3. 3. © Opt, Inc. All Rights Reserved. 自己紹介 名 前:萩野 輝(はぎの あきら) 所 属:株式会社オプト 仙台テクノロジー開発部 好 物:カツ丼   注目点:公の場での登壇は初!!
  4. 4. © Opt, Inc. All Rights Reserved. Copyright © 2017 OPT Inc. All Rights Reserved. 目次 ● ビッグデータとは ● データウェアハウスとは ● データマートとは
  5. 5. © Opt, Inc. All Rights Reserved. ビッグデータとは
  6. 6. © Opt, Inc. All Rights Reserved. ビッグデータってどんなデータ?
  7. 7. © Opt, Inc. All Rights Reserved. ビッグデータとは、通常のツールで は扱えないような、非常に大きな データ量のデータのこと。 wikiによると2012年時点の定義で は、数十テラ~数ペタバイト。
  8. 8. © Opt, Inc. All Rights Reserved. オプトではたくさんの顧客の広告を扱っ ており 仙台で扱っているデータは 1日でおよそ11.5 GBです (※データベース取込前の圧縮ファイル状態です)
  9. 9. © Opt, Inc. All Rights Reserved. ちょっと小話 新聞は朝刊・夕刊合わせて 1MBらしい 休刊日を除き、353日発行した場合 1年で353MBとすると・・・ 11.5GB => 11500MB => 32.5年分
  10. 10. © Opt, Inc. All Rights Reserved. 現在の蓄積されているデータ総量 はというと・・・
  11. 11. © Opt, Inc. All Rights Reserved. 4.02 TB Redshiftの総利用量 (Redshiftのデータ圧縮は最大1/4)
  12. 12. © Opt, Inc. All Rights Reserved. レコード件数でいうと、 だいたい・・・
  13. 13. © Opt, Inc. All Rights Reserved. 75億!あと、2000万 Redshiftの総データ件数
  14. 14. © Opt, Inc. All Rights Reserved. ちなみに・・・ オプトで扱っている 広告データは 大きく分けて2種類あります
  15. 15. © Opt, Inc. All Rights Reserved. Google、Yahoo!など 広告を掲載している 広告媒体から 取得しているデータ ※取り扱い媒体数100以上 Google Yahoo! Facebook Twitter LINE criteo
  16. 16. © Opt, Inc. All Rights Reserved. ADPLAN(弊社製品)などの 広告掲載効果を測定する 広告効果測定ツールから 取得しているデータ
  17. 17. © Opt, Inc. All Rights Reserved. 分析しやすい形に集計して格納 Redshift 広告媒体データ 広告効果測定ツール データ Google Yahoo! Facebook Twitter LINE criteo etc... etc...
  18. 18. © Opt, Inc. All Rights Reserved. そうすることで どの広告を いつ どんな端末から 何回表示したか 何回クリックしたか などなど 分析できています
  19. 19. © Opt, Inc. All Rights Reserved. データ量が大きいだけ?
  20. 20. © Opt, Inc. All Rights Reserved. データ量以外にも 定義があります
  21. 21. © Opt, Inc. All Rights Reserved.  3V  ※ ダグ・レイニー(Doug Laney)氏提言
  22. 22. © Opt, Inc. All Rights Reserved. ・Volume(量)  データ量のこと 通常のツールでは扱えないような、非 常に大きなデータ量
  23. 23. © Opt, Inc. All Rights Reserved. ・Velocity(頻度)  データ取得の頻度のこと 短い周期で大量のデータが発生
  24. 24. © Opt, Inc. All Rights Reserved. ・Variety(多様性)  データの種類のこと 様々種類のデータかつ、それぞれが 関連づいている
  25. 25. © Opt, Inc. All Rights Reserved. たとえば・・・
  26. 26. © Opt, Inc. All Rights Reserved. 発行された新聞の全文字データ
  27. 27. © Opt, Inc. All Rights Reserved. データは多そうだが、 テキストデータのみで 発生頻度も高くはない
  28. 28. © Opt, Inc. All Rights Reserved. ダメビッグ! ※ 造語です
  29. 29. © Opt, Inc. All Rights Reserved. 日別天気情報 + ネット広告媒体データ + 広告効果計測ツールデータ
  30. 30. © Opt, Inc. All Rights Reserved. データ量、発生頻度も高く 種類の異なるデータ かつ、組み合わせて分析可能
  31. 31. © Opt, Inc. All Rights Reserved. ナイスビッグ! ※ 造語です
  32. 32. © Opt, Inc. All Rights Reserved. 3Vの他にも Veracity(正確性) Value(価値) なども定義として 提唱されている
  33. 33. © Opt, Inc. All Rights Reserved. まとめ ビッグデータとは、量・頻度・多様性 の3Vに沿ったデータを指す。 中でも、一般的に量が重視されてい る。
  34. 34. © Opt, Inc. All Rights Reserved. データウェアハウスとは?
  35. 35. © Opt, Inc. All Rights Reserved. 対で表現されることが多い データウェアハウス データマート
  36. 36. © Opt, Inc. All Rights Reserved. 直訳すると・・・ データウェアハウス:データの倉庫 データマート:データの市場
  37. 37. © Opt, Inc. All Rights Reserved. 倉庫と市場のイメージ データウェアハウス データマート 目的別切り出しておく 欲しいものが探しやすい
  38. 38. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データウェアハウス ここに見取り図がでてきます
  39. 39. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データウェアハウス 野菜 キャベツ 白菜 衣類 ジーンズ スカート 肉 鶏肉 牛肉 玩具 ドローン ゲーム機 ケーキ ロールケーキ ショートケーキ フルーツ いちご ほおずき
  40. 40. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データウェアハウス 野菜 キャベツ 白菜 衣類 ジーンズ スカート 肉 鶏肉 牛肉 玩具 ドローン ゲーム機 ケーキ ロールケーキ ショートケーキ フルーツ いちご ほおずき
  41. 41. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データマート ここに見取り図がでてきます
  42. 42. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう ケーキ ショートケーキ データマート
  43. 43. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう ケーキ ショートケーキ データマート
  44. 44. © Opt, Inc. All Rights Reserved. データマートの方が、 格段に探しやすく 短時間で見つけられましたよね
  45. 45. © Opt, Inc. All Rights Reserved. イメージがわいたところで データウェアハウスの説明を 再開します
  46. 46. © Opt, Inc. All Rights Reserved. データウェアハウスとは、意思決定 のために目的別に編成、統合化さ れた、時系列で更新をしないデータ の集合体 ※ ビル・インモン(William H. Inmon)氏提言
  47. 47. © Opt, Inc. All Rights Reserved.  4つの要件 
  48. 48. © Opt, Inc. All Rights Reserved. ・目的別(サブジェクト指向)  分析したいものを軸に、データが まとめられている
  49. 49. © Opt, Inc. All Rights Reserved. ・統合化  全体のデータが、統一された フォーマットになっている
  50. 50. © Opt, Inc. All Rights Reserved. ・時系列  経過の変化を分析できるよう、過 去のデータをもっている
  51. 51. © Opt, Inc. All Rights Reserved. ・更新しない(恒常的)  削除や更新をしない  (過去のものは実績のため)
  52. 52. © Opt, Inc. All Rights Reserved. たとえば・・・
  53. 53. © Opt, Inc. All Rights Reserved. ある会社に、 天気情報・ネット広告・ユーザ情報 などを管理した、システムがある
  54. 54. © Opt, Inc. All Rights Reserved. 類似の商品Aの過去情報から、いつ、 誰に向けて広告をだせば購入数が増え るか分析したいAさん
  55. 55. © Opt, Inc. All Rights Reserved. 天気情報 システム ネット広告 システム ユーザ情報 システム 各管理システムのデータ例 調査日時, 天気状態, 気温, … 広告番号, 掲載日時, 閲覧者, 成果, … ユーザID, 性別, 年齢, …
  56. 56. © Opt, Inc. All Rights Reserved. 天気情報 システム ネット広告 システム ユーザ情報 システム 各管理システムのデータ例 調査日時, 天気状態, 気温 広告番号, 掲載日時, 閲覧者 ユーザID, 性別, 年齢 データの項目名がバラバラ データの保存場所・期間も異っ ており組み合わせが 困難!!
  57. 57. © Opt, Inc. All Rights Reserved. ETL (Extract Transform Load) (抽出・加工・ロード) データウェアハウス 各システムのデータを抽出 データウェアハウス構築 目的に合わせて、集計して格納する (過去も含め、必要な期間分) 天気情報 システム ネット広告 システム ユーザ情報 システム 日別 期間別広告成果情報 月別 年別 分別 日別 週別
  58. 58. © Opt, Inc. All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1
  59. 59. © Opt, Inc. All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1
  60. 60. © Opt, Inc. All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1・40~60代の購入が多い ・雨の日はさらに多くなる ・ただし、金曜日は激減  (飲み会かな?)
  61. 61. © Opt, Inc. All Rights Reserved. データマートとは?
  62. 62. © Opt, Inc. All Rights Reserved. データマートとは、頻繁に利用する データのみ切り出しておいたもの。 同時利用数・データ量削減などから レスポンスの向上が期待できる。
  63. 63. © Opt, Inc. All Rights Reserved. たとえば・・・
  64. 64. © Opt, Inc. All Rights Reserved. ある会社に、 天気情報・ネット広告情報・ユーザ 情報などを管理した、システムの データを集計して格納したデータ ウェアハウスがある
  65. 65. © Opt, Inc. All Rights Reserved. 毎日、直近3日の日別広告閲覧数 と購入数を前年と比較したい、コン サルタントのAさんがいた場合
  66. 66. © Opt, Inc. All Rights Reserved. データウェアハウスの場合 直近3日 探すのが手間で、 データ総量が多いため 時間もかかる・・・ データウェアハウス 日別のデータ 昨年同日 日別 期間別広告成果情報 月別 年別 分別 日別 週別
  67. 67. © Opt, Inc. All Rights Reserved. データマートの場合 直近3日と 昨年同日を 切り出しておく 欲しいデータが まとまっている データウェアハウス 日別 期間別広告成果情報 月別 年別 分別 日別 週別 直近3日部分 昨年同日部分 直近3日 と 昨年同日 日別 データマート
  68. 68. © Opt, Inc. All Rights Reserved. まとめ
  69. 69. © Opt, Inc. All Rights Reserved. ビッグデータ: 3V( Volume(量)、Velocity(頻度)、Variety(多様性) )  を基本定義としたデータ データウェアハウス: 4要件( 目的別、統合化、時系列、更新しない )  を満たすデータの集合体 データマート: 高頻度に利用するデータのみ切り出したもの
  70. 70. © Opt, Inc. All Rights Reserved. 参考サイト ・wikipedia(ビッグデータ、ETL、データマート) https://ja.wikipedia.org/wiki/ビッグデータ https://ja.wikipedia.org/wiki/Extract/Transform/Load https://ja.wikipedia.org/wiki/データマート ・Amazon Redshift https://aws.amazon.com/jp/redshift/ ・ボクシルマガジン データウェアハウスを徹底解説!データベースとの 違い・DWH・RDB https://boxil.jp/mag/a2426/
  71. 71. © Opt, Inc. All Rights Reserved. ご清聴 ありがとうございました

×