SlideShare a Scribd company logo
1 of 71
Download to read offline
© Opt, Inc. All Rights Reserved.
ビッグデータ・データマートとは
株式会社オプト 仙台テクノロジー開発部
第2回タガヤス登壇資料 
© Opt, Inc. All Rights Reserved.
自己紹介
名 前:萩野 輝(はぎの あきら)
所 属:株式会社オプト
仙台テクノロジー開発部
好 物:カツ丼  
注目点:公の場での登壇は
© Opt, Inc. All Rights Reserved.
自己紹介
名 前:萩野 輝(はぎの あきら)
所 属:株式会社オプト
仙台テクノロジー開発部
好 物:カツ丼  
注目点:公の場での登壇は初!!
© Opt, Inc. All Rights Reserved.
Copyright © 2017 OPT Inc. All Rights Reserved.
目次
● ビッグデータとは
● データウェアハウスとは
● データマートとは
© Opt, Inc. All Rights Reserved.
ビッグデータとは
© Opt, Inc. All Rights Reserved.
ビッグデータってどんなデータ?
© Opt, Inc. All Rights Reserved.
ビッグデータとは、通常のツールで
は扱えないような、非常に大きな
データ量のデータのこと。
wikiによると2012年時点の定義で
は、数十テラ~数ペタバイト。
© Opt, Inc. All Rights Reserved.
オプトではたくさんの顧客の広告を扱っ
ており
仙台で扱っているデータは
1日でおよそ11.5 GBです
(※データベース取込前の圧縮ファイル状態です)
© Opt, Inc. All Rights Reserved.
ちょっと小話
新聞は朝刊・夕刊合わせて 1MBらしい
休刊日を除き、353日発行した場合
1年で353MBとすると・・・
11.5GB => 11500MB => 32.5年分
© Opt, Inc. All Rights Reserved.
現在の蓄積されているデータ総量
はというと・・・
© Opt, Inc. All Rights Reserved.
4.02 TB
Redshiftの総利用量
(Redshiftのデータ圧縮は最大1/4)
© Opt, Inc. All Rights Reserved.
レコード件数でいうと、
だいたい・・・
© Opt, Inc. All Rights Reserved.
75億!あと、2000万
Redshiftの総データ件数
© Opt, Inc. All Rights Reserved.
ちなみに・・・
オプトで扱っている
広告データは
大きく分けて2種類あります
© Opt, Inc. All Rights Reserved.
Google、Yahoo!など
広告を掲載している
広告媒体から
取得しているデータ
※取り扱い媒体数100以上
Google
Yahoo!
Facebook
Twitter
LINE
criteo
© Opt, Inc. All Rights Reserved.
ADPLAN(弊社製品)などの
広告掲載効果を測定する
広告効果測定ツールから
取得しているデータ
© Opt, Inc. All Rights Reserved.
分析しやすい形に集計して格納
Redshift
広告媒体データ
広告効果測定ツール
データ
Google
Yahoo!
Facebook
Twitter
LINE
criteo
etc...
etc...
© Opt, Inc. All Rights Reserved.
そうすることで
どの広告を
いつ
どんな端末から
何回表示したか
何回クリックしたか
などなど
分析できています
© Opt, Inc. All Rights Reserved.
データ量が大きいだけ?
© Opt, Inc. All Rights Reserved.
データ量以外にも
定義があります
© Opt, Inc. All Rights Reserved.
 3V 
※ ダグ・レイニー(Doug Laney)氏提言
© Opt, Inc. All Rights Reserved.
・Volume(量)
 データ量のこと
通常のツールでは扱えないような、非
常に大きなデータ量
© Opt, Inc. All Rights Reserved.
・Velocity(頻度)
 データ取得の頻度のこと
短い周期で大量のデータが発生
© Opt, Inc. All Rights Reserved.
・Variety(多様性)
 データの種類のこと
様々種類のデータかつ、それぞれが
関連づいている
© Opt, Inc. All Rights Reserved.
たとえば・・・
© Opt, Inc. All Rights Reserved.
発行された新聞の全文字データ
© Opt, Inc. All Rights Reserved.
データは多そうだが、
テキストデータのみで
発生頻度も高くはない
© Opt, Inc. All Rights Reserved.
ダメビッグ!
※ 造語です
© Opt, Inc. All Rights Reserved.
日別天気情報
+
ネット広告媒体データ
+
広告効果計測ツールデータ
© Opt, Inc. All Rights Reserved.
データ量、発生頻度も高く
種類の異なるデータ
かつ、組み合わせて分析可能
© Opt, Inc. All Rights Reserved.
ナイスビッグ!
※ 造語です
© Opt, Inc. All Rights Reserved.
3Vの他にも
Veracity(正確性)
Value(価値)
なども定義として
提唱されている
© Opt, Inc. All Rights Reserved.
まとめ
ビッグデータとは、量・頻度・多様性
の3Vに沿ったデータを指す。
中でも、一般的に量が重視されてい
る。
© Opt, Inc. All Rights Reserved.
データウェアハウスとは?
© Opt, Inc. All Rights Reserved.
対で表現されることが多い
データウェアハウス
データマート
© Opt, Inc. All Rights Reserved.
直訳すると・・・
データウェアハウス:データの倉庫
データマート:データの市場
© Opt, Inc. All Rights Reserved.
倉庫と市場のイメージ
データウェアハウス データマート
目的別切り出しておく
欲しいものが探しやすい
© Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データウェアハウス
ここに見取り図がでてきます
© Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データウェアハウス 野菜
キャベツ
白菜
衣類
ジーンズ
スカート
肉
鶏肉
牛肉
玩具
ドローン
ゲーム機
ケーキ
ロールケーキ
ショートケーキ
フルーツ
いちご
ほおずき
© Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データウェアハウス 野菜
キャベツ
白菜
衣類
ジーンズ
スカート
肉
鶏肉
牛肉
玩具
ドローン
ゲーム機
ケーキ
ロールケーキ
ショートケーキ
フルーツ
いちご
ほおずき
© Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データマート
ここに見取り図がでてきます
© Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
ケーキ
ショートケーキ
データマート
© Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
ケーキ
ショートケーキ
データマート
© Opt, Inc. All Rights Reserved.
データマートの方が、
格段に探しやすく
短時間で見つけられましたよね
© Opt, Inc. All Rights Reserved.
イメージがわいたところで
データウェアハウスの説明を
再開します
© Opt, Inc. All Rights Reserved.
データウェアハウスとは、意思決定
のために目的別に編成、統合化さ
れた、時系列で更新をしないデータ
の集合体
※ ビル・インモン(William H. Inmon)氏提言
© Opt, Inc. All Rights Reserved.
 4つの要件 
© Opt, Inc. All Rights Reserved.
・目的別(サブジェクト指向)
 分析したいものを軸に、データが
まとめられている
© Opt, Inc. All Rights Reserved.
・統合化
 全体のデータが、統一された
フォーマットになっている
© Opt, Inc. All Rights Reserved.
・時系列
 経過の変化を分析できるよう、過
去のデータをもっている
© Opt, Inc. All Rights Reserved.
・更新しない(恒常的)
 削除や更新をしない
 (過去のものは実績のため)
© Opt, Inc. All Rights Reserved.
たとえば・・・
© Opt, Inc. All Rights Reserved.
ある会社に、
天気情報・ネット広告・ユーザ情報
などを管理した、システムがある
© Opt, Inc. All Rights Reserved.
類似の商品Aの過去情報から、いつ、
誰に向けて広告をだせば購入数が増え
るか分析したいAさん
© Opt, Inc. All Rights Reserved.
天気情報
システム
ネット広告
システム
ユーザ情報
システム
各管理システムのデータ例
調査日時, 天気状態, 気温, …
広告番号, 掲載日時, 閲覧者, 成果, …
ユーザID, 性別, 年齢, …
© Opt, Inc. All Rights Reserved.
天気情報
システム
ネット広告
システム
ユーザ情報
システム
各管理システムのデータ例
調査日時, 天気状態, 気温
広告番号, 掲載日時, 閲覧者
ユーザID, 性別, 年齢
データの項目名がバラバラ
データの保存場所・期間も異っ
ており組み合わせが
困難!!
© Opt, Inc. All Rights Reserved.
ETL
(Extract Transform Load)
(抽出・加工・ロード)
データウェアハウス
各システムのデータを抽出
データウェアハウス構築
目的に合わせて、集計して格納する
(過去も含め、必要な期間分)
天気情報
システム
ネット広告
システム
ユーザ情報
システム
日別
期間別広告成果情報
月別
年別
分別
日別
週別
© Opt, Inc. All Rights Reserved.
データウェアハウスデータ例
期間別
広告成果情報
(日別)
閲覧日 天気 広告内容 閲覧数
(10~30代)
閲覧数
(40~60代)
購入数
(10~30代)
購入数
(40~60代)
2017/10/04
(水)
晴れ 商品A 50 10 1 5
2017/10/05
(木)
雨 商品A 70 30 2 20
2017/10/06
(金)
晴れ 商品A 48 3 1 1
© Opt, Inc. All Rights Reserved.
データウェアハウスデータ例
期間別
広告成果情報
(日別)
閲覧日 天気 広告内容 閲覧数
(10~30代)
閲覧数
(40~60代)
購入数
(10~30代)
購入数
(40~60代)
2017/10/04
(水)
晴れ 商品A 50 10 1 5
2017/10/05
(木)
雨 商品A 70 30 2 20
2017/10/06
(金)
晴れ 商品A 48 3 1 1
© Opt, Inc. All Rights Reserved.
データウェアハウスデータ例
期間別
広告成果情報
(日別)
閲覧日 天気 広告内容 閲覧数
(10~30代)
閲覧数
(40~60代)
購入数
(10~30代)
購入数
(40~60代)
2017/10/04
(水)
晴れ 商品A 50 10 1 5
2017/10/05
(木)
雨 商品A 70 30 2 20
2017/10/06
(金)
晴れ 商品A 48 3 1 1・40~60代の購入が多い
・雨の日はさらに多くなる
・ただし、金曜日は激減
 (飲み会かな?)
© Opt, Inc. All Rights Reserved.
データマートとは?
© Opt, Inc. All Rights Reserved.
データマートとは、頻繁に利用する
データのみ切り出しておいたもの。
同時利用数・データ量削減などから
レスポンスの向上が期待できる。
© Opt, Inc. All Rights Reserved.
たとえば・・・
© Opt, Inc. All Rights Reserved.
ある会社に、
天気情報・ネット広告情報・ユーザ
情報などを管理した、システムの
データを集計して格納したデータ
ウェアハウスがある
© Opt, Inc. All Rights Reserved.
毎日、直近3日の日別広告閲覧数
と購入数を前年と比較したい、コン
サルタントのAさんがいた場合
© Opt, Inc. All Rights Reserved.
データウェアハウスの場合
直近3日
探すのが手間で、
データ総量が多いため
時間もかかる・・・
データウェアハウス
日別のデータ
昨年同日
日別
期間別広告成果情報
月別
年別
分別
日別
週別
© Opt, Inc. All Rights Reserved.
データマートの場合
直近3日と
昨年同日を
切り出しておく
欲しいデータが
まとまっている
データウェアハウス
日別
期間別広告成果情報
月別
年別
分別
日別
週別
直近3日部分
昨年同日部分
直近3日
と
昨年同日
日別
データマート
© Opt, Inc. All Rights Reserved.
まとめ
© Opt, Inc. All Rights Reserved.
ビッグデータ:
3V( Volume(量)、Velocity(頻度)、Variety(多様性) )
 を基本定義としたデータ
データウェアハウス:
4要件( 目的別、統合化、時系列、更新しない )
 を満たすデータの集合体
データマート:
高頻度に利用するデータのみ切り出したもの
© Opt, Inc. All Rights Reserved.
参考サイト
・wikipedia(ビッグデータ、ETL、データマート)
https://ja.wikipedia.org/wiki/ビッグデータ
https://ja.wikipedia.org/wiki/Extract/Transform/Load
https://ja.wikipedia.org/wiki/データマート
・Amazon Redshift
https://aws.amazon.com/jp/redshift/
・ボクシルマガジン データウェアハウスを徹底解説!データベースとの
違い・DWH・RDB
https://boxil.jp/mag/a2426/
© Opt, Inc. All Rights Reserved.
ご清聴
ありがとうございました

More Related Content

What's hot

大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術Yahoo!デベロッパーネットワーク
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworksKimihiko Kitase
 
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋Yahoo!デベロッパーネットワーク
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke HiramaInsight Technology, Inc.
 
【デブサミ夏AL】グリーのboxの使い方
【デブサミ夏AL】グリーのboxの使い方【デブサミ夏AL】グリーのboxの使い方
【デブサミ夏AL】グリーのboxの使い方Developers Summit
 
2016年2月4日 空間OSの設計コンセプトと先端IT
2016年2月4日 空間OSの設計コンセプトと先端IT2016年2月4日 空間OSの設計コンセプトと先端IT
2016年2月4日 空間OSの設計コンセプトと先端ITaitc_jp
 
IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」
IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」
IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」Yasuyuki Sugai
 
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...Yahoo!デベロッパーネットワーク
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニアYu Yamada
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~NTT DATA OSS Professional Services
 

What's hot (20)

広告における機械学習の適用例とシステムについて
広告における機械学習の適用例とシステムについて広告における機械学習の適用例とシステムについて
広告における機械学習の適用例とシステムについて
 
Multiple Dimension Spreadのご紹介
Multiple Dimension Spreadのご紹介Multiple Dimension Spreadのご紹介
Multiple Dimension Spreadのご紹介
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
OpenStack Swift紹介
OpenStack Swift紹介OpenStack Swift紹介
OpenStack Swift紹介
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
 
絶対にタダでは転ばない広告エンジニア #yjmu
絶対にタダでは転ばない広告エンジニア #yjmu絶対にタダでは転ばない広告エンジニア #yjmu
絶対にタダでは転ばない広告エンジニア #yjmu
 
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
 
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by  Daisuke HiramaB34 Extremely Tuned Hadoop Cluster by  Daisuke Hirama
B34 Extremely Tuned Hadoop Cluster by Daisuke Hirama
 
AMPと広告とOpenRTBと #yjmu
AMPと広告とOpenRTBと #yjmuAMPと広告とOpenRTBと #yjmu
AMPと広告とOpenRTBと #yjmu
 
【デブサミ夏AL】グリーのboxの使い方
【デブサミ夏AL】グリーのboxの使い方【デブサミ夏AL】グリーのboxの使い方
【デブサミ夏AL】グリーのboxの使い方
 
市場で勝ち続けるための品質とテストの技術①
市場で勝ち続けるための品質とテストの技術①市場で勝ち続けるための品質とテストの技術①
市場で勝ち続けるための品質とテストの技術①
 
2016年2月4日 空間OSの設計コンセプトと先端IT
2016年2月4日 空間OSの設計コンセプトと先端IT2016年2月4日 空間OSの設計コンセプトと先端IT
2016年2月4日 空間OSの設計コンセプトと先端IT
 
IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」
IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」
IoT勉強会「とりあえずIoT的なものを作ってみた ~センサーデータの測定・収集・蓄積・分析・出力まで~」
 
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
 
YJTC18 A-1 大規模サーバの戦略
YJTC18 A-1 大規模サーバの戦略YJTC18 A-1 大規模サーバの戦略
YJTC18 A-1 大規模サーバの戦略
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 

Similar to ビッグデータ・データマートとは

20191024_optim_tech_night_techleadmeeting
20191024_optim_tech_night_techleadmeeting20191024_optim_tech_night_techleadmeeting
20191024_optim_tech_night_techleadmeetingKazuhiro Wada
 
GeneXus Day 2009 Winter - GeneXus事例紹介
GeneXus Day 2009 Winter - GeneXus事例紹介GeneXus Day 2009 Winter - GeneXus事例紹介
GeneXus Day 2009 Winter - GeneXus事例紹介yoshitake
 
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣株式会社オプティム
 
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...Insight Technology, Inc.
 
Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦
Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦
Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦IoTビジネス共創ラボ
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話Kamonohashi
 
夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)
夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)
夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)takumibp
 
「まずやってみる」を実現するプロダクト紹介.pptx
「まずやってみる」を実現するプロダクト紹介.pptx「まずやってみる」を実現するプロダクト紹介.pptx
「まずやってみる」を実現するプロダクト紹介.pptxssuseraa47a02
 
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会 海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会 IoTビジネス共創ラボ
 
【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用
【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用
【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用yuuki takizawa
 
【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略Developers Summit
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCYahoo!デベロッパーネットワーク
 
日本のIT市場のトピックス
日本のIT市場のトピックス日本のIT市場のトピックス
日本のIT市場のトピックスHiroyasu NOHATA
 
第11回SIA例会プレゼン資料
第11回SIA例会プレゼン資料第11回SIA例会プレゼン資料
第11回SIA例会プレゼン資料Tae Yoshida
 
IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会
IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会
IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会IoTビジネス共創ラボ
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...Insight Technology, Inc.
 
ソフトウェアジャパン2018 ITフォーラムセッション(1)
ソフトウェアジャパン2018 ITフォーラムセッション(1)ソフトウェアジャパン2018 ITフォーラムセッション(1)
ソフトウェアジャパン2018 ITフォーラムセッション(1)aitc_jp
 

Similar to ビッグデータ・データマートとは (20)

20191024_optim_tech_night_techleadmeeting
20191024_optim_tech_night_techleadmeeting20191024_optim_tech_night_techleadmeeting
20191024_optim_tech_night_techleadmeeting
 
GeneXus Day 2009 Winter - GeneXus事例紹介
GeneXus Day 2009 Winter - GeneXus事例紹介GeneXus Day 2009 Winter - GeneXus事例紹介
GeneXus Day 2009 Winter - GeneXus事例紹介
 
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
ソラコム×オプティム共催セミナー 「Ai ファースト」のビジネス立ち上げの秘訣
 
ログについて改めて考えてみた
ログについて改めて考えてみたログについて改めて考えてみた
ログについて改めて考えてみた
 
ビッグデータとデータマート
ビッグデータとデータマートビッグデータとデータマート
ビッグデータとデータマート
 
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
[db analytics showcase Sapporo 2017] B27:世界最速のAnalytic DBはHadoopの夢を見るか by 株式会...
 
Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦
Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦
Azureを活用した未来型無人化店舗(AI STORE LAB)への挑戦
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
 
夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)
夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)
夏まつり2016 Session4(事例ローテーション:インフォテック 謝花様)
 
「まずやってみる」を実現するプロダクト紹介.pptx
「まずやってみる」を実現するプロダクト紹介.pptx「まずやってみる」を実現するプロダクト紹介.pptx
「まずやってみる」を実現するプロダクト紹介.pptx
 
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会 海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
 
【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用
【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用
【Zeal】azure + power biで始めるbigdata分析の第一歩 20171115版 公開用
 
【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiC
 
日本のIT市場のトピックス
日本のIT市場のトピックス日本のIT市場のトピックス
日本のIT市場のトピックス
 
第11回SIA例会プレゼン資料
第11回SIA例会プレゼン資料第11回SIA例会プレゼン資料
第11回SIA例会プレゼン資料
 
IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会
IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会
IoTで働き方改革 ~あなたに最適な働き方を教えます~_IoTビジネス共創ラボ 第8回勉強会
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
 
20180831_NTC3_NSE
20180831_NTC3_NSE20180831_NTC3_NSE
20180831_NTC3_NSE
 
ソフトウェアジャパン2018 ITフォーラムセッション(1)
ソフトウェアジャパン2018 ITフォーラムセッション(1)ソフトウェアジャパン2018 ITフォーラムセッション(1)
ソフトウェアジャパン2018 ITフォーラムセッション(1)
 

More from 株式会社オプト 仙台ラボラトリ

More from 株式会社オプト 仙台ラボラトリ (6)

クラウド入門(AWS編)
クラウド入門(AWS編)クラウド入門(AWS編)
クラウド入門(AWS編)
 
失敗から学ぶAWSの監視
失敗から学ぶAWSの監視失敗から学ぶAWSの監視
失敗から学ぶAWSの監視
 
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃうフレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
フレームワークも使っていないWebアプリをLaravel+PWAでモバイルアプリっぽくしてみちゃう
 
RPAって何、どんなことできるの
RPAって何、どんなことできるのRPAって何、どんなことできるの
RPAって何、どんなことできるの
 
業務の自動化をはじめよう!!
業務の自動化をはじめよう!!業務の自動化をはじめよう!!
業務の自動化をはじめよう!!
 
RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方
RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方
RPA(ロボティック・プロセ ス・オートメーション) 仮想労働者の雇い方
 

ビッグデータ・データマートとは

  • 1. © Opt, Inc. All Rights Reserved. ビッグデータ・データマートとは 株式会社オプト 仙台テクノロジー開発部 第2回タガヤス登壇資料 
  • 2. © Opt, Inc. All Rights Reserved. 自己紹介 名 前:萩野 輝(はぎの あきら) 所 属:株式会社オプト 仙台テクノロジー開発部 好 物:カツ丼   注目点:公の場での登壇は
  • 3. © Opt, Inc. All Rights Reserved. 自己紹介 名 前:萩野 輝(はぎの あきら) 所 属:株式会社オプト 仙台テクノロジー開発部 好 物:カツ丼   注目点:公の場での登壇は初!!
  • 4. © Opt, Inc. All Rights Reserved. Copyright © 2017 OPT Inc. All Rights Reserved. 目次 ● ビッグデータとは ● データウェアハウスとは ● データマートとは
  • 5. © Opt, Inc. All Rights Reserved. ビッグデータとは
  • 6. © Opt, Inc. All Rights Reserved. ビッグデータってどんなデータ?
  • 7. © Opt, Inc. All Rights Reserved. ビッグデータとは、通常のツールで は扱えないような、非常に大きな データ量のデータのこと。 wikiによると2012年時点の定義で は、数十テラ~数ペタバイト。
  • 8. © Opt, Inc. All Rights Reserved. オプトではたくさんの顧客の広告を扱っ ており 仙台で扱っているデータは 1日でおよそ11.5 GBです (※データベース取込前の圧縮ファイル状態です)
  • 9. © Opt, Inc. All Rights Reserved. ちょっと小話 新聞は朝刊・夕刊合わせて 1MBらしい 休刊日を除き、353日発行した場合 1年で353MBとすると・・・ 11.5GB => 11500MB => 32.5年分
  • 10. © Opt, Inc. All Rights Reserved. 現在の蓄積されているデータ総量 はというと・・・
  • 11. © Opt, Inc. All Rights Reserved. 4.02 TB Redshiftの総利用量 (Redshiftのデータ圧縮は最大1/4)
  • 12. © Opt, Inc. All Rights Reserved. レコード件数でいうと、 だいたい・・・
  • 13. © Opt, Inc. All Rights Reserved. 75億!あと、2000万 Redshiftの総データ件数
  • 14. © Opt, Inc. All Rights Reserved. ちなみに・・・ オプトで扱っている 広告データは 大きく分けて2種類あります
  • 15. © Opt, Inc. All Rights Reserved. Google、Yahoo!など 広告を掲載している 広告媒体から 取得しているデータ ※取り扱い媒体数100以上 Google Yahoo! Facebook Twitter LINE criteo
  • 16. © Opt, Inc. All Rights Reserved. ADPLAN(弊社製品)などの 広告掲載効果を測定する 広告効果測定ツールから 取得しているデータ
  • 17. © Opt, Inc. All Rights Reserved. 分析しやすい形に集計して格納 Redshift 広告媒体データ 広告効果測定ツール データ Google Yahoo! Facebook Twitter LINE criteo etc... etc...
  • 18. © Opt, Inc. All Rights Reserved. そうすることで どの広告を いつ どんな端末から 何回表示したか 何回クリックしたか などなど 分析できています
  • 19. © Opt, Inc. All Rights Reserved. データ量が大きいだけ?
  • 20. © Opt, Inc. All Rights Reserved. データ量以外にも 定義があります
  • 21. © Opt, Inc. All Rights Reserved.  3V  ※ ダグ・レイニー(Doug Laney)氏提言
  • 22. © Opt, Inc. All Rights Reserved. ・Volume(量)  データ量のこと 通常のツールでは扱えないような、非 常に大きなデータ量
  • 23. © Opt, Inc. All Rights Reserved. ・Velocity(頻度)  データ取得の頻度のこと 短い周期で大量のデータが発生
  • 24. © Opt, Inc. All Rights Reserved. ・Variety(多様性)  データの種類のこと 様々種類のデータかつ、それぞれが 関連づいている
  • 25. © Opt, Inc. All Rights Reserved. たとえば・・・
  • 26. © Opt, Inc. All Rights Reserved. 発行された新聞の全文字データ
  • 27. © Opt, Inc. All Rights Reserved. データは多そうだが、 テキストデータのみで 発生頻度も高くはない
  • 28. © Opt, Inc. All Rights Reserved. ダメビッグ! ※ 造語です
  • 29. © Opt, Inc. All Rights Reserved. 日別天気情報 + ネット広告媒体データ + 広告効果計測ツールデータ
  • 30. © Opt, Inc. All Rights Reserved. データ量、発生頻度も高く 種類の異なるデータ かつ、組み合わせて分析可能
  • 31. © Opt, Inc. All Rights Reserved. ナイスビッグ! ※ 造語です
  • 32. © Opt, Inc. All Rights Reserved. 3Vの他にも Veracity(正確性) Value(価値) なども定義として 提唱されている
  • 33. © Opt, Inc. All Rights Reserved. まとめ ビッグデータとは、量・頻度・多様性 の3Vに沿ったデータを指す。 中でも、一般的に量が重視されてい る。
  • 34. © Opt, Inc. All Rights Reserved. データウェアハウスとは?
  • 35. © Opt, Inc. All Rights Reserved. 対で表現されることが多い データウェアハウス データマート
  • 36. © Opt, Inc. All Rights Reserved. 直訳すると・・・ データウェアハウス:データの倉庫 データマート:データの市場
  • 37. © Opt, Inc. All Rights Reserved. 倉庫と市場のイメージ データウェアハウス データマート 目的別切り出しておく 欲しいものが探しやすい
  • 38. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データウェアハウス ここに見取り図がでてきます
  • 39. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データウェアハウス 野菜 キャベツ 白菜 衣類 ジーンズ スカート 肉 鶏肉 牛肉 玩具 ドローン ゲーム機 ケーキ ロールケーキ ショートケーキ フルーツ いちご ほおずき
  • 40. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データウェアハウス 野菜 キャベツ 白菜 衣類 ジーンズ スカート 肉 鶏肉 牛肉 玩具 ドローン ゲーム機 ケーキ ロールケーキ ショートケーキ フルーツ いちご ほおずき
  • 41. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう データマート ここに見取り図がでてきます
  • 42. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう ケーキ ショートケーキ データマート
  • 43. © Opt, Inc. All Rights Reserved. ショートケーキを探してみよう ケーキ ショートケーキ データマート
  • 44. © Opt, Inc. All Rights Reserved. データマートの方が、 格段に探しやすく 短時間で見つけられましたよね
  • 45. © Opt, Inc. All Rights Reserved. イメージがわいたところで データウェアハウスの説明を 再開します
  • 46. © Opt, Inc. All Rights Reserved. データウェアハウスとは、意思決定 のために目的別に編成、統合化さ れた、時系列で更新をしないデータ の集合体 ※ ビル・インモン(William H. Inmon)氏提言
  • 47. © Opt, Inc. All Rights Reserved.  4つの要件 
  • 48. © Opt, Inc. All Rights Reserved. ・目的別(サブジェクト指向)  分析したいものを軸に、データが まとめられている
  • 49. © Opt, Inc. All Rights Reserved. ・統合化  全体のデータが、統一された フォーマットになっている
  • 50. © Opt, Inc. All Rights Reserved. ・時系列  経過の変化を分析できるよう、過 去のデータをもっている
  • 51. © Opt, Inc. All Rights Reserved. ・更新しない(恒常的)  削除や更新をしない  (過去のものは実績のため)
  • 52. © Opt, Inc. All Rights Reserved. たとえば・・・
  • 53. © Opt, Inc. All Rights Reserved. ある会社に、 天気情報・ネット広告・ユーザ情報 などを管理した、システムがある
  • 54. © Opt, Inc. All Rights Reserved. 類似の商品Aの過去情報から、いつ、 誰に向けて広告をだせば購入数が増え るか分析したいAさん
  • 55. © Opt, Inc. All Rights Reserved. 天気情報 システム ネット広告 システム ユーザ情報 システム 各管理システムのデータ例 調査日時, 天気状態, 気温, … 広告番号, 掲載日時, 閲覧者, 成果, … ユーザID, 性別, 年齢, …
  • 56. © Opt, Inc. All Rights Reserved. 天気情報 システム ネット広告 システム ユーザ情報 システム 各管理システムのデータ例 調査日時, 天気状態, 気温 広告番号, 掲載日時, 閲覧者 ユーザID, 性別, 年齢 データの項目名がバラバラ データの保存場所・期間も異っ ており組み合わせが 困難!!
  • 57. © Opt, Inc. All Rights Reserved. ETL (Extract Transform Load) (抽出・加工・ロード) データウェアハウス 各システムのデータを抽出 データウェアハウス構築 目的に合わせて、集計して格納する (過去も含め、必要な期間分) 天気情報 システム ネット広告 システム ユーザ情報 システム 日別 期間別広告成果情報 月別 年別 分別 日別 週別
  • 58. © Opt, Inc. All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1
  • 59. © Opt, Inc. All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1
  • 60. © Opt, Inc. All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1・40~60代の購入が多い ・雨の日はさらに多くなる ・ただし、金曜日は激減  (飲み会かな?)
  • 61. © Opt, Inc. All Rights Reserved. データマートとは?
  • 62. © Opt, Inc. All Rights Reserved. データマートとは、頻繁に利用する データのみ切り出しておいたもの。 同時利用数・データ量削減などから レスポンスの向上が期待できる。
  • 63. © Opt, Inc. All Rights Reserved. たとえば・・・
  • 64. © Opt, Inc. All Rights Reserved. ある会社に、 天気情報・ネット広告情報・ユーザ 情報などを管理した、システムの データを集計して格納したデータ ウェアハウスがある
  • 65. © Opt, Inc. All Rights Reserved. 毎日、直近3日の日別広告閲覧数 と購入数を前年と比較したい、コン サルタントのAさんがいた場合
  • 66. © Opt, Inc. All Rights Reserved. データウェアハウスの場合 直近3日 探すのが手間で、 データ総量が多いため 時間もかかる・・・ データウェアハウス 日別のデータ 昨年同日 日別 期間別広告成果情報 月別 年別 分別 日別 週別
  • 67. © Opt, Inc. All Rights Reserved. データマートの場合 直近3日と 昨年同日を 切り出しておく 欲しいデータが まとまっている データウェアハウス 日別 期間別広告成果情報 月別 年別 分別 日別 週別 直近3日部分 昨年同日部分 直近3日 と 昨年同日 日別 データマート
  • 68. © Opt, Inc. All Rights Reserved. まとめ
  • 69. © Opt, Inc. All Rights Reserved. ビッグデータ: 3V( Volume(量)、Velocity(頻度)、Variety(多様性) )  を基本定義としたデータ データウェアハウス: 4要件( 目的別、統合化、時系列、更新しない )  を満たすデータの集合体 データマート: 高頻度に利用するデータのみ切り出したもの
  • 70. © Opt, Inc. All Rights Reserved. 参考サイト ・wikipedia(ビッグデータ、ETL、データマート) https://ja.wikipedia.org/wiki/ビッグデータ https://ja.wikipedia.org/wiki/Extract/Transform/Load https://ja.wikipedia.org/wiki/データマート ・Amazon Redshift https://aws.amazon.com/jp/redshift/ ・ボクシルマガジン データウェアハウスを徹底解説!データベースとの 違い・DWH・RDB https://boxil.jp/mag/a2426/
  • 71. © Opt, Inc. All Rights Reserved. ご清聴 ありがとうございました