SlideShare a Scribd company logo
オンプレ、クラウドを組み合わ
せて作るビックデータ基盤
-データ基盤の選び方-
builderscon tokyo 2017
08/04 2017
山田 雄
ネットビジネス本部
データ基盤チーム
1.自己紹介
2.リクルートライフスタイルの分析基盤
3.分析基盤(DWH)の比較
4.分析基盤の続け方
本日のアジェンダ
1.自己紹介
2.リクルートライフスタイルの分析基盤
3.分析基盤(DWH)の比較
4.分析基盤の続け方
本日のアジェンダ
■山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
データ基盤T
Twitter:@nii_yan
GitHub:https://github.com/yu-yamada
・以前はメールマーケティング用基盤の作成からデータ分析まで関わる
現在はリクルートライフスタイルの共通分析基盤の開発、運用全般を担当
ビックデータ、Ruby、ビール、カップ焼きそばが好き。
自己紹介
会社紹介
Engineering
for data
Business
with data
技術でビジネスを
ドライブする
Stable Infrastructure Continual Innovation+
リクルートライフスタイルにおけるエンジニアの役割
1.自己紹介
2.リクルートライフスタイルの分析基盤
3.分析基盤(DWH)の比較
4.分析基盤の続け方
本日のアジェンダ
リクルートライフスタイルの持つデータ
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
事業データや、サイトの行動ログを日次
DWHに連携し、横断的に分析できる環境を
ユーザに提供
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
各事業のデータを日次バッチで連携
連携テーブル数2000以上
1度フラットファイルにしてから
S3にuploadして、Redshiftにload
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
DB以外のデータも連携し
たいという要望があるの
で、S3をIFとして連携
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
サイトの行動ログは1度
TreasureDataに入れた後、
マートを作成し、マートのみ
Redshift,Netezzaへ連携
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
IFをS3に統一することに
より、S3をデータレイク
として使用
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
Netezzaは売上に直
結する施策バッチ
を走らせる環境
一般ユーザには解
放しないことに
よってアドホック
クエリの影響を受
けない環境を作っ
ている
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
Adohoc分析用に開放してい
る環境
ds2.8xlarge * 11
日次更新されてデータ鮮度は
高いが、常にloadとupdate
が走っているため負荷が高い
・1500tables load/day
・1000tables update/day
負荷が非常に高くて単純な
selectにも時間がかか
る・・・
Create tableに5分とか
そこからのGrantに5分とか
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
Adohoc分析用に開放している環境
左のクラスタのsnapshotから週次で作成
データ鮮度は古いがload,updateが走らないため負荷が低く、快適にクエリ
が投げられる
使われないデータは削除し、データ量的に最小のクラスタ構成としている
鮮度は古いデータでもいいが、負荷の低い環境を使いたいユーザ向け
クエリの実行テストにも使われる
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
鮮度の高いデータを付き合わせたい時の
ために、slackでテーブル名を呟くとS3
のデータをloadしてくれるbotを用意
ユーザ主体でload出来ることによって運
用コスト削減
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
サイトカタリストの生ログや
アプリのSDKログをためてい
る
毎月約100億レコード増加
運用は全て任せられるので、
運用コストが低い
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
サイトカタリストのログ、
Redshiftに入っているデータ
を入れ、TreasureData、
Redshiftを掛け合わせた環境
になれないか模索中
キャパシティ管理をしなくて
良いので運用コストが低い
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
約300人のユーザが、
自分にあった環境を使
い、日々データの分析
を行っている
データサイエンティス
ト、マーケター、ディ
レクター、営業と様々
な職種の人が分析基盤
を使用
Tableauを用意するこ
とにより、クエリが書
けない人でも利用が出
来る
リクルートライフスタイルの分析基盤
DWH
HPB JLN
HPG
・・・
各事業データ
施策Batch用
Netezza
サイトログ保存用
TreasureData
Adhoc分析用
Redshift
外部データ
TSV CSV
3
行動ログ
SDK
Adhoc分析用
Redshift
AWS
S3
S3
S3
GCP
模索中
BigQuery
約300人のユーザが、自分にあった環境を使い、
日々データの分析を行っている
データサイエンティスト、マーケター、ディレクター、
営業と様々な職種の人が分析基盤を使用
Tableauを用意することにより、クエリが書けない
人でも利用が出来る
約300人のユーザが、自分にあった環境を使い、
日々データの分析を行っている
データサイエンティスト、マーケター、ディレクター、
営業と様々な職種の人が分析基盤を使用
Tableauを用意することにより、クエリが書けない
人でも利用が出来る
DWHに集まったデータを使
い、SPSSやRでデータ分析
をし、CMSなどに連携する
ことで売り上げを上げる施
策を走らせている
メルマガのOnetoOne
ユーザ毎の広告の出しわけ
ポイント付与など・・・
ETLフレームワーク
独自で実装した ETLのフレームワークを用意し、SQLと
YAMLを作るだけでデータの移動を出来るようにしている
フレームワークで出来ること
Meta情報管理
Meta情報管理
事業DBやDWH、Adobe Analyticsのメタデータを日次
で連携し、どのテーブルはどんな定義でどんなデータ
が入ってるいるのかを一元的に管理。
また、カラムに対してのコメント機能もあるため、単純
なDDLよりもわかりやすい情報が載っている。
DynamoDB Lambda
API
Gateway
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
リアルタイムデータを扱う基盤
DynamoDB Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka
データハブ基盤
Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka DynamoDB
ストリーム処理基盤
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
DynamoDB Lambda
API
Gateway
データ提供部分(API)
1.自己紹介
2.リクルートライフスタイルの分析基盤
3.分析基盤(DWH)の比較
4.分析基盤の続け方
本日のアジェンダ
DWH(データウェアハウス)
直訳するとデータの倉庫
• 分析に特化した、データを貯める場所。
• 列指向の場合が多い。
• 基本的にデータは追記のみ行う(削除、更新は行わない)。
• レスポンスはそこまで早くない。
ざっくり言うとRDBよりレイテンシは大きいが膨大なデータを持てるシステム
のこと。
そもそもDWHって?
1. 容量
2. 料金
3. スケール出来るか
4. データパイプラインは作りやすいか
5. 分析者の用途に合っているか
1. Crudができるか
2. 分析ツール、モデリングツールが使えるか(SPSSなど)
3. ODBCなどで接続出来るか
4. ANSI準拠か
5. リソース分割出来るか
6. 運用面は楽か
分析基盤の検討軸
クラウド
or
オンプレ
クラウド
or
オンプレ
オンプレ
Hadoop
(Hive,Presto,Spark…)
Exadata , Netezza, Teradata
クラウド
AWS
Redshift
EMR
GCP BigQuery
Paas TreasureData
オンプレ:Hadoop(Hive,Presto,Spark)
容量 サーバ台数次第、上限はDCなどで決まる
料金 初期費用が高い
スケール サーバを増やせば出来るがしんどい
データパイプライン OSSが充実
crud パーティション単位でのdelete,updateは可能
周辺分析ツール 充実
接続ツール JDBC,ODBC,その他独自ツール
ANSI準拠 実行するクエリーエンジン (Hive, Spark SQL, Presto 等) に準ずる
が、基本的には対応しない
リソース分割 可能
運用 ハード、ソフト共に体制組む必要あり
オンプレ:Hadoop(Hive)
容量 サーバ台数次第、上限はDCなどで決まる
料金 初期費用が高い
スケール サーバを増やせば出来るがしんどい
データパイプライン OSSが充実
crud × パーティション単位でのdelete,updateは可能
周辺分析ツール 充実
接続ツール JDBC,ODBC,その他独自ツール
ANSI準拠 独自
リソース分割 可能
運用 × ハード、ソフト共に体制組む必要あり
Hortonworksやclouderaの有償サポートをつけること
でソフト面の運用を下げることは可能。
また、OSSなので、独自に改造したり、Prestoを組み合
わせることや、TezやSparkを使いHiveの高速化も出来
るが運用は辛い。
Hadoopは広く使われている技術なので、ドキュメント
の多さでは優れている。
(でも色々自分でいじれるのは楽しい・・・)
オンプレ: Exadata,Netezza,Teradataなど
容量 最初の構成による。上限あり
料金 初期費用が高い
スケール ほぼ出来ないと思った方が良い
データパイプライン 一部OSSが対応してるものの、有償のもの以外は独自実装が
必要。Ora->Exaなど同じ会社のデータ以降は◎
crud 基本的に対応
周辺分析ツール SPSS(IBM)など、各社特化して対応
接続ツール JDBC,ODBCなどだが独自のためOS対応など必要な場合あり
ANSI準拠 独自
リソース分割 可能
運用 ハード、ソフト共に体制組む必要あり
オンプレ: Exadata,Netezza,Teradataなど
容量 最初の構成による。上限あり
料金 初期費用が高い
スケール ほぼ出来ないと思った方が良い
データパイプライン 一部OSSが対応してるものの、有償のもの以外は独自実装が
必要。Ora->Exaなど同じ会社のデータ以降は◎
crud 基本的に対応
周辺分析ツール SPSS(IBM)など、各社特化して対応
接続ツール JDBC,ODBCなどだが独自のためOS対応など必要な場合あり
ANSI準拠 独自
リソース分割 可能
運用 ハード、ソフト共に体制組む必要あり
どのような分析用途で使いたいか?
データ取得元のDBは何か?などによっては選択肢
に入ってくる場合もあり。
ハード的に早い(FPGA使ってるなど)
ただ、数年使うことを見越すと初期のデータ見積もり
が非常に重要。
オンプレはEOSLに注意
クラウド: Amazon EMR(Hadoop)
容量 構成次第 上限なし
料金 構成次第 使わない際は落として節約可能
スケール 即時可能
データパイプライン DMS,GlueなどAWSのサービスで対応。その他OSSでも対応あり
crud delete,updateは制限あり、ファイルフォーマットや、オプションの
指定による
周辺分析ツール Tableasu,QuickSightなど
接続ツール JDBC,ODBC,その他独自ツール
ANSI準拠 実行するクエリーエンジン (Hive, Spark SQL, Presto 等) に準ずる
が、基本的には対応しない
リソース分割 可能
運用 AWSにお任せ
クラウド: AWS EMR(Hadoop)
容量 構成次第 上限なし?
料金 構成次第 使わない際は落として節約可能
スケール 即時可能
データパイプライン DMS,GlueなどAWSのサービスで対応。その他OSSでも対応あり
crud パーティション単位でのdelete,updateは可能
周辺分析ツール 充実
接続ツール JDBC,ODBC,その他独自ツール
ANSI準拠 独自
リソース分割 可能
運用 AWSにお任せ
オンプレのHadoopと比べて、データをS3にとっておけ
るので、エンジン部分のみの停止、バージョンアップ、
移行、複数クラスタでのデータ共有が簡単に出来る
のが魅力。
EC2ではHortonworks,clouderaが出しているクラウド
版を選ぶことも可能(EMRは不可)。
24時間動かし続けないとならない場合、オンプレより
も高価になる場合もある。
クラウド: Amazon Redshift
容量 構成次第 上限2PB,Spectrum使用で上限なし
料金 構成次第 スモールスタート可能
スケール 構成によってはスケールには時間がかかり、その間はselectの
み
データパイプライン DMS,GlueなどAWSのサービスで対応。その他OSSでも対応あり
crud 基本的に対応
周辺分析ツール Tableau,QuickSight,SPSSなど対応
接続ツール 独自 JDBC ドライバーを提供。
PostgreSQL準拠のためPosgreSQL対応のもので接続可能
ANSI準拠 PostgreSQL8.0.2準拠
リソース分割 可能 (一部cpuなど出来ない部分あり)
運用 AWSにお任せ
クラウド: AWS Redshift
容量 構成次第 上限2PB
料金 構成次第 スモールスタート可能
スケール 構成によってはスケールには時間がかかり、その間はselectの
み
データパイプライン DMS,GlueなどAWSのサービスで対応。その他OSSでも対応あり
crud 基本的に対応
周辺分析ツール Tableau,SPSSなど対応
接続ツール PostgreSQL準拠のためPosgreSQL対応のもので接続可能
独自 JDBCも用意
ANSI準拠 PostgreSQL8.0.2準拠
リソース分割 可能 (一部cpuなど出来ない部分あり)
運用 AWSにお任せ
RDBのように使えるのは魅力。ただ、indexやPKがな
いなど使い方に注意が必要。
毎週パッチあてのための再起動が発生する可能性
があり、SLAは定義されていない。
クエリの同時実行数(commit数)が増えてくると顕著
にパフォーマンスが下がる場合がある。
クラウド: GCP BigQuery
容量 上限なし
料金 クエリ課金
スケール 裏側で勝手にしてくれる
データパイプライン DataflowなどGCPのサービスで対応。その他OSSでも対応あり
crud 基本的に対応(回数制限あり)
周辺分析ツール Tableau,DataStudioなど対応
接続ツール APIを使用してアクセスが主 ODBCはβ
ANSI準拠 SQL:2011に準拠したものとBQ独自のクエリが使用可能
リソース分割 slot数の制限をかけることは可能
運用 GCPにお任せ
クラウド: GCP BigQuery
容量 上限なし
料金 クエリ課金
スケール 裏側で勝手にしてくれる
データパイプライン DataflowなどGCPのサービスで対応。その他OSSでも対応あり
crud 基本的に対応(回数制限あり)
周辺分析ツール Tableau,DataStudioなど対応
接続ツール APIを使用してアクセスが主 ODBCはβ
ANSI準拠 SQL:2011に準拠したものとBQ独自のクエリが使用可能
リソース分割 slot数の制限をかけることは可能
運用 GCPにお任せ
容量を気にしなくて良いのでキャパシティー管理をし
なくて良いのが特徴。
ただ、クエリ課金で予算がわかりにくため、クエリ放
題のようなプランが用意されている。
しかしそれを使うとslot数、データ量の縛りが出てしま
いキャパシティー管理復活。ToT
crudは出来るが回数制限があるので、注意が必要。
(1テーブルあたり1日更新1000回までなど)
クラウド: Paas TreasureData
容量 契約による上限あり
料金 データ量やリソースにより変動
スケール 契約を変えることにより可能
データパイプライン Fluentd,Embulkなど
crud update以外は対応(presto)
周辺分析ツール Tableau,salesforce など対応
接続ツール JDBCやAPI
ANSI準拠 ANSI準拠 + 独自UDF(presto)
リソース分割 可能(presto) 対応予定(HIVE)
運用 Treasureにお任せ
クラウド: Paas TreasureData
容量 契約による上限あり
料金 データ量やリソースにより変動
スケール 契約を変えることにより可能
データパイプライン Fluentd,Embulkなど
crud update以外は対応(presto)
周辺分析ツール Tableau,salesforce など対応
接続ツール JDBCやAPI
ANSI準拠 ANSI準拠(presto)
リソース分割 可能(presto) 対応予定(HIVE)
運用 Treasureにお任せ
クエリエンジンにHiveとPrestoを選択可能。
Jobスケジューラがある。
Prestoの同時実行数は低めなので、接続人数が多い
場合は注意が必要。
独自sdkやJSと組み合わせてリアルタイムデータの取
得が可能。
まとめ
データ量、取得元データのある場所、データの分析方法な
ど様々な要因によって選ぶ基盤は変わってきます。
1つ選んでも今後ずっとその基盤が最適とは限りません。
データレイク構造にすることでデータは1カ所に集約、エ
ンジンは用途によって変えるということができると柔軟性
のある基盤になるかと思います。
1.自己紹介
2.リクルートライフスタイルの分析基盤
3.分析基盤(DWH)の比較
4.分析基盤の続け方
本日のアジェンダ
#1
ユーザーファーストの基盤を作る
なぜユーザーファーストにするのか
使ってくれる人がいないと分析基盤は継続しないか
ら!
• とにかくユーザが使い易い基盤にする
• 新しい技術使いたいからとかエンジニア善がりの基盤
はNG(IFがAPIのみとか
• ユーザの声を常に聞ける環境を整える
リクルートライフスタイルで取り組んでいること
• 問い合わせ用にslackのchannelを開設
• ユーザアンケートを行う
• 基盤を使う立場になる(マーケターに兼務で入るなど
• データを使うチームを近くに置く
• 毎月メルマガ発行をする
• 社内散歩をする
などなどを行いユーザと仲良くする!
#2
売上の上がる施策バッチを走らせる
なぜ売上を上げないといけないか
売上を上げないと予算がつかないから!
• 分析基盤はとにかくお金がかかる
• 予算はほぼ毎年純増(データ量に相関する場合が多い
• 売上が上がれば予算がついて、より良い基盤が作れる
• さらに売上が上がるバッチを走らせられる
• ROIは計算しなくて良い
• インフラってそんなもんだと思います
• この基盤があるおかげでこんだけ売上の上がるバッチが走っ
てるんだよ〜ぐらいで
• KPIは持ちましょう
#3
運用コストを下げる
なぜ運用コストを下げたいのか
運用は人を幸せにしないから!
• キャパシティ管理をしなくていいように
• ビックデータ基盤で将来のデータ量予測はほぼ不可能
• 障害が起きた際に単純に再実行できるデータパイプラ
インを作る
• 冪等性を担保する
• クラウドに任せるところは任せる
• 魔改造しない
• SLAを緩くする
#4
ユーザの教育を行う
なぜユーザ教育を行うのか
双方の幸せのため
• DWHごとに最適なクエリの書き方があるが、ユーザは
特に意識せずに負荷の高いクエリを投げる場合がある
• DWH全体の負荷が上がり、ユーザ全員に影響する
• クエリ課金のエンジン使っていた際は目も当てられない
• RedshiftなどRDBの用に使えるが、決して使ってはいけ
ない
• Index無い
• 正規化しない方がいい
• カラムナ?なにそれおいしいの?
• パーティション?机の前にあるやつ?
• order byとかcount(distinct)とかコストの高いクエリ多様
リクルートライフスタイルで取り組んでいること
• 半期に1度の勉強会
• おもにその半年間の新規参画者向け
• Redshiftについて
• TreasureDataについて
• BigQueryについて
• Tableauについて
• DataRobotについて・・・など数回に分けて実施
#5
データレイク構成にしておく
なぜデータレイク構成にしておくのか
進化を続けられる基盤になれる
• 新しいエンジンがどんどん出てきている
• 用途によって使いたいエンジンは違う
• スケールアウト出来る分析基盤に対応
• サイズ制限からの解放
データレイクにしておくことによって、新しいエンジンや新
しいニーズが出てきた際も柔軟に対応出来る、進化を続
ける基盤となれる
一緒にデータ基盤作ってくれる人募集中!!!
http://engineer.recruit-lifestyle.co.jp/recruiting/
ご清聴ありがとうございました

More Related Content

What's hot

事例で学ぶApache Cassandra
事例で学ぶApache Cassandra事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
Yuki Morishita
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
 
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
 
私にとってのテスト
私にとってのテスト私にとってのテスト
私にとってのテスト
Takuto Wada
 
DBスキーマもバージョン管理したい!
DBスキーマもバージョン管理したい!DBスキーマもバージョン管理したい!
DBスキーマもバージョン管理したい!
kwatch
 
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
Google Cloud Platform - Japan
 
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
Google Cloud Platform - Japan
 
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのかネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのか
Jun Kato
 
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
MicroAd, Inc.(Engineer)
 
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
MicroAd, Inc.(Engineer)
 
データベース技術の羅針盤
データベース技術の羅針盤データベース技術の羅針盤
データベース技術の羅針盤Yoshinori Matsunobu
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
Tokoroten Nakayama
 
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
NTT DATA Technology & Innovation
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
Yutuki r
 

What's hot (20)

事例で学ぶApache Cassandra
事例で学ぶApache Cassandra事例で学ぶApache Cassandra
事例で学ぶApache Cassandra
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
 
これがCassandra
これがCassandraこれがCassandra
これがCassandra
 
私にとってのテスト
私にとってのテスト私にとってのテスト
私にとってのテスト
 
DBスキーマもバージョン管理したい!
DBスキーマもバージョン管理したい!DBスキーマもバージョン管理したい!
DBスキーマもバージョン管理したい!
 
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
 
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
 
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
スケールアウトするPostgreSQLを目指して!その第一歩!(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
ネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのかネットワークでなぜ遅延が生じるのか
ネットワークでなぜ遅延が生じるのか
 
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
 
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤ベアメタルで実現するSpark&Trino on K8sなデータ基盤
ベアメタルで実現するSpark&Trino on K8sなデータ基盤
 
データベース技術の羅針盤
データベース技術の羅針盤データベース技術の羅針盤
データベース技術の羅針盤
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
 
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
その Pod 突然落ちても大丈夫ですか!?(OCHaCafe5 #5 実験!カオスエンジニアリング 発表資料)
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
 

Similar to オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方

リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤
Yu Yamada
 
リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤 リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤
Recruit Lifestyle Co., Ltd.
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
Google Cloud Platform - Japan
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.
 
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
Yu Yamada
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
Shoji Shirotori
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Recruit Lifestyle Co., Ltd.
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Yu Yamada
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1
Takashi Suzuki
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1
gree_tech
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 
yokyo-unv.
yokyo-unv.yokyo-unv.
yokyo-unv.hirano
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方
Recruit Lifestyle Co., Ltd.
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
Recruit Lifestyle Co., Ltd.
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Recruit Lifestyle Co., Ltd.
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
MicroAd, Inc.(Engineer)
 
JIRA meets Tableau & AWS
JIRA meets Tableau & AWSJIRA meets Tableau & AWS
JIRA meets Tableau & AWS
Recruit Lifestyle Co., Ltd.
 
20160225 interspace system_summary
20160225 interspace system_summary20160225 interspace system_summary
20160225 interspace system_summary
Smz Nbys
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
 

Similar to オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方 (20)

リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤
 
リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤 リクルートライフスタイルの売上を支える共通分析基盤
リクルートライフスタイルの売上を支える共通分析基盤
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
yokyo-unv.
yokyo-unv.yokyo-unv.
yokyo-unv.
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
 
JIRA meets Tableau & AWS
JIRA meets Tableau & AWSJIRA meets Tableau & AWS
JIRA meets Tableau & AWS
 
20160225 interspace system_summary
20160225 interspace system_summary20160225 interspace system_summary
20160225 interspace system_summary
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 

More from Yu Yamada

Google cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalyticsGoogle cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalytics
Yu Yamada
 
ここがつらいよAws batch
ここがつらいよAws batchここがつらいよAws batch
ここがつらいよAws batch
Yu Yamada
 
やってはいけない空振りDelete
やってはいけない空振りDeleteやってはいけない空振りDelete
やってはいけない空振りDelete
Yu Yamada
 
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたkafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
Yu Yamada
 
Uuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみたUuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみた
Yu Yamada
 
リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術
Yu Yamada
 
オンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこオンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこ
Yu Yamada
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア
Yu Yamada
 
CDH4->5 update苦労話
CDH4->5 update苦労話CDH4->5 update苦労話
CDH4->5 update苦労話
Yu Yamada
 

More from Yu Yamada (9)

Google cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalyticsGoogle cloudnext recap_DataAnalytics
Google cloudnext recap_DataAnalytics
 
ここがつらいよAws batch
ここがつらいよAws batchここがつらいよAws batch
ここがつらいよAws batch
 
やってはいけない空振りDelete
やってはいけない空振りDeleteやってはいけない空振りDelete
やってはいけない空振りDelete
 
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたkafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
 
Uuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみたUuidはどこまでuuidか試してみた
Uuidはどこまでuuidか試してみた
 
リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術
 
オンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこオンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこ
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア
 
CDH4->5 update苦労話
CDH4->5 update苦労話CDH4->5 update苦労話
CDH4->5 update苦労話
 

Recently uploaded

2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 

Recently uploaded (16)

2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 

オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方

Editor's Notes

  1. 弊社の特徴として、エンジニアがビジネスのとても近くにいるというのがあります。 図のようにエンジニアの役割は技術によってビジネスをドライブさせることになります。 エンジニアからビジネス側へ提案することが多くある。 あとは、毎年エンジニアがビジネスプランを発表するコンテストもありますし、技術とビジネス両方学べる良い環境だと思います。 リクルートライフスタイルとエンジニアが結びつかない人も多数いるとは思いますが、技術でビジネスをドライブしてる実績が認められ最近はエンジニアを増やすことに注力しています。
  2. うちで言うユーザとはデータサイエンティストなどの分析者やマーケター、ディレクター営業など
  3. ETLフレームワークを独自実装
  4. 様々な部署からの要望に応えられるよう構築
  5. まず、データハブ基盤です。 オンプレミス環境にあるデータはFluentdを介してAWSクラウド上に送られます。 Fluentdから送られたデータはKafkaに保存され、ここがデータハブとして機能しています。 Kafka 0.8 SSL対応してないため、publisherとaggrigator用意 今後は0.9を使ってsslで通信
  6. 次にKafkaに保存されたデータを、Spark Streamingが取り出し、データを加工・集計します。 ここがストリーム処理基盤として機能しています。
  7. Spark-Streamingが加工・集計したデータは、DynamoDBに保存され、Key-Valueの形で保存されます。 エンドユーザーとなるデータ利用者は、APIゲートウェイ・Lambdaを介して取得することで リクエストに対するキャパシティを担保した状態でデータを提供することが可能となります。
  8. どこまでがRDBでどこからDWHなの?という明確な線引きはないため、今回はデータ基盤の比較として出てきそうなものをピックアップして比較してみます
  9. ここら辺の検討軸を主眼に置きつつ幾つかの基盤を見ていきましょう ちなみにビックデータ人材の採用ページ見ると日本だとHadoopという単語が多く見られ、海外だとAWSやGCPなどの単語が多く見られます。
  10. FPGAとかで早い
  11. 障害の話など
  12. ユーザが使い易い基盤を作らないと、あそこ使いにくいから独自で作ろうという子になり、同じような基盤が社内でいっぱいできたりする