リクルートライフスタイルのデータを支える技術

リクルートライフスタイルの
データを支える技術
〜TreasureDataとAWSと私〜
Treasure Data Tech Talk
03/30 2016
山田雄
ネットビジネス本部
データ基盤チーム

1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
本日のアジェンダ

■山田雄（ヤマダユウ）
株式会社リクルートライフスタイル
ネットビジネス本部
データ基盤T
Twitter:@nii_yan
Blog:イクジニアブログ
・以前はフリーランスエンジニア
縁があってリクルートライフスタイルにお世話になることになった。
ビックデータ、Ruby、ビールが好き。
自己紹介

Engineering
for data
Business
with data
技術でビジネスを
ドライブする
Stable Infrastructure Continual Innovation+
リクルートライフスタイルにおけるエンジニアの役割

約300人の分析者
データサイエンティスト
IBM Netezza
Amazon Redshift
TreasureData
ETLフレームワーク
リクルートライフスタイルのデータ基盤

フレームワークで出来ること

TreasureData以前の環境
スケールアウトしたいけど・・・
アップデートつらたん・・・
Hiveじゃ遅い・・・

スケールアウト(オンプレの場合)
サーバ何買えばいいですか？
ラックが空いてない・・・
ディスク容量が他のサーバと合わない・・・

スケールアウト(オンプレの場合)
サーバ何買えばいいですか？
ラックが空いてない・・・
ディスク容量が他のサーバと合わない・・・
辛い・・・
楽しい

スケールアウト(Treasureの場合)

アップデート(オンプレの場合)
もう１つ検証用クラスタ用意する？
データの同期どうしよう？distcpしてもmetaデータは・・・
アップデート後のselect結果が違う・・・ToT

もう１つ検証用クラスタ用意する？
データの同期どうしよう？distcpしてもmetaデータは・・・
アップデート後のselect結果が違う・・・ToT
辛い・・・
楽しい

http://www.slideshare.net/yuyamada777/cdh45-update

アップデート(Treasureの場合)
検証手伝いますよー！
データの同期は必要ないですよー！
ダウンタイムないですよー！

Hiveじゃ遅い(オンプレの場合)
Tezにしましょう
パーケットファイルにしましょう
１０％早くなりました！！ ToT

Hiveじゃ遅い(オンプレの場合)
Tezにしましょう
パーケットファイルにしましょう
１０％早くなりました！！ ToT
辛い・・・
楽しい

Hiveじゃ遅い(Treasureの場合)

About Presto
• in memoryのクエリエンジンでとにかく早い
• クエリによってはHiveの１００倍とか
• with句やwindow関数使えて便利
• ANSI基準のSQL書けるがお作法がある
• count(distinct)ダメ絶対
• order_byダメ絶対
• joinは大きいテーブルを最初に

Prestoを自力で運用しようとすると・・・
• アップデートが早い
• coordinatorがSPOF
• １つのクエリでクラスタ全体を殺せる
• アップデートにより突如クエリが動かなくなる
• Bug?デグレ？
• とあるアップデートでMySQLのDB見えなく
なったことあり
なかなか辛い・・・

Treasureへのデータ移行方法
Seque
nceFile
Seque
nceFile
TSV
distcp HIVEで変換

Treasureに今後期待すること
• UDF
• HBase
• SqoopなどのHadoopエコシステム
• PrestoでHive以外のデータソースへの連携

守りから攻めへ
• Treasureによって守り(運用工数減)は固めら
れた
• 次は攻め(開発)だ！

荒野で生き抜くために

DynamoDB Lambda
API
Gateway
Kafka
on-premises
Configuration
Management
Monitoring
Grafana
Grand Design

DynamoDB Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka
データハブ基盤

Lambda
API
Gateway
on-premises
Configuration
Management
Monitoring
Grafana
Kafka DynamoDB
ストリーム処理基盤

Kafka
on-premises
Configuration
Management
Monitoring
Grafana
DynamoDB Lambda
API
Gateway
データ提供部分(API)

Kafkaを共通データハブとして活用
Kafka Redshift
Kafka,Redshift間のデータ連携に
はcamus,blueshiftを使用

td-ios-sdkを利用したデータ取得

DynamoDB Lambda
API
Gateway
Kafka
ラムダアーキテクチャに向けて
Redshift

1.自己紹介
2.リクルートライフスタイルのデータ基盤
3.TreasureDataを選んだ理由
4.Sparkを使用したストリーム基盤
5.これから
6.番外編
本日のアジェンダ

ご清聴ありがとうございました

リクルートライフスタイルのデータを支える技術

More Related Content

What's hot

Viewers also liked

Similar to リクルートライフスタイルのデータを支える技術

Recently uploaded

リクルートライフスタイルのデータを支える技術

Editor's Notes