SlideShare a Scribd company logo
1 of 63
Download to read offline
© DMM.com
データドリブンを支える
ビッグデータ基盤の変遷
1
自己紹介
2
出相早織
DMM.com プラットフォーム事業本部ビッグデータ部
Hadoop/日次ETL運用
社内データ活用案件
2015年10月 中途入社
チームタスク管理
自己紹介
3
川島崇秀
DMM.com プラットフォーム事業本部ビッグデータ部
Hadoopクラスタ移行(CDH→HDP)
AWSを利用したアドホック分析基盤構築
Hadoop/日次ETL運用
2018年度 新卒入社
アジェンダ
4
DMMグループとビッグデータ部紹介
データドリブン実現へ向けて 課題と対応
課題への対応 ハマった事&得られた知見
データ基盤移行 CDH→HDP
Athena移行
現在の課題と今後の取り組み
DMMグループと
ビッグデータ部紹介
Copyright © since 1998 DMM All Rights Reserved. 5
DMMグループ
6
DMM.com Group は、オンラインゲームや動画配信をはじめとした総合エンタメサイトの提供を行っています。
他にもスマートフォンアプリサービスや人材育成事業といった様々な分野の事業・活動に取り組んでいます。
株式会社インフラトップ
プログラミング教育事業
人材関連事業
株式会社終活ねっと
終活向けサービスの運営
株式会社AQUIZ
自分の好きなモノや
詳しいコトに関するクイズを作成し、
お金に変えることができる Webサイト
株式会社DGホールディングス
グループ各社の計数管理、M&A検
討や経理業務を担当
ビッグデータ部のミッションとお仕事
7
データ活用を通して、事業貢献する
チームのお仕事
(データ収集/蓄積/提供までの
全システムの開発・運用・保守)
DMMサイト内の行動ログ
決済情報、商品情報など各シ
ステムのDB/テーブル
デ
ー
タ
収
集
デ
ー
タ
提
供
各部署
DMM各システム
データ提供API
ビッグデータ基盤
(Hadoopクラスタ)
Redash
これまでのビッグデータ基盤
8
オンプレ
Hadoopクラスタ
(CDH ver 5.10.0)
・・・
・・・
HDFS
YARN
Sqoop/Spark etc
Presto
Digdag
Redash
Hive
ETL実行
他システム
DMMサイト
行動ログ
Tracking
API
Aerospike
RabbitMQ
/Consumer
Sqoop
データ取込
本日主に話すところ
レコメンド
※他チーム管轄
データドリブン実現へ向けて
課題と対応
Copyright © since 1998 DMM All Rights Reserved. 9
背景
10
新CTOの元、データ戦略が動き出した
事業改善におけるデータ活用が活発化してきた
データドリブン文化に向けて
全部署がSQLを介してデータにアクセスする状況に
想定される課題
11
部署毎のデータアクセス制御
同一テーブル内で管理しているデータを
レコード単位で閲覧制限する必要が出てきた
クエリ実行数が急増
オンプレprestoのみで捌くには限界がある
対応検討
12
部署毎のデータアクセス制御
クエリ実行数が急増
Rangerを使いたい!
クラウド環境(AWS)が活用できそう
Hadoopコンポーネントの総合的なセキュリティを実現
レコード単位でのアクセス制御が可能
アクセスポリシーを一元管理可能
結論
13
CDH→HDP + Athena移行を実施してみよう!!
データ基盤移行
CDH→HDP
Copyright © since 1998 DMM All Rights Reserved. 14
15
CDHとは?HDPとは?
HadoopとHadoopエコシステム(Hive, Sqoop等)
を含むソフトウェアディストリビューション
CDH:Cloudera's Distribution including Apache Hadoop
    Cloudera社の製品
   
HDP:Hortonworks Data Platform
Hortonworks社の製品
2019年1月に合併されました
CDHクラスタ(移行前)
16
オンプレ
Hadoopクラスタ
(CDH ver 5.10.0)
Presto
(var 0.182)
Digdag
(var 0.9.24)
Redash
DMMサイト
行動ログ
他システム
各種データ
DataNode:10台
HDFS容量:1400TB
レコメンド
※他チーム管轄
データ使用状況
17
2018年7月時点で205TB使用
= 全体容量の1/3程度しか使っていない
サーバ追加購入しなくても
DataNodeを徐々に間引きながら移行できそう!
移行計画
18
稼働サービスは停止させずに移行する
移行のために新規サーバ購入はしない
※スケジュール調整や同時実行数制御は実施
移行計画
19
オンプレ Hadoopクラスタ
(CDH ver 5.10.0)
Presto
Digdag
Redash
1. 現行のCDHクラスタからDataNode3台間引いてHDP環境構築
Hadoopクラスタ
(HDP ver 2.6.5)
レコメンド
※他チーム管轄
DMMサイト
行動ログ
他システム
各種データ
移行計画
20
オンプレ Hadoopクラスタ
(CDH ver 5.10.0)
Presto
Digdag
Redash
DMMサイト
行動ログ
他システム
各種データ
Hadoopクラスタ
(HDP ver 2.6.5)
並行稼働開始までは
distcpでデータ同期
レコメンド
※他チーム管轄
2. ETL並行稼動&DataNode付替え&ツールの接続先切替え を順次実施
Presto
移行計画
21
オンプレ Hadoopクラスタ
(CDH ver 5.10.0)
Presto
Digdag
Redash
DMMサイト
行動ログ
他システム
各種データ
Hadoopクラスタ
(HDP ver 2.6.5)
レコメンド
※他チーム管轄
3. CDHクラスタ停止&DataNode全てをHDP環境へ追加
CDHとHDPのバージョン比較
22
コンポーネント CDH 5.10.0 HDP 2.6.5
Hadoop 2.6.0 2.7.3
Hive 1.1.0 1.2.1
Tez ☓ 0.7.0
Ranger ☓ 0.7.0
Sqoop 1.4.6 1.4.6
ZooKeeper 3.4.5 3.4.6
Oozie 4.1.0 4.2.0
データ基盤移行
ハマったこと&得られた知見
Copyright © since 1998 DMM All Rights Reserved. 23
HDP移行でのハマりポイント
24
1. ETLの集計クエリが失敗
2. ETL処理遅延が発生
3. Presto経由で参照不可なテーブル
1. ETLの集計クエリが失敗
25
CDH環境で動いていたクエリの一部で、エラーが発生
Hiveのバージョンが上がった
予約語であるカラム名のテーブルが存在していた 
データ型が異なるカラム同士でUnionしていた
予約語であるカラム名のテーブルが存在していた
26
例)
SELECT
user -- 予約語
FROM a
org.apache.hive.service.cli.HiveSQLExcepti
on: Error while compiling statement:
FAILED: ParseException line 2:0 Failed to
recognize predicate 'user'. Failed rule:
'identifier' in table or column ide...
27
クエリ内の予約語をバッククォート(`)で囲む
例)
SELECT
`user` -- 予約語
FROM a
hiveのバージョン別予約語一覧
:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ReservedKeywords
hive.support.sql11.reserved.keywords=false を設定してもよい
予約語であるカラム名のテーブルが存在していた
28
データ型が異なるカラム同士でUnionしていた
例)
SELECT
IF(int_column=0, '', int_column) AS int_column -- 結果が1
FROM a
UNION ALL
SELECT
IF(int_column=0, '', int_column) AS int_column -- 結果が''
FROM b
org.apache.hive.service.cli.HiveSQLExce
ption: Error while compiling statement:
FAILED: SemanticException Schema of
both sides of union should match: Column
int_column is of type int on first table and
type string on second table. Cannot tell
the position of null AST.
29
1. ETLの集計クエリが失敗
結合カラムのデータ型不整合が起こらない書き方へ


 例)
SELECT
IF(int_column=0, NULL, int_column) AS int_column -- 結果が1
FROM a
UNION ALL
SELECT
IF(int_column=0, NULL, int_column) AS int_column -- 結果がNULL
FROM b
30
ETL処理時間が通常の3倍以上 もしくは終わらない
スモールファイルで構成されているテーブルが存在した
2. ETL処理遅延が発生
ETLが他処理にリソースを奪われていた
31
TezでSELECT INSERTする際、
hive.merge.mapfiles=trueが効かない場合がある
スモールファイルで構成されているテーブルが存在した
--hiveconf hive.merge.mapfiles=true
--hiveconf hive.merge.mapredfiles=true
--hiveconf hive.merge.size.per.task=256000000
--hiveconf hive.merge.smallfiles.avgsize=32000000
32
Tezのファイルマージオプションを有効にする



--hiveconf hive.merge.mapfiles=true
--hiveconf hive.merge.tezfiles=true
--hiveconf hive.merge.mapredfiles=true
--hiveconf hive.merge.size.per.task=256000000
--hiveconf hive.merge.smallfiles.avgsize=32000000
スモールファイルで構成されているテーブルが存在した
33
YARNにてスケジューラのキュー分割が
ETLと他の処理で分けられていなかった
ETLが他処理にリソースを奪われていた
34
ETL以外の処理を別のキューで実行される様

キューを分割

ETLが他処理にリソースを奪われていた
HDPのスケジューラ設定
https://jp.hortonworks.com/tutorial/configuring-yarn-capacity-scheduler-with-apache-ambari/
3. Presto経由で参照不可なテーブル
35
Hive経由ではデータ参照できるのにPresto経由だ
と参照できないテーブルが存在した
Hive実行エンジンがMRからTezになった

クエリ実行エンジンがMRからTezになった
36
最後にUNIONした結果をSELECT INSERTした際、
HDFS上にHIVE_UNION_SUBDIRディレクトリが作成され
HDFSの階層が1段深くなっていた
クエリ実行エンジンがMRからTezになった
37
例)
INSERT OVERWRITE TABLE bd_name.table_name
SELECT id, name FROM a
UNION ALL
SELECT id, name FROM b
38
クエリの最後にSELECT処理を入れることで、

HIVE_UNION_SUBDIRが作成されることを防いだ

クエリ実行エンジンがMRからTezになった
クエリ実行エンジンがMRからTezになった
39
例)
WITH target AS (
SELECT id, name FROM a
UNION ALL
SELECT id, name FROM b )
INSERT OVERWRITE TABLE bd_name.table_name
SELECT id, name FROM target
Athena移行
Copyright © since 1998 DMM All Rights Reserved. 40
AWS Athenaとは?
41
AWSが提供するフルマネージドなクエリエンジン
Prestoベースのクエリエンジンを採用
SQL互換/ S3上のデータに対してアドホックにクエリを実行可能
ハイパフォーマンス
クエリ単位の従量課金
実行したクエリのS3スキャン量のみに課金される
1TB/5USD (※2019年4月時点)
ユースケース次第では、低コストなクエリ環境を実現可能
高速なクエリ実行が可能
システム概要: これまでのアドホック分析基盤
42
オンプレ
Hadoopクラスタ
(HDP ver 2.6.5)
HDFS
YARN
Sqoop/Spark etc Hive
Presto Redash
システム概要: 現在のアドホック基盤
43
オンプレ
AWS
Hadoopクラスタ
(HDP ver 2.6.5)
HDFS
YARN
Sqoop/Spark etc Hive
Presto Redash
Athena
Glue
S3
distcpを用いたデータ同期
Athena移行
ハマったこと&得られた知見
Copyright © since 1998 DMM All Rights Reserved. 44
ハマリどころ
45
オンプレ to Athena間のバージョン差異
S3へのデータ転送/スキーマ同期 問題
オンプレ to Athena間のバージョン差異
46
Prestoのバージョン間でクエリ構文が異なる
上位バージョンの機能(CBO等) は未サポート
UDFや一部のクエリが使えない
オンプレPrestoのバージョンは 0.182
Athena側でサポートしていない機能がある
https://docs.aws.amazon.com/ja_jp/athena/latest/ug/other-notable-limitations.html
Athenaは Presto 0.172 ベース
redash上に保存されているクエリの書き換えが必要
オンプレ to Athena間のバージョン差異
47
バージョン間でクエリ構文が異なる
対応
クエリの一括書き換え実施
cast(〜as int) →cast(〜as integer)
S3のデータ転送/スキーマ同期 問題
48
大量の未転送データ&未反映DDL
データ同期してくれないdistcp
永遠に終わらないdistcp
大量の未転送データ&未反映DDL
49
人手でS3への転送設定やDDL反映を実施
転送漏れ検知する仕組みなし
大量の未転送データやDDLの実行漏れが発生!!
これまでのデータ同期
大量の未転送データ&DDL
50
対応
テーブルのメタデータ同期ジョブを作成
create tableのdiffを取り差分があった場合に更新クエリを実行
件数比較ベースのデータ同期ジョブを実装
レコードカウントにdiffがある場合は転送ジョブを実行
データ同期の運用が自動化され、
転送漏れも検知できるようになった!
永遠に終わらないdistcp
51
DB対象のdistcpが2週間経過しても終わらない
FileSize: 3.6TB
distcpのオプション:
--update: 差分のみ転送
--delete : dstのみに存在するファイルを削除
mapper num : 60, bandwidth: 10mb/sec
永遠に終わらないdistcp
52
DB対象のdistcpが2週間経過しても終わらない
要因特定の為に、テーブル単位での転送を実施
FileCount: 1,300,000
永遠に終わらないdistcp
53
一部のテーブルでdistcpが詰まっている事が判明
FileSize: 86.8GB
小さいファイルが大量に存在する場合に
distcpのパフォーマンスが大幅に低下
永遠に終わらないdistcp
54
チューニングできそうなポイント
リソースと相談しつつ、可能な限りMapper数を増やす
小さいファイルを一つにまとめる
S3からファイル一覧取得に使用するスレッド数を増やす
ファイル数が多いとS3からオブジェクトの一覧(List)を取得する部分で
時間がかかる
-numListstatusThreads パラメータで使用するスレッド数を増やすと良いかも(最
大40)
ファイル数が少ない場合はMapperを増やしても効果ないかも
s3distcpを使うと程よいファイルサイズにまとめてくれるらしい
データ同期してくれないdistcp
55
distcp 実行後に一部のケースでデータ同期されない
case1. 数件程度のレコード追加
case2. カラムの値のみ更新(新規レコード追加なし)
差分のファイルサイズが非常に小さい場合
データが同期されない....?
データ同期してくれないdistcp
56
要因
S3 to HDFS間のdistcp転送時にCRC Checkが無効化さ
れる
ファイルサイズを使った差分チェックのみ実行される
https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.5/bk_cloud-data-access/content/s3-distcp-limitations.html
その他にも未対応オプションあり(-append, -diff, -p 等)
スモールサイズなファイル更新の場合に
データ転送が実行されない可能性あり
データ同期してくれないdistcp
57
対応
ケースに応じて個別にoverwriteオプションを付与し
強制的な上書きを実行
case2. 事前にカラムの値のみ更新が発生することが把握できている
case1. distcp -update 実行後も件数が一致しない
現在の課題と今後の取り組み
Copyright © since 1998 DMM All Rights Reserved. 58
現状の課題
59
利用者数の増加により、ETLが遅延するケースが発生
不完全なデータ同期
AWS環境でもレコード単位でのアクセス制御を導入する必要がある
Athenaのアクセス制御の問題で、一部のクラウド移行
が完了していない
スケーラブルでスモールサイズのファイル更新に対応した
HDFS to S3 間のデータ同期の仕組みが必要
Hadoopクラスタのリソース最適化の必要性
同期速度が遅い、一部のスモールサイズなデータ更新を検知できない
直近で取り組むこと
60
データ同期ロジック改善/ツール検証
Starburst Enterprise Prestoの検証
HDP3系へのアップデート
LLAPがキュー分割に対応することにより、高速なクエリ実行環境の提供が
可能になる
Starburst社が提供するエンタープライズ版Prestoの一つ
AWS環境下でRangerを用いたレコード単位でのアクセス制御や、
カスタマイズされたCBOによる高速なクエリ実行が可能
直近で取り組むこと
61
データ同期ロジック改善/ツール検証
Starburst Enterprise Prestoの検証
HDP3系へのアップデート
LLAPがキュー分割に対応することにより、高速なクエリ実行環境の提供が
可能になる
Starburst社が提供するエンタープライズ版Prestoの一つ
AWS環境下でRangerを用いたレコード単位でのアクセス制御や、
カスタマイズされたCBOによる高速なクエリ実行が可能
これからのビッグデータ基盤
62
などなど
これからもビッグデータ基盤周りでさまざまな改善を実施していく予定です!
Hadoop3系のGPU対応に伴う、GPU導入
機械学習基盤の実現
ハイブリッドクラウド推進による、さらなる
リソース最適化の実現
最後に
63
ご静聴ありがとうございました!!

More Related Content

What's hot

ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本kazuki kumagai
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Minero Aoki
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...NTT DATA Technology & Innovation
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...NTT DATA Technology & Innovation
 
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)Amazon Web Services Japan
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)NTT DATA Technology & Innovation
 
FastAPIのテンプレートプロジェクトがいい感じだった話
FastAPIのテンプレートプロジェクトがいい感じだった話FastAPIのテンプレートプロジェクトがいい感じだった話
FastAPIのテンプレートプロジェクトがいい感じだった話NipponAlgorithm
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門Satoru Ishikawa
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
CloudFront経由でのCORS利用
CloudFront経由でのCORS利用CloudFront経由でのCORS利用
CloudFront経由でのCORS利用Yuta Imai
 
webエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのrediswebエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのredisnasa9084
 
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用Toshihiro Suzuki
 
DockerとPodmanの比較
DockerとPodmanの比較DockerとPodmanの比較
DockerとPodmanの比較Akihiro Suda
 
そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?takezoe
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計sairoutine
 
あなたのチームの「いい人」は機能していますか?
あなたのチームの「いい人」は機能していますか?あなたのチームの「いい人」は機能していますか?
あなたのチームの「いい人」は機能していますか?Minoru Yokomichi
 

What's hot (20)

ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本ぱぱっと理解するSpring Cloudの基本
ぱぱっと理解するSpring Cloudの基本
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
 
FastAPIのテンプレートプロジェクトがいい感じだった話
FastAPIのテンプレートプロジェクトがいい感じだった話FastAPIのテンプレートプロジェクトがいい感じだった話
FastAPIのテンプレートプロジェクトがいい感じだった話
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
AWS Black Belt Techシリーズ Amazon EMR
AWS Black Belt Techシリーズ  Amazon EMRAWS Black Belt Techシリーズ  Amazon EMR
AWS Black Belt Techシリーズ Amazon EMR
 
Spring Boot on Kubernetes : Yahoo!ズバトク事例 #jjug_ccc
Spring Boot on Kubernetes : Yahoo!ズバトク事例 #jjug_cccSpring Boot on Kubernetes : Yahoo!ズバトク事例 #jjug_ccc
Spring Boot on Kubernetes : Yahoo!ズバトク事例 #jjug_ccc
 
CloudFront経由でのCORS利用
CloudFront経由でのCORS利用CloudFront経由でのCORS利用
CloudFront経由でのCORS利用
 
webエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのrediswebエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのredis
 
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
 
DockerとPodmanの比較
DockerとPodmanの比較DockerとPodmanの比較
DockerとPodmanの比較
 
そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?
 
HTTP/2 入門
HTTP/2 入門HTTP/2 入門
HTTP/2 入門
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計
 
あなたのチームの「いい人」は機能していますか?
あなたのチームの「いい人」は機能していますか?あなたのチームの「いい人」は機能していますか?
あなたのチームの「いい人」は機能していますか?
 

Similar to Dmm bigdata techplay_20190425

[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...Insight Technology, Inc.
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Yukinori Suda
 
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)NTT DATA Technology & Innovation
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.
 
今秋リリース予定のPostgreSQL11を徹底解説
今秋リリース予定のPostgreSQL11を徹底解説今秋リリース予定のPostgreSQL11を徹底解説
今秋リリース予定のPostgreSQL11を徹底解説Masahiko Sawada
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」株式会社クライム
 
T sql 振り返り
T sql 振り返りT sql 振り返り
T sql 振り返りOda Shinsuke
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]Hideo Takagi
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編Kotaro Tsukui
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
組み込みDb empressのご紹介
組み込みDb empressのご紹介組み込みDb empressのご紹介
組み込みDb empressのご紹介ITDORAKU
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案Toshiyuki Shimono
 
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!QlikPresalesJapan
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopTakashi Kambayashi
 
Vertica 7.2.2 新機能
Vertica 7.2.2 新機能Vertica 7.2.2 新機能
Vertica 7.2.2 新機能Kaito Tono
 

Similar to Dmm bigdata techplay_20190425 (20)

[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
 
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
 
今秋リリース予定のPostgreSQL11を徹底解説
今秋リリース予定のPostgreSQL11を徹底解説今秋リリース予定のPostgreSQL11を徹底解説
今秋リリース予定のPostgreSQL11を徹底解説
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
複数のデータベースを統合・連携したい!こんなときにおすすめ「Stambia」
 
T sql 振り返り
T sql 振り返りT sql 振り返り
T sql 振り返り
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
 
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
組み込みDb empressのご紹介
組み込みDb empressのご紹介組み込みDb empressのご紹介
組み込みDb empressのご紹介
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for Hadoop
 
Vertica 7.2.2 新機能
Vertica 7.2.2 新機能Vertica 7.2.2 新機能
Vertica 7.2.2 新機能
 

Recently uploaded

ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfmasakisaito12
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipYasuyoshi Minehisa
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)KayaSuetake1
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチユニパー株式会社
 
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ 株式会社
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdfssuser80a51f
 

Recently uploaded (6)

ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdfストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
ストックマーク株式会社がご提供しているAnews(エーニュース)概要紹介.pdf
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadership
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
 
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf
 

Dmm bigdata techplay_20190425