データサイズ2ペタ　ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

データサイズ２ペタ
ソネット・メディア・ネットワークス
でのImpala活用とHadoop運用
Hadoop / Spark Conference Japan 2019
So-net Media Networks 菅沼嘉一

菅沼嘉一
Yoshikazu Suganuma
So-net Media Networks
分析基盤T
Cloudera Hadoopの障害対応したり、python/Goでツール作成したり
Go言語好き！

目次
● Hadoopの用途
● Hadoopの環境
● ビッグデータ管理大変だよね！

Logicadとは...
So-net Media Networksが提供する
広告配信プラットフォーム

● 広告配信ログを保管
● データサイズ：約2PB
● 総レコード数：約1.1兆
● 1日あたり約8TB増加
● 主にデータ分析用途

サーバースペック(データノード)
スペック：
Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定)
メモリ：約370GB/サーバー
HDD：約90～160TB/サーバー
(10TB x 18, 10TB x 12, 8TB x 12)
PowerEdge R740xd

Hadoop構成
CDH 5.15
データノード：20 台＝約2PB
その他ノード：8台 (合計28台/1クラスター)
(Zookeeper, Journal NodeにはIntel Optane SSDストレージ搭載)
メタデータはAWS RDSに保管
Active-Standby の2クラスター構成

Data Node Data Node
Data Node Data Node
Data Node
Data Node
………………
…….
………………
…….
x 20
Name
Node
Zookeeper JournalNode
Hive
Metastore
Impala
Catalog ………………
…….
x 8
Hadoop クラスター

Active
Hadoop
クラスター
Standby
Hadoop
クラスター
S3
ログの
インポート処理
ログ収集
サーバー
PQ生成

主なImpalaの使い方
Hiveから1時間毎にParquet生成
Impala + Parquet はレスポンス最速
クエリ数：約13万クエリ/月
PQサイズ：約750TB

ビッグデータ管理
大変だよね.....！？

すぐに容量枯渇する...！？
8TB/day 増加するので容量を注視
保存期間をまめに調整
データ容量が90%近くになると
Hive, Impalaのレスポンスが悪くなる傾向
早めにデータノードを追加

DBのパーティション数は約18万
データをパーティショニングすることで性能は上がるが
パーティション数がボトルネックになることがある
過去にImpalaが動かなくなったこともある
(CDH5.7で約20万あった時)
推奨値は3~4万だとか....無理ゲーじゃない？

月に一回Hadoopの容量チェック
月に一回、詳細にデータサイズ、パーティション数....などの
全体チェックを行いレポートにまとめる

Elasticsearch+kibanaで監視
データ容量の推移をグラフ化
HDFSの各種データサイズをhdfsコマンドで取得し
Elasticsearchに貯める
Impalaクエリの傾向調査
Cloudera Manager APIからImpalaクエリを取得して
Elasticsearchに貯める

バージョンアップは覚悟しておけ....！？
(マジで)
CDHのバージョンアップはどこかでミスがあると
インストールできなくなる(「戻る」は押さない)
そのためActive-Standbyの2クラスターを構築
(片方づつバージョンアップ)

Active-Standbyの2クラスター構成
同じHW構成を2つ構築して片方づつ運用
メリット：
バージョンアップ作業、機能検証がはかどる
デメリット：
コストがかかる
移行コストが高い

Active-Standbyの2クラスター構成
バージョンアップ後のデータ移行について
クラスター間コピー：hadoop distcpコマンド
同時データインポート
distcp
同時インポート

CDHバージョン遍歴
今年はCDH6.1にバージョンアップ予定
年代クラスターA クラスターB
2015～ CDH5.1
(hadoop-2.3.0)
2016～ CDH5.7
(hadoop-2.6.0)
2018～ CDH5.15(現在)
(hadoop-2.6.0)
2019～ CDH6.1(構築中)
(hadoop-3.0.0)

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

More Related Content

What's hot

Similar to データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用