Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
データサイズ2ペタ
ソネット・メディア・ネットワークス
でのImpala活用とHadoop運用
Hadoop / Spark Conference Japan 2019
So-net Media Networks 菅沼 嘉一
菅沼 嘉一
Yoshikazu Suganuma
So-net Media Networks
分析基盤T
Cloudera Hadoopの障害対応したり、python/Goでツール作成したり
Go言語好き!
目次
● Hadoopの用途
● Hadoopの環境
● ビッグデータ管理大変だよね!
Hadoopの用途
Logicadとは...
So-net Media Networksが提供する
広告配信プラットフォーム
● 広告配信ログを保管
● データサイズ:約2PB
● 総レコード数:約1.1兆
● 1日あたり約8TB増加
● 主にデータ分析用途
Hadoopの環境
サーバースペック(データノード)
スペック:
Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定)
メモリ:約370GB/サーバー
HDD:約90~160TB/サーバー
(10TB x 18, 10TB...
Hadoop構成
CDH 5.15
データノード:20 台 = 約2PB
その他ノード:8台 (合計28台/1クラスター)
(Zookeeper, Journal NodeにはIntel Optane SSDストレージ搭載)
メタデータはAWS...
Data Node Data Node
Data Node Data Node
Data Node
Data Node
………………
…….
………………
…….
x 20
Name
Node
Zookeeper JournalNode
Hiv...
Active
Hadoop
クラスター
Standby
Hadoop
クラスター
S3
ログの
インポート処理
ログ収集
サーバー
PQ生成
主なImpalaの使い方
Hiveから1時間毎にParquet生成
Impala + Parquet はレスポンス最速
クエリ数:約13万クエリ/月
PQサイズ:約750TB
ビッグデータ管理
大変だよね.....!?
すぐに容量枯渇する...!?
8TB/day 増加するので容量を注視
保存期間をまめに調整
データ容量が90%近くになると
Hive, Impalaのレスポンスが悪くなる傾向
早めにデータノードを追加
DBのパーティション数は約18万
データをパーティショニングすることで性能は上がるが
パーティション数がボトルネックになることがある
過去にImpalaが動かなくなったこともある
(CDH5.7で約20万あった時)
推奨値は3~4万だとか......
月に一回Hadoopの容量チェック
月に一回、詳細にデータサイズ、パーティション数....などの
全体チェックを行いレポートにまとめる
Elasticsearch+kibanaで監視
データ容量の推移をグラフ化
HDFSの各種データサイズをhdfsコマンドで取得し
Elasticsearchに貯める
Impalaクエリの傾向調査
Cloudera Manager APIからIm...
バージョンアップは覚悟しておけ....!?
(マジで)
CDHのバージョンアップはどこかでミスがあると
インストールできなくなる(「戻る」は押さない)
そのためActive-Standbyの2クラスターを構築
(片方づつバージョンアップ)
Active-Standbyの2クラスター構成
同じHW構成を2つ構築して片方づつ運用
メリット:
バージョンアップ作業、機能検証がはかどる
デメリット:
コストがかかる
移行コストが高い
Active-Standbyの2クラスター構成
バージョンアップ後のデータ移行について
クラスター間コピー:hadoop distcpコマンド
同時データインポート
distcp
同時インポート
CDHバージョン遍歴
今年はCDH6.1にバージョンアップ予定
年代 クラスターA クラスターB
2015~ CDH5.1
(hadoop-2.3.0)
2016~ CDH5.7
(hadoop-2.6.0)
2018~ CDH5.15(現在)...
Thanks !
Upcoming SlideShare
Loading in …5
×

of

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 1 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 2 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 3 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 4 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 5 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 6 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 7 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 8 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 9 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 10 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 11 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 12 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 13 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 14 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 15 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 16 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 17 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 18 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 19 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 20 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 21 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 Slide 22
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

1 Like

Share

Download to read offline

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Download to read offline

Hadoop Spark Conference 2019
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

  1. 1. データサイズ2ペタ ソネット・メディア・ネットワークス でのImpala活用とHadoop運用 Hadoop / Spark Conference Japan 2019 So-net Media Networks 菅沼 嘉一
  2. 2. 菅沼 嘉一 Yoshikazu Suganuma So-net Media Networks 分析基盤T Cloudera Hadoopの障害対応したり、python/Goでツール作成したり Go言語好き!
  3. 3. 目次 ● Hadoopの用途 ● Hadoopの環境 ● ビッグデータ管理大変だよね!
  4. 4. Hadoopの用途
  5. 5. Logicadとは... So-net Media Networksが提供する 広告配信プラットフォーム
  6. 6. ● 広告配信ログを保管 ● データサイズ:約2PB ● 総レコード数:約1.1兆 ● 1日あたり約8TB増加 ● 主にデータ分析用途
  7. 7. Hadoopの環境
  8. 8. サーバースペック(データノード) スペック: Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定) メモリ:約370GB/サーバー HDD:約90~160TB/サーバー (10TB x 18, 10TB x 12, 8TB x 12) PowerEdge R740xd
  9. 9. Hadoop構成 CDH 5.15 データノード:20 台 = 約2PB その他ノード:8台 (合計28台/1クラスター) (Zookeeper, Journal NodeにはIntel Optane SSDストレージ搭載) メタデータはAWS RDSに保管 Active-Standby の2クラスター構成
  10. 10. Data Node Data Node Data Node Data Node Data Node Data Node ……………… ……. ……………… ……. x 20 Name Node Zookeeper JournalNode Hive Metastore Impala Catalog ……………… ……. x 8 Hadoop クラスター
  11. 11. Active Hadoop クラスター Standby Hadoop クラスター S3 ログの インポート処理 ログ収集 サーバー PQ生成
  12. 12. 主なImpalaの使い方 Hiveから1時間毎にParquet生成 Impala + Parquet はレスポンス最速 クエリ数:約13万クエリ/月 PQサイズ:約750TB
  13. 13. ビッグデータ管理 大変だよね.....!?
  14. 14. すぐに容量枯渇する...!? 8TB/day 増加するので容量を注視 保存期間をまめに調整 データ容量が90%近くになると Hive, Impalaのレスポンスが悪くなる傾向 早めにデータノードを追加
  15. 15. DBのパーティション数は約18万 データをパーティショニングすることで性能は上がるが パーティション数がボトルネックになることがある 過去にImpalaが動かなくなったこともある (CDH5.7で約20万あった時) 推奨値は3~4万だとか....無理ゲーじゃない?
  16. 16. 月に一回Hadoopの容量チェック 月に一回、詳細にデータサイズ、パーティション数....などの 全体チェックを行いレポートにまとめる
  17. 17. Elasticsearch+kibanaで監視 データ容量の推移をグラフ化 HDFSの各種データサイズをhdfsコマンドで取得し Elasticsearchに貯める Impalaクエリの傾向調査 Cloudera Manager APIからImpalaクエリを取得して Elasticsearchに貯める
  18. 18. バージョンアップは覚悟しておけ....!? (マジで) CDHのバージョンアップはどこかでミスがあると インストールできなくなる(「戻る」は押さない) そのためActive-Standbyの2クラスターを構築 (片方づつバージョンアップ)
  19. 19. Active-Standbyの2クラスター構成 同じHW構成を2つ構築して片方づつ運用 メリット: バージョンアップ作業、機能検証がはかどる デメリット: コストがかかる 移行コストが高い
  20. 20. Active-Standbyの2クラスター構成 バージョンアップ後のデータ移行について クラスター間コピー:hadoop distcpコマンド 同時データインポート distcp 同時インポート
  21. 21. CDHバージョン遍歴 今年はCDH6.1にバージョンアップ予定 年代 クラスターA クラスターB 2015~ CDH5.1 (hadoop-2.3.0) 2016~ CDH5.7 (hadoop-2.6.0) 2018~ CDH5.15(現在) (hadoop-2.6.0) 2019~ CDH6.1(構築中) (hadoop-3.0.0)
  22. 22. Thanks !
  • ShimpeiTakemoto

    Mar. 14, 2019

Hadoop Spark Conference 2019 データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Views

Total views

1,361

On Slideshare

0

From embeds

0

Number of embeds

711

Actions

Downloads

9

Shares

0

Comments

0

Likes

1

×