Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

682 views

Published on

Hadoop Spark Conference 2019
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

Published in: Data & Analytics
  • Be the first to comment

データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用

  1. 1. データサイズ2ペタ ソネット・メディア・ネットワークス でのImpala活用とHadoop運用 Hadoop / Spark Conference Japan 2019 So-net Media Networks 菅沼 嘉一
  2. 2. 菅沼 嘉一 Yoshikazu Suganuma So-net Media Networks 分析基盤T Cloudera Hadoopの障害対応したり、python/Goでツール作成したり Go言語好き!
  3. 3. 目次 ● Hadoopの用途 ● Hadoopの環境 ● ビッグデータ管理大変だよね!
  4. 4. Hadoopの用途
  5. 5. Logicadとは... So-net Media Networksが提供する 広告配信プラットフォーム
  6. 6. ● 広告配信ログを保管 ● データサイズ:約2PB ● 総レコード数:約1.1兆 ● 1日あたり約8TB増加 ● 主にデータ分析用途
  7. 7. Hadoopの環境
  8. 8. サーバースペック(データノード) スペック: Dell PowerEdge R720xd/R730xd/R740xd/R740xd2(予定) メモリ:約370GB/サーバー HDD:約90~160TB/サーバー (10TB x 18, 10TB x 12, 8TB x 12) PowerEdge R740xd
  9. 9. Hadoop構成 CDH 5.15 データノード:20 台 = 約2PB その他ノード:8台 (合計28台/1クラスター) (Zookeeper, Journal NodeにはIntel Optane SSDストレージ搭載) メタデータはAWS RDSに保管 Active-Standby の2クラスター構成
  10. 10. Data Node Data Node Data Node Data Node Data Node Data Node ……………… ……. ……………… ……. x 20 Name Node Zookeeper JournalNode Hive Metastore Impala Catalog ……………… ……. x 8 Hadoop クラスター
  11. 11. Active Hadoop クラスター Standby Hadoop クラスター S3 ログの インポート処理 ログ収集 サーバー PQ生成
  12. 12. 主なImpalaの使い方 Hiveから1時間毎にParquet生成 Impala + Parquet はレスポンス最速 クエリ数:約13万クエリ/月 PQサイズ:約750TB
  13. 13. ビッグデータ管理 大変だよね.....!?
  14. 14. すぐに容量枯渇する...!? 8TB/day 増加するので容量を注視 保存期間をまめに調整 データ容量が90%近くになると Hive, Impalaのレスポンスが悪くなる傾向 早めにデータノードを追加
  15. 15. DBのパーティション数は約18万 データをパーティショニングすることで性能は上がるが パーティション数がボトルネックになることがある 過去にImpalaが動かなくなったこともある (CDH5.7で約20万あった時) 推奨値は3~4万だとか....無理ゲーじゃない?
  16. 16. 月に一回Hadoopの容量チェック 月に一回、詳細にデータサイズ、パーティション数....などの 全体チェックを行いレポートにまとめる
  17. 17. Elasticsearch+kibanaで監視 データ容量の推移をグラフ化 HDFSの各種データサイズをhdfsコマンドで取得し Elasticsearchに貯める Impalaクエリの傾向調査 Cloudera Manager APIからImpalaクエリを取得して Elasticsearchに貯める
  18. 18. バージョンアップは覚悟しておけ....!? (マジで) CDHのバージョンアップはどこかでミスがあると インストールできなくなる(「戻る」は押さない) そのためActive-Standbyの2クラスターを構築 (片方づつバージョンアップ)
  19. 19. Active-Standbyの2クラスター構成 同じHW構成を2つ構築して片方づつ運用 メリット: バージョンアップ作業、機能検証がはかどる デメリット: コストがかかる 移行コストが高い
  20. 20. Active-Standbyの2クラスター構成 バージョンアップ後のデータ移行について クラスター間コピー:hadoop distcpコマンド 同時データインポート distcp 同時インポート
  21. 21. CDHバージョン遍歴 今年はCDH6.1にバージョンアップ予定 年代 クラスターA クラスターB 2015~ CDH5.1 (hadoop-2.3.0) 2016~ CDH5.7 (hadoop-2.6.0) 2018~ CDH5.15(現在) (hadoop-2.6.0) 2019~ CDH6.1(構築中) (hadoop-3.0.0)
  22. 22. Thanks !

×