Prometheus on AWS

Mitsuhiro Tanda
Mitsuhiro TandaSoftware Engineer at GREE
Prometheus on AWS
自己紹介
• 反田 光洋
• グリー株式会社 インフラストラクチャ部
• AWSでPrometheusを運用 (約1年)
• Grafana committer
• @mtanda
Prometheusの特徴
• multi-dimensional data model
• flexible query language
• pull model over HTTP
• service discovery
• Prometheus values reliability
AWSモニタリングの課題
• インスタンスのライフサイクルが短い
• Auto Scalingでインスタンスが増減する
• AZの違いなどにより負荷傾向が異なる
AWSに適している点
• multi-dimensional data model & flexible query
language
– RoleやAZごとにメトリクスを集計して比較
– 負荷傾向が異なるインスタンスを検出
• pull model over HTTP & service discovery
– Roleなどを条件にモニタリング対象を設定
– モニタリング対象増加への対応が容易
multi-dimensional data model
• インスタンスのメタデータをlabelに記録
key value
instance_id i-1234abcd
instance_type ec2, rds, elasticache, elb, …
instance_model t2.large, m4.large, c4.large, r3.large, …
region ap-northeast-1, us-east-1, …
availability_zone ap-northeast-1a, ap-northeast-1c, …
role (instance tag) web, db, …
environment (instance tag) production, staging, …
avg(cpu) by (availability_zone)
cpu{role="web"}
avg(cpu) by (role)
Service Discovery
• モニタリング対象を自動検知する機能
• 環境にあわせて使用するSDを選択する
– ec2_sd, consul_sd, kubernetes_sd, file_sd
• (Pullだからこそ必要な機能)
ec2_sd
• ec2:DescribeInstancesAPIでインスタンスを検知
• AZやタグなどから柔軟にモニタリング対象を設定
• web Roleのみをモニタリング対象とする例
- job_name: 'job_name'
ec2_sd_configs:
- region: ap-northeast-1
port: 9100
relabel_configs:
- source_labels: [__meta_ec2_tag_Role]
regex: web.*
action: keep
Prometheusの設定方法
Prometheus
(for web)
Prometheus
(for db)
Role=web Role=db
pack
upload
deploy
edit
このロゴはJenkins project (https://jenkins.io/)に帰属します。
CloudWatch対応
• CloudWatchのメトリクスもPrometheusに取り込んでいる
• cloudwatch_exporterはJavaに依存しているので使わない
• aws-sdk-goを使ってexporterを作成
• メトリクスのtimestamp記録が問題
– CloudWatchのメトリクス送出は数分単位で遅れる
– timestampを記録しようとすると、古いメトリクスとして扱われ、
Prometheusに取り込めないことがある
– 現状は妥協して、一部メトリクスはtimestampを記録していない
運用時の構成
• インスタンスはt2.micro – t2.medium
• EBSはgp2で50-100GB
• 50-100台程度の規模なら、t2.mediumで十分
• t2.small以上が推奨
– t2.microではメモリ不足
– storage.local.memory-chunksを調整する必要あり
• 突発的な負荷はバーストで対応
– T2インスタンスのバースト
– EBS(gp2)のバースト
ディスク書き込み負荷
ディスク使用量
• モニタリング対象1台あたりで計算
• 1台あたり150 – 300メトリクス
• メトリクスのscrape間隔は15秒
• 1ヶ月のディスク消費は約200MB
メトリクスの長期保存
• rrdtoolのようにデータをサマライズする機能はない
• メトリクスの保持期間に応じてデータサイズは増加
• デフォルトでは15日経過時点で削除される
• メトリクスの長期保存は想定されていない
• 長期保存する場合
– Remote Storage (Graphiteなど)を利用する
– 長期保存用のPrometheusに、サマライズして保存する
1年間運用して
• 運用について
– 負荷は安定している
– 運用の手間はほとんどない
• バージョンアップ時の対応
– 新しい書式に対応する必要が何度かあった
– 1.0までは非互換な変更がある
• 新規要件への対応
– 必要に応じてexporterを作成
– 強力なクエリのおかげで、exporter自体はシンプルに作れた
参考URL
• http://www.robustperception.io/automatically-monitoring-ec2-instances/
• http://www.robustperception.io/how-to-have-labels-for-machine-roles/
• http://www.robustperception.io/life-of-a-label/
• http://www.slideshare.net/FabianReinartz/prometheus-storage-57557499
1 of 19

Recommended

Grafana datasource plugin by
Grafana datasource pluginGrafana datasource plugin
Grafana datasource pluginMitsuhiro Tanda
7.8K views14 slides
Presto As A Service - Treasure DataでのPresto運用事例 by
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Taro L. Saito
9.9K views64 slides
はじめての Gatling by
はじめての Gatlingはじめての Gatling
はじめての GatlingNaoya Nakazawa
10.6K views19 slides
bitbank LT Night #1 fargate blue green deployment by
bitbank LT Night #1 fargate blue green deploymentbitbank LT Night #1 fargate blue green deployment
bitbank LT Night #1 fargate blue green deploymentbitbank, Inc. Tokyo, Japan
885 views10 slides
Data management of cosmos db using apache gremlin by
Data management of cosmos db using apache gremlinData management of cosmos db using apache gremlin
Data management of cosmos db using apache gremlinTakao Tetsuro
197 views16 slides
20141220 clrh etw by
20141220 clrh etw20141220 clrh etw
20141220 clrh etwTakayoshi Tanaka
4K views24 slides

More Related Content

Similar to Prometheus on AWS

Best Practices for Running PostgreSQL on AWS by
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSAmazon Web Services Japan
5.3K views73 slides
[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117 by
[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117
[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117Amazon Web Services Japan
6.4K views43 slides
Architecting on Alibaba Cloud - 超基礎編 - by
Architecting on Alibaba Cloud - 超基礎編 -Architecting on Alibaba Cloud - 超基礎編 -
Architecting on Alibaba Cloud - 超基礎編 -真吾 吉田
2.2K views36 slides
[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP by
[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP
[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJPEiji Shinohara
3K views30 slides
成長していくサービスとAWS by
成長していくサービスとAWS成長していくサービスとAWS
成長していくサービスとAWSMitsuharu Hamba
1.6K views46 slides
Data discoveryを支えるawsのbig data技術と最新事例 by
Data discoveryを支えるawsのbig data技術と最新事例Data discoveryを支えるawsのbig data技術と最新事例
Data discoveryを支えるawsのbig data技術と最新事例Takashi Koyanagawa
818 views54 slides

Similar to Prometheus on AWS(20)

[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117 by Amazon Web Services Japan
[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117
[よくわかるクラウドデータベース] AWSデータベースアップデート 20140117
Architecting on Alibaba Cloud - 超基礎編 - by 真吾 吉田
Architecting on Alibaba Cloud - 超基礎編 -Architecting on Alibaba Cloud - 超基礎編 -
Architecting on Alibaba Cloud - 超基礎編 -
真吾 吉田2.2K views
[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP by Eiji Shinohara
[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP
[要約] Building a Real-Time Bidding Platform on AWS #AWSAdTechJP
Eiji Shinohara3K views
成長していくサービスとAWS by Mitsuharu Hamba
成長していくサービスとAWS成長していくサービスとAWS
成長していくサービスとAWS
Mitsuharu Hamba1.6K views
Data discoveryを支えるawsのbig data技術と最新事例 by Takashi Koyanagawa
Data discoveryを支えるawsのbig data技術と最新事例Data discoveryを支えるawsのbig data技術と最新事例
Data discoveryを支えるawsのbig data技術と最新事例
Takashi Koyanagawa818 views
アマゾンクラウドの真価 by kaminashi
アマゾンクラウドの真価アマゾンクラウドの真価
アマゾンクラウドの真価
kaminashi1.1K views
AWS Summit New York 2017 Keynote Recap by Eiji Shinohara
AWS Summit New York 2017 Keynote RecapAWS Summit New York 2017 Keynote Recap
AWS Summit New York 2017 Keynote Recap
Eiji Shinohara1.8K views
クラウドデザイン パターンに見る クラウドファーストな アプリケーション設計 Data Management編 by Takekazu Omi
クラウドデザイン パターンに見るクラウドファーストなアプリケーション設計 Data Management編クラウドデザイン パターンに見るクラウドファーストなアプリケーション設計 Data Management編
クラウドデザイン パターンに見る クラウドファーストな アプリケーション設計 Data Management編
Takekazu Omi4.3K views
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築 by 貴志 上坂
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
貴志 上坂4.5K views
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング by Amazon Web Services Japan
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
Jawsdays2018 - The cost driven aws cloud architecture design by Han Jin Ryu
Jawsdays2018 - The cost driven aws cloud architecture designJawsdays2018 - The cost driven aws cloud architecture design
Jawsdays2018 - The cost driven aws cloud architecture design
Han Jin Ryu311 views
Jawsdays2018 - The cost driven aws cloud architecture design by Han Jin Ryu
Jawsdays2018 - The cost driven aws cloud architecture designJawsdays2018 - The cost driven aws cloud architecture design
Jawsdays2018 - The cost driven aws cloud architecture design
Han Jin Ryu227 views
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専... by TakeshiFukae
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA !  ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA !  ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専...
TakeshiFukae248 views

Recently uploaded

SSH応用編_20231129.pdf by
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
380 views13 slides
The Things Stack説明資料 by The Things Industries by
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
76 views29 slides
Windows 11 information that can be used at the development site by
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development siteAtomu Hidaka
90 views41 slides
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
45 views12 slides
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
151 views42 slides
SNMPセキュリティ超入門 by
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門mkoda
453 views15 slides

Recently uploaded(12)

SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4380 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.76 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka90 views
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda453 views
光コラボは契約してはいけない by Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga25 views
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)

Prometheus on AWS