SlideShare a Scribd company logo
1 of 20
Download to read offline
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
クラウド上のシステム監視 入門編
~システムを作ったその先に~
20181024_Nifcloud_Meetup_LTSRE部 吉村
富士通クラウドテクノロジーズ株式会社
インフラSRE部
吉村 晃
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
トピック
クラウド環境での監視(初心者向け)
• IaaSでそもそも監視いる?
• VM立ててみたけど、どうやって監視しよう
• なにを監視したらいい
ニフクラ運用上でやった監視紹介(参考までに)
• ニフクラで作ったVMを監視してみた
• IaaS運用上で必要な監視
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
自己紹介
プロフィール
• 吉村 晃
• 富士通クラウドテクノロジーズ (ニフティ2014年入社)
• インフラSRE部(IaaSのインフラ寄り運用部隊)
• ストレージ寄り(≠物理)の運用・監視などを主に担当
業務でよくお世話になるもの
業務でみているVM数は大体300~
• DRサービス用システム
• 監視システム
• ログ基盤
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
クラウド環境での監視
Confidential | 4
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
IaaSでそもそも監視いる?
いります
なぜ監視するのか
• IaaSの責任分界点(OSから上は見ない/見えない)
• システムが見通せない ≒ 正しい構成が取れない
• (サービス自体のメトリクスは利用者が見る必要がある)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ノー監視で起きるだろうこと
問題解決(or サポート)が遅くなる/できなくなる
• (特にIaaSは)インフラ/OS両面の事象を突き合わせないとそもそも
答えにたどり着けない
ボトルネックを特定できない
• スケールアップ/アウト or アプリに手を入れる かどっちにする?
サービスで重要なことが洗い出せない
• ビジネス上の指針をどこに持つのか
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
VM立ててみたけど、どうやって監視しよう
監視SaaSを使う
• 対象が少ない・ある程度予算を積める・インフラ担当
監視ソフト(OSS)を立てる
• 対象が多い・カスタマイズ・ストレージ持てる・(担当がいる)
 有償ソフトを使う(自分は詳しくないので分からず)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
予算感(公式の価格から適当に推測)
監視SaaS(5ホストくらいはフリープランで見れたり)
• Mackerel : 1800円/ホスト x 月
• DATADOG : 1700円/ホスト x 月
OSS運用
• 運用人件費 : <好きな数字を思い浮かべる>
• VM+ストレージ(最低構成)
• 9000円/月 ( AWS : t2.medium + 300GB gp2 EBS )
• 21000円/月(ニフクラ : e-Medium4 + 300GB 標準ディスク )
ざっくり100-150ホストを超えてくるとトントン?
• ※ 正直運用持つくらいならSaaSにしたほうが良さそう
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ちなみに、ニフクラ基本監視というのもあります
コンパネから無料で簡易メトリックが取得できる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
個人的に監視で重視すること
 監視内容より、普段の状況を知っていることのほうが重要
• 「何かが起きている」ことが分かれば最初の壁は超えている
 システムは変わるし、利用状況も変わる。監視も変わる
• 足りない監視・アラートは都度足していく
• 「監視疲れ」を避けるため、見ないデータ(アラート)は入れない
 注力するのはドメイン知識の獲得であって、仕組みではない
• 仕組みはSaaSなどで極力省力化し、振る舞いについて共有する
• (監視が安定するまでに数ヶ月~年単位で時間がかかることもある)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
なにを監視する
最初は基本的な要素で十分
• CPU / Mem / Disk / Network( 使用率・枯渇・周期 )
• 問題時に知りたいのは何時が起点なのか、何をしていたのか
• これらの情報を確認できるだけで大分助かるはず
Application performance management(APM)
• アプリケーションやDBなど関して、より特化した情報が見える
• レスポンスタイム・エラー率・重いクエリなど
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ニフクラ運用・利用上で
やっている監視紹介
(時間があれば)
Confidential | 12
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 ログ基盤の監視
ニフクラIaaSに関連するログを集める基盤の監視
• 大体 数十~数百ホスト(VM)で構成されるシステム
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 で困ったことと対策
VM数が多く、全体として機能しているか不明な時がある
• 一見動いているように見えるが、よく見ると一部のログが来てない
• 各所で冗長化しているので、一部が壊れても動いている
対策 : 基本的な監視を徹底 & キーポイントを別途監視
• 不意のハング・負荷高騰・リソース枯渇は基本監視で対応(Zabbix)
• 流れているログ量も監視し、サービスとしての正常性を担保
• ElasticSearchに届いているログ量に著しい変化がないか
• システムの中心にあるKafkaでメッセージ処理遅延がないか
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 監視導入のBefore & After
Before
• トラブル時にどこが原因なのか追うのがキツイ(50VM程度調べる?)
• VM数が多く、全体として機能しているか不明な時がある
After :
• 基本的なトラブル(CPU/Diskなど)はすぐ対象が分かり対応できる
• アラート上がってない限りは基本大丈夫
• ログ流量から、概ねの動作確認がすぐできる
• 「個々のコンポーネントは生きていたけど、実は動いてなかった」を防げる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 複数拠点にある物理ストレージ機器の監視
ニフクラの各リージョンに存在するストレージ機器の監視
• 秒単位の監視・継続できる監視・リージョン間のNW
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 で困ったことと対策
秒単位の監視を継続的にできるようにしたい
• ベンダの監視ツールはうまく対応できなかった(監視間隔・一元化)
• 不安定なNWや、監視システム自体の異常に対応する必要がある
対策 : 複数機種を一元的に管理する監視スクリプトを書いた
• 監視内容・間隔は自由に設定できる
• スクリプト実行するノードを工夫することでNW問題を回避
• 監視システムが正常に動作しているかのチェック・修正を自動化
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 監視導入のBefore & After
Before
• 5分間隔の監視データしかなく、オペレーションに自信が持てない
• いちいち機種毎に別のツールで調べる手間があった
After :
• 秒単位のデータを元に調査、回答などができるようになった
• より顧客の利用状況に近いデータで議論できるようになった
• 一元化したダッシュボードで、様々なストレージを横断的に確認可
• 自分たちが運用上重要だとみなす項目をより理解し改善できる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
まとめ
 最低限の監視からでも始めましょう
 監視SaaSなどを有効活用する
 大きい・特殊な環境だと監視システムを作ることも視野に
 監視も成長するので、サービスの一部として捉える
 最終的には「その」システムに対する知見が要る
 監視が安定するまでは時間がかかることを意識する
クラウド上のシステム監視 入門編~システムを作ったその先に~

More Related Content

What's hot

オンプレを少しずつコンテナ化する
オンプレを少しずつコンテナ化するオンプレを少しずつコンテナ化する
オンプレを少しずつコンテナ化するKenkichi Okazaki
 
インフラ野郎 Azureチーム at クラウド boost
インフラ野郎 Azureチーム at クラウド boostインフラ野郎 Azureチーム at クラウド boost
インフラ野郎 Azureチーム at クラウド boostToru Makabe
 
PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...
PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...
PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...NTT DATA Technology & Innovation
 
BuildKitでLazy Pullを有効にしてビルドを早くする話
BuildKitでLazy Pullを有効にしてビルドを早くする話BuildKitでLazy Pullを有効にしてビルドを早くする話
BuildKitでLazy Pullを有効にしてビルドを早くする話Kohei Tokunaga
 
DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]
DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]
DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]DeNA
 
インフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoya
インフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoyaインフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoya
インフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 NagoyaSatoshi Shimazaki
 
余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」
余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」
余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」IIJ
 
Kubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CD
Kubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CDKubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CD
Kubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CDPreferred Networks
 
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)Masaya Tahara
 
技術キャッチアップのための「頑張らない副業」という選択
技術キャッチアップのための「頑張らない副業」という選択技術キャッチアップのための「頑張らない副業」という選択
技術キャッチアップのための「頑張らない副業」という選択賢 秋穂
 
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation 20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation Amazon Web Services Japan
 
大規模DCのネットワークデザイン
大規模DCのネットワークデザイン大規模DCのネットワークデザイン
大規模DCのネットワークデザインMasayuki Kobayashi
 
root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす Akihiro Suda
 
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦Preferred Networks
 
コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線Motonori Shindo
 
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)シスコシステムズ合同会社
 
[Container Runtime Meetup] runc & User Namespaces
[Container Runtime Meetup] runc & User Namespaces[Container Runtime Meetup] runc & User Namespaces
[Container Runtime Meetup] runc & User NamespacesAkihiro Suda
 

What's hot (20)

オンプレを少しずつコンテナ化する
オンプレを少しずつコンテナ化するオンプレを少しずつコンテナ化する
オンプレを少しずつコンテナ化する
 
インフラ野郎 Azureチーム at クラウド boost
インフラ野郎 Azureチーム at クラウド boostインフラ野郎 Azureチーム at クラウド boost
インフラ野郎 Azureチーム at クラウド boost
 
PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...
PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...
PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...
 
BuildKitでLazy Pullを有効にしてビルドを早くする話
BuildKitでLazy Pullを有効にしてビルドを早くする話BuildKitでLazy Pullを有効にしてビルドを早くする話
BuildKitでLazy Pullを有効にしてビルドを早くする話
 
DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]
DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]
DeNAのインフラ戦略 〜クラウドジャーニーの舞台裏〜 [DeNA TechCon 2019]
 
インフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoya
インフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoyaインフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoya
インフラエンジニアなら知っておきたいストレージのはなし@OSC 2012 Nagoya
 
余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」
余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」
余ったPCをルータに変える、ソフトウェアルータ「SEIL/x86」
 
Kubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CD
Kubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CDKubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CD
Kubernetes Meetup Tokyo #35_GitOps Toolkit による Kubernetes マニフェスト CD
 
PostgreSQL: XID周回問題に潜む別の問題
PostgreSQL: XID周回問題に潜む別の問題PostgreSQL: XID周回問題に潜む別の問題
PostgreSQL: XID周回問題に潜む別の問題
 
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
 
技術キャッチアップのための「頑張らない副業」という選択
技術キャッチアップのための「頑張らない副業」という選択技術キャッチアップのための「頑張らない副業」という選択
技術キャッチアップのための「頑張らない副業」という選択
 
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation 20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation
 
大規模DCのネットワークデザイン
大規模DCのネットワークデザイン大規模DCのネットワークデザイン
大規模DCのネットワークデザイン
 
root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす
 
マスタリングTCP/IP ニフクラ編
マスタリングTCP/IP ニフクラ編マスタリングTCP/IP ニフクラ編
マスタリングTCP/IP ニフクラ編
 
自宅インフラの育て方 第2回
自宅インフラの育て方 第2回自宅インフラの育て方 第2回
自宅インフラの育て方 第2回
 
Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
 
コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線コンテナネットワーキング(CNI)最前線
コンテナネットワーキング(CNI)最前線
 
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)
Cisco Modeling Labs (CML)を使ってネットワークを学ぼう!(DevNet編)
 
[Container Runtime Meetup] runc & User Namespaces
[Container Runtime Meetup] runc & User Namespaces[Container Runtime Meetup] runc & User Namespaces
[Container Runtime Meetup] runc & User Namespaces
 

Similar to クラウド上のシステム監視 入門編~システムを作ったその先に~

OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様ManageEngine, Zoho Corporation
 
インフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxインフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxssuser5c7ee4
 
ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例Shintaro Hasunuma
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Takashi Matsunaga
 
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介Shohei Yamamoto
 
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backendGTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backendGame Tools & Middleware Forum
 
Azure Functions あれこれ
Azure Functions あれこれAzure Functions あれこれ
Azure Functions あれこれYasuaki Matsuda
 
20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回Keiji Kamebuchi
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 
Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~recotech
 
Microsoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosMicrosoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosHinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 

Similar to クラウド上のシステム監視 入門編~システムを作ったその先に~ (20)

クラウド上のシステム監視 入門編
クラウド上のシステム監視 入門編クラウド上のシステム監視 入門編
クラウド上のシステム監視 入門編
 
ニフクラのサービス基盤運用におけるCIの取り組み
ニフクラのサービス基盤運用におけるCIの取り組みニフクラのサービス基盤運用におけるCIの取り組み
ニフクラのサービス基盤運用におけるCIの取り組み
 
devsummit_nifcloud_vmware
devsummit_nifcloud_vmwaredevsummit_nifcloud_vmware
devsummit_nifcloud_vmware
 
インフラチームのリモートワーク
インフラチームのリモートワークインフラチームのリモートワーク
インフラチームのリモートワーク
 
nifcloud_meetup
nifcloud_meetupnifcloud_meetup
nifcloud_meetup
 
NIFcLab Tech Laboratoryはじめます(もうすぐ)
NIFcLab Tech Laboratoryはじめます(もうすぐ)NIFcLab Tech Laboratoryはじめます(もうすぐ)
NIFcLab Tech Laboratoryはじめます(もうすぐ)
 
OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様
 
インフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxインフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptx
 
ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例
 
これから始めるエンジニアのためのクラウド超入門
これから始めるエンジニアのためのクラウド超入門これから始めるエンジニアのためのクラウド超入門
これから始めるエンジニアのためのクラウド超入門
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!
 
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
 
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backendGTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
 
Azure Functions あれこれ
Azure Functions あれこれAzure Functions あれこれ
Azure Functions あれこれ
 
20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 
Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~
 
Microsoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosMicrosoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith Hinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 

More from 富士通クラウドテクノロジーズ株式会社

More from 富士通クラウドテクノロジーズ株式会社 (20)

IPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違いIPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違い
 
弊社サービスを使って ノーコード開発してみた.pdf
弊社サービスを使って ノーコード開発してみた.pdf弊社サービスを使って ノーコード開発してみた.pdf
弊社サービスを使って ノーコード開発してみた.pdf
 
今から始めるUbuntu入門_202307.pdf
今から始めるUbuntu入門_202307.pdf今から始めるUbuntu入門_202307.pdf
今から始めるUbuntu入門_202307.pdf
 
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
 
自宅k8s/vSphere入門
自宅k8s/vSphere入門自宅k8s/vSphere入門
自宅k8s/vSphere入門
 
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
 
今さら聞けないバックアップの基礎
今さら聞けないバックアップの基礎今さら聞けないバックアップの基礎
今さら聞けないバックアップの基礎
 
DevOps with GitLabで始める簡単DevOps
DevOps with GitLabで始める簡単DevOpsDevOps with GitLabで始める簡単DevOps
DevOps with GitLabで始める簡単DevOps
 
自宅vSphereからニフクラに引っ越ししてみた
自宅vSphereからニフクラに引っ越ししてみた自宅vSphereからニフクラに引っ越ししてみた
自宅vSphereからニフクラに引っ越ししてみた
 
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
 
「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」
 
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみようマネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
 
GitLabで始めるDevOps入門
GitLabで始めるDevOps入門GitLabで始めるDevOps入門
GitLabで始めるDevOps入門
 
GitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみたGitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみた
 
vSphere 7 へのアップグレードについて
vSphere 7 へのアップグレードについてvSphere 7 へのアップグレードについて
vSphere 7 へのアップグレードについて
 
VM 基盤運用チームの DevOps
VM 基盤運用チームの DevOpsVM 基盤運用チームの DevOps
VM 基盤運用チームの DevOps
 
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
 
入社2年目社員から見た VDI(DaaS)の運用とセキュリティ
入社2年目社員から見たVDI(DaaS)の運用とセキュリティ入社2年目社員から見たVDI(DaaS)の運用とセキュリティ
入社2年目社員から見た VDI(DaaS)の運用とセキュリティ
 
いつでも在宅勤務
いつでも在宅勤務いつでも在宅勤務
いつでも在宅勤務
 
テレワーク中もさみしくない!オンライン社内レクリエーションのススメ
テレワーク中もさみしくない!オンライン社内レクリエーションのススメテレワーク中もさみしくない!オンライン社内レクリエーションのススメ
テレワーク中もさみしくない!オンライン社内レクリエーションのススメ
 

クラウド上のシステム監視 入門編~システムを作ったその先に~

  • 1. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED クラウド上のシステム監視 入門編 ~システムを作ったその先に~ 20181024_Nifcloud_Meetup_LTSRE部 吉村 富士通クラウドテクノロジーズ株式会社 インフラSRE部 吉村 晃
  • 2. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED トピック クラウド環境での監視(初心者向け) • IaaSでそもそも監視いる? • VM立ててみたけど、どうやって監視しよう • なにを監視したらいい ニフクラ運用上でやった監視紹介(参考までに) • ニフクラで作ったVMを監視してみた • IaaS運用上で必要な監視
  • 3. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 自己紹介 プロフィール • 吉村 晃 • 富士通クラウドテクノロジーズ (ニフティ2014年入社) • インフラSRE部(IaaSのインフラ寄り運用部隊) • ストレージ寄り(≠物理)の運用・監視などを主に担当 業務でよくお世話になるもの 業務でみているVM数は大体300~ • DRサービス用システム • 監視システム • ログ基盤
  • 4. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED クラウド環境での監視 Confidential | 4
  • 5. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED IaaSでそもそも監視いる? いります なぜ監視するのか • IaaSの責任分界点(OSから上は見ない/見えない) • システムが見通せない ≒ 正しい構成が取れない • (サービス自体のメトリクスは利用者が見る必要がある)
  • 6. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ノー監視で起きるだろうこと 問題解決(or サポート)が遅くなる/できなくなる • (特にIaaSは)インフラ/OS両面の事象を突き合わせないとそもそも 答えにたどり着けない ボトルネックを特定できない • スケールアップ/アウト or アプリに手を入れる かどっちにする? サービスで重要なことが洗い出せない • ビジネス上の指針をどこに持つのか
  • 7. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED VM立ててみたけど、どうやって監視しよう 監視SaaSを使う • 対象が少ない・ある程度予算を積める・インフラ担当 監視ソフト(OSS)を立てる • 対象が多い・カスタマイズ・ストレージ持てる・(担当がいる)  有償ソフトを使う(自分は詳しくないので分からず)
  • 8. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 予算感(公式の価格から適当に推測) 監視SaaS(5ホストくらいはフリープランで見れたり) • Mackerel : 1800円/ホスト x 月 • DATADOG : 1700円/ホスト x 月 OSS運用 • 運用人件費 : <好きな数字を思い浮かべる> • VM+ストレージ(最低構成) • 9000円/月 ( AWS : t2.medium + 300GB gp2 EBS ) • 21000円/月(ニフクラ : e-Medium4 + 300GB 標準ディスク ) ざっくり100-150ホストを超えてくるとトントン? • ※ 正直運用持つくらいならSaaSにしたほうが良さそう
  • 9. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ちなみに、ニフクラ基本監視というのもあります コンパネから無料で簡易メトリックが取得できる
  • 10. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 個人的に監視で重視すること  監視内容より、普段の状況を知っていることのほうが重要 • 「何かが起きている」ことが分かれば最初の壁は超えている  システムは変わるし、利用状況も変わる。監視も変わる • 足りない監視・アラートは都度足していく • 「監視疲れ」を避けるため、見ないデータ(アラート)は入れない  注力するのはドメイン知識の獲得であって、仕組みではない • 仕組みはSaaSなどで極力省力化し、振る舞いについて共有する • (監視が安定するまでに数ヶ月~年単位で時間がかかることもある)
  • 11. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED なにを監視する 最初は基本的な要素で十分 • CPU / Mem / Disk / Network( 使用率・枯渇・周期 ) • 問題時に知りたいのは何時が起点なのか、何をしていたのか • これらの情報を確認できるだけで大分助かるはず Application performance management(APM) • アプリケーションやDBなど関して、より特化した情報が見える • レスポンスタイム・エラー率・重いクエリなど
  • 12. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ニフクラ運用・利用上で やっている監視紹介 (時間があれば) Confidential | 12
  • 13. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 ログ基盤の監視 ニフクラIaaSに関連するログを集める基盤の監視 • 大体 数十~数百ホスト(VM)で構成されるシステム
  • 14. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 で困ったことと対策 VM数が多く、全体として機能しているか不明な時がある • 一見動いているように見えるが、よく見ると一部のログが来てない • 各所で冗長化しているので、一部が壊れても動いている 対策 : 基本的な監視を徹底 & キーポイントを別途監視 • 不意のハング・負荷高騰・リソース枯渇は基本監視で対応(Zabbix) • 流れているログ量も監視し、サービスとしての正常性を担保 • ElasticSearchに届いているログ量に著しい変化がないか • システムの中心にあるKafkaでメッセージ処理遅延がないか
  • 15. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 監視導入のBefore & After Before • トラブル時にどこが原因なのか追うのがキツイ(50VM程度調べる?) • VM数が多く、全体として機能しているか不明な時がある After : • 基本的なトラブル(CPU/Diskなど)はすぐ対象が分かり対応できる • アラート上がってない限りは基本大丈夫 • ログ流量から、概ねの動作確認がすぐできる • 「個々のコンポーネントは生きていたけど、実は動いてなかった」を防げる
  • 16. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 複数拠点にある物理ストレージ機器の監視 ニフクラの各リージョンに存在するストレージ機器の監視 • 秒単位の監視・継続できる監視・リージョン間のNW
  • 17. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 で困ったことと対策 秒単位の監視を継続的にできるようにしたい • ベンダの監視ツールはうまく対応できなかった(監視間隔・一元化) • 不安定なNWや、監視システム自体の異常に対応する必要がある 対策 : 複数機種を一元的に管理する監視スクリプトを書いた • 監視内容・間隔は自由に設定できる • スクリプト実行するノードを工夫することでNW問題を回避 • 監視システムが正常に動作しているかのチェック・修正を自動化
  • 18. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 監視導入のBefore & After Before • 5分間隔の監視データしかなく、オペレーションに自信が持てない • いちいち機種毎に別のツールで調べる手間があった After : • 秒単位のデータを元に調査、回答などができるようになった • より顧客の利用状況に近いデータで議論できるようになった • 一元化したダッシュボードで、様々なストレージを横断的に確認可 • 自分たちが運用上重要だとみなす項目をより理解し改善できる
  • 19. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED まとめ  最低限の監視からでも始めましょう  監視SaaSなどを有効活用する  大きい・特殊な環境だと監視システムを作ることも視野に  監視も成長するので、サービスの一部として捉える  最終的には「その」システムに対する知見が要る  監視が安定するまでは時間がかかることを意識する