SlideShare a Scribd company logo
1 of 20
Download to read offline
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
クラウド上のシステム監視 入門編
~システムを作ったその先に~
20181024_Nifcloud_Meetup_LTSRE部 吉村
富士通クラウドテクノロジーズ株式会社
インフラSRE部
吉村 晃
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
トピック
クラウド環境での監視(初心者向け)
• IaaSでそもそも監視いる?
• VM立ててみたけど、どうやって監視しよう
• なにを監視したらいい
ニフクラ運用上でやった監視紹介(参考までに)
• ニフクラで作ったVMを監視してみた
• IaaS運用上で必要な監視
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
自己紹介
プロフィール
• 吉村 晃
• 富士通クラウドテクノロジーズ (ニフティ2014年入社)
• インフラSRE部(IaaSのインフラ寄り運用部隊)
• ストレージ寄り(≠物理)の運用・監視などを主に担当
業務でよくお世話になるもの
業務でみているVM数は大体300~
• DRサービス用システム
• 監視システム
• ログ基盤
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
クラウド環境での監視
Confidential | 4
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
IaaSでそもそも監視いる?
いります
なぜ監視するのか
• IaaSの責任分界点(OSから上は見ない/見えない)
• システムが見通せない ≒ 正しい構成が取れない
• (サービス自体のメトリクスは利用者が見る必要がある)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ノー監視で起きるだろうこと
問題解決(or サポート)が遅くなる/できなくなる
• (特にIaaSは)インフラ/OS両面の事象を突き合わせないとそもそも
答えにたどり着けない
ボトルネックを特定できない
• スケールアップ/アウト or アプリに手を入れる かどっちにする?
サービスで重要なことが洗い出せない
• ビジネス上の指針をどこに持つのか
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
VM立ててみたけど、どうやって監視しよう
監視SaaSを使う
• 対象が少ない・ある程度予算を積める・インフラ担当
監視ソフト(OSS)を立てる
• 対象が多い・カスタマイズ・ストレージ持てる・(担当がいる)
 有償ソフトを使う(自分は詳しくないので分からず)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
予算感(公式の価格から適当に推測)
監視SaaS(5ホストくらいはフリープランで見れたり)
• Mackerel : 1800円/ホスト x 月
• DATADOG : 1700円/ホスト x 月
OSS運用
• 運用人件費 : <好きな数字を思い浮かべる>
• VM+ストレージ(最低構成)
• 9000円/月 ( AWS : t2.medium + 300GB gp2 EBS )
• 21000円/月(ニフクラ : e-Medium4 + 300GB 標準ディスク )
ざっくり100-150ホストを超えてくるとトントン?
• ※ 正直運用持つくらいならSaaSにしたほうが良さそう
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ちなみに、ニフクラ基本監視というのもあります
コンパネから無料で簡易メトリックが取得できる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
個人的に監視で重視すること
 監視内容より、普段の状況を知っていることのほうが重要
• 「何かが起きている」ことが分かれば最初の壁は超えている
 システムは変わるし、利用状況も変わる。監視も変わる
• 足りない監視・アラートは都度足していく
• 「監視疲れ」を避けるため、見ないデータ(アラート)は入れない
 注力するのはドメイン知識の獲得であって、仕組みではない
• 仕組みはSaaSなどで極力省力化し、振る舞いについて共有する
• (監視が安定するまでに数ヶ月~年単位で時間がかかることもある)
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
なにを監視する
最初は基本的な要素で十分
• CPU / Mem / Disk / Network( 使用率・枯渇・周期 )
• 問題時に知りたいのは何時が起点なのか、何をしていたのか
• これらの情報を確認できるだけで大分助かるはず
Application performance management(APM)
• アプリケーションやDBなど関して、より特化した情報が見える
• レスポンスタイム・エラー率・重いクエリなど
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
ニフクラ運用・利用上で
やっている監視紹介
(時間があれば)
Confidential | 12
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 ログ基盤の監視
ニフクラIaaSに関連するログを集める基盤の監視
• 大体 数十~数百ホスト(VM)で構成されるシステム
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 で困ったことと対策
VM数が多く、全体として機能しているか不明な時がある
• 一見動いているように見えるが、よく見ると一部のログが来てない
• 各所で冗長化しているので、一部が壊れても動いている
対策 : 基本的な監視を徹底 & キーポイントを別途監視
• 不意のハング・負荷高騰・リソース枯渇は基本監視で対応(Zabbix)
• 流れているログ量も監視し、サービスとしての正常性を担保
• ElasticSearchに届いているログ量に著しい変化がないか
• システムの中心にあるKafkaでメッセージ処理遅延がないか
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例1 監視導入のBefore & After
Before
• トラブル時にどこが原因なのか追うのがキツイ(50VM程度調べる?)
• VM数が多く、全体として機能しているか不明な時がある
After :
• 基本的なトラブル(CPU/Diskなど)はすぐ対象が分かり対応できる
• アラート上がってない限りは基本大丈夫
• ログ流量から、概ねの動作確認がすぐできる
• 「個々のコンポーネントは生きていたけど、実は動いてなかった」を防げる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 複数拠点にある物理ストレージ機器の監視
ニフクラの各リージョンに存在するストレージ機器の監視
• 秒単位の監視・継続できる監視・リージョン間のNW
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 で困ったことと対策
秒単位の監視を継続的にできるようにしたい
• ベンダの監視ツールはうまく対応できなかった(監視間隔・一元化)
• 不安定なNWや、監視システム自体の異常に対応する必要がある
対策 : 複数機種を一元的に管理する監視スクリプトを書いた
• 監視内容・間隔は自由に設定できる
• スクリプト実行するノードを工夫することでNW問題を回避
• 監視システムが正常に動作しているかのチェック・修正を自動化
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
事例2 監視導入のBefore & After
Before
• 5分間隔の監視データしかなく、オペレーションに自信が持てない
• いちいち機種毎に別のツールで調べる手間があった
After :
• 秒単位のデータを元に調査、回答などができるようになった
• より顧客の利用状況に近いデータで議論できるようになった
• 一元化したダッシュボードで、様々なストレージを横断的に確認可
• 自分たちが運用上重要だとみなす項目をより理解し改善できる
Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED
まとめ
 最低限の監視からでも始めましょう
 監視SaaSなどを有効活用する
 大きい・特殊な環境だと監視システムを作ることも視野に
 監視も成長するので、サービスの一部として捉える
 最終的には「その」システムに対する知見が要る
 監視が安定するまでは時間がかかることを意識する
クラウド上のシステム監視 入門編~システムを作ったその先に~

More Related Content

What's hot

20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpacesAmazon Web Services Japan
 
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...Amazon Web Services Japan
 
20210526 AWS Expert Online マルチアカウント管理の基本
20210526 AWS Expert Online マルチアカウント管理の基本20210526 AWS Expert Online マルチアカウント管理の基本
20210526 AWS Expert Online マルチアカウント管理の基本Amazon Web Services Japan
 
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...Amazon Web Services Japan
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したことAmazon Web Services Japan
 
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)Trainocate Japan, Ltd.
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFSAmazon Web Services Japan
 
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティスAmazon Web Services Japan
 
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...Amazon Web Services Japan
 
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2018 AWS Certificate Manager
AWS Black Belt Online Seminar 2018 AWS Certificate ManagerAWS Black Belt Online Seminar 2018 AWS Certificate Manager
AWS Black Belt Online Seminar 2018 AWS Certificate ManagerAmazon Web Services Japan
 
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration ServiceAmazon Web Services Japan
 
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...Amazon Web Services Japan
 
(NET403) Another Day, Another Billion Packets
(NET403) Another Day, Another Billion Packets(NET403) Another Day, Another Billion Packets
(NET403) Another Day, Another Billion PacketsAmazon Web Services
 
DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化DeNA
 
20191009 AWS Black Belt Online Seminar Amazon GameLift
20191009 AWS Black Belt Online Seminar Amazon GameLift20191009 AWS Black Belt Online Seminar Amazon GameLift
20191009 AWS Black Belt Online Seminar Amazon GameLiftAmazon Web Services Japan
 
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
20210126 AWS Black Belt Online Seminar AWS CodeDeploy20210126 AWS Black Belt Online Seminar AWS CodeDeploy
20210126 AWS Black Belt Online Seminar AWS CodeDeployAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto ScalingAWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto ScalingAmazon Web Services Japan
 

What's hot (20)

20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
 
AWS BlackBelt AWS上でのDDoS対策
AWS BlackBelt AWS上でのDDoS対策AWS BlackBelt AWS上でのDDoS対策
AWS BlackBelt AWS上でのDDoS対策
 
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
 
20210526 AWS Expert Online マルチアカウント管理の基本
20210526 AWS Expert Online マルチアカウント管理の基本20210526 AWS Expert Online マルチアカウント管理の基本
20210526 AWS Expert Online マルチアカウント管理の基本
 
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
 
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
 
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
 
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
20180704 AWS Black Belt Online Seminar Amazon Elastic File System (Amazon EFS...
 
20191125 Container Security
20191125 Container Security20191125 Container Security
20191125 Container Security
 
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
 
AWS Black Belt Online Seminar 2018 AWS Certificate Manager
AWS Black Belt Online Seminar 2018 AWS Certificate ManagerAWS Black Belt Online Seminar 2018 AWS Certificate Manager
AWS Black Belt Online Seminar 2018 AWS Certificate Manager
 
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
 
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
 
(NET403) Another Day, Another Billion Packets
(NET403) Another Day, Another Billion Packets(NET403) Another Day, Another Billion Packets
(NET403) Another Day, Another Billion Packets
 
DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化DeNA の AWS アカウント管理とセキュリティ監査自動化
DeNA の AWS アカウント管理とセキュリティ監査自動化
 
20191009 AWS Black Belt Online Seminar Amazon GameLift
20191009 AWS Black Belt Online Seminar Amazon GameLift20191009 AWS Black Belt Online Seminar Amazon GameLift
20191009 AWS Black Belt Online Seminar Amazon GameLift
 
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
20210126 AWS Black Belt Online Seminar AWS CodeDeploy20210126 AWS Black Belt Online Seminar AWS CodeDeploy
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
 
AWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto ScalingAWS Black Belt Online Seminar 2017 Auto Scaling
AWS Black Belt Online Seminar 2017 Auto Scaling
 

Similar to クラウド上のシステム監視 入門編~システムを作ったその先に~

OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様ManageEngine, Zoho Corporation
 
インフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxインフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxssuser5c7ee4
 
ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例Shintaro Hasunuma
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Takashi Matsunaga
 
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介Shohei Yamamoto
 
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backendGTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backendGame Tools & Middleware Forum
 
Azure Functions あれこれ
Azure Functions あれこれAzure Functions あれこれ
Azure Functions あれこれYasuaki Matsuda
 
20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回Keiji Kamebuchi
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 
Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~recotech
 
Microsoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosMicrosoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosHinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!Hinemos
 

Similar to クラウド上のシステム監視 入門編~システムを作ったその先に~ (20)

クラウド上のシステム監視 入門編
クラウド上のシステム監視 入門編クラウド上のシステム監視 入門編
クラウド上のシステム監視 入門編
 
ニフクラのサービス基盤運用におけるCIの取り組み
ニフクラのサービス基盤運用におけるCIの取り組みニフクラのサービス基盤運用におけるCIの取り組み
ニフクラのサービス基盤運用におけるCIの取り組み
 
devsummit_nifcloud_vmware
devsummit_nifcloud_vmwaredevsummit_nifcloud_vmware
devsummit_nifcloud_vmware
 
インフラチームのリモートワーク
インフラチームのリモートワークインフラチームのリモートワーク
インフラチームのリモートワーク
 
nifcloud_meetup
nifcloud_meetupnifcloud_meetup
nifcloud_meetup
 
NIFcLab Tech Laboratoryはじめます(もうすぐ)
NIFcLab Tech Laboratoryはじめます(もうすぐ)NIFcLab Tech Laboratoryはじめます(もうすぐ)
NIFcLab Tech Laboratoryはじめます(もうすぐ)
 
OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様
 
インフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptxインフラチームとCCoEの関係.pptx
インフラチームとCCoEの関係.pptx
 
ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例ニフティクラウドでのVyOS利用事例
ニフティクラウドでのVyOS利用事例
 
これから始めるエンジニアのためのクラウド超入門
これから始めるエンジニアのためのクラウド超入門これから始めるエンジニアのためのクラウド超入門
これから始めるエンジニアのためのクラウド超入門
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!
 
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
【NCMB】アプリのバックエンドを支えるサービス 「mBaaS」のご紹介
 
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backendGTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介  ニフティクラウド mobile backend
GTMF2017 アプリのバックエンドを支えるサービス「mBaaS」のご紹介 ニフティクラウド mobile backend
 
Azure Functions あれこれ
Azure Functions あれこれAzure Functions あれこれ
Azure Functions あれこれ
 
20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回20150704 MS Azure最新 - innovation egg 第4回
20150704 MS Azure最新 - innovation egg 第4回
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 
Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~Mackerel x Twilio ~レコチョクの場合~
Mackerel x Twilio ~レコチョクの場合~
 
Microsoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith HinemosMicrosoft Azureの運用ポイントwith Hinemos
Microsoft Azureの運用ポイントwith Hinemos
 
システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!システム監視の決定版!Hinemos監視機能のご紹介!
システム監視の決定版!Hinemos監視機能のご紹介!
 

More from 富士通クラウドテクノロジーズ株式会社

More from 富士通クラウドテクノロジーズ株式会社 (20)

IPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違いIPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違い
 
弊社サービスを使って ノーコード開発してみた.pdf
弊社サービスを使って ノーコード開発してみた.pdf弊社サービスを使って ノーコード開発してみた.pdf
弊社サービスを使って ノーコード開発してみた.pdf
 
今から始めるUbuntu入門_202307.pdf
今から始めるUbuntu入門_202307.pdf今から始めるUbuntu入門_202307.pdf
今から始めるUbuntu入門_202307.pdf
 
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
非エンジニアがクラウド上にMinecraftサーバーを構築するまでの記録
 
自宅k8s/vSphere入門
自宅k8s/vSphere入門自宅k8s/vSphere入門
自宅k8s/vSphere入門
 
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
FJcloud-Vの無料トライアルで雑にWordPressを入れてみた(リベンジ)
 
今さら聞けないバックアップの基礎
今さら聞けないバックアップの基礎今さら聞けないバックアップの基礎
今さら聞けないバックアップの基礎
 
DevOps with GitLabで始める簡単DevOps
DevOps with GitLabで始める簡単DevOpsDevOps with GitLabで始める簡単DevOps
DevOps with GitLabで始める簡単DevOps
 
自宅vSphereからニフクラに引っ越ししてみた
自宅vSphereからニフクラに引っ越ししてみた自宅vSphereからニフクラに引っ越ししてみた
自宅vSphereからニフクラに引っ越ししてみた
 
自宅インフラの育て方 第2回
自宅インフラの育て方 第2回自宅インフラの育て方 第2回
自宅インフラの育て方 第2回
 
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
NGINX App Protect on Hatobaで実現するセキュリティサービス公開 構築手順書
 
「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」
 
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみようマネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
マネージドKubernetes、「Kubernetes Service Hatoba」を使ってみよう
 
GitLabで始めるDevOps入門
GitLabで始めるDevOps入門GitLabで始めるDevOps入門
GitLabで始めるDevOps入門
 
GitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみたGitLabのAutoDevOpsを試してみた
GitLabのAutoDevOpsを試してみた
 
vSphere 7 へのアップグレードについて
vSphere 7 へのアップグレードについてvSphere 7 へのアップグレードについて
vSphere 7 へのアップグレードについて
 
VM 基盤運用チームの DevOps
VM 基盤運用チームの DevOpsVM 基盤運用チームの DevOps
VM 基盤運用チームの DevOps
 
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
緊急事態宣言解除後のセキュリティ・チェックリストを解説してみた
 
入社2年目社員から見た VDI(DaaS)の運用とセキュリティ
入社2年目社員から見たVDI(DaaS)の運用とセキュリティ入社2年目社員から見たVDI(DaaS)の運用とセキュリティ
入社2年目社員から見た VDI(DaaS)の運用とセキュリティ
 
いつでも在宅勤務
いつでも在宅勤務いつでも在宅勤務
いつでも在宅勤務
 

Recently uploaded

U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】
U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】
U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】U-22プログラミング・コンテスト運営事務局
 
20240321 エンジニアマーケティングの業務紹介(DevRel).pptx
20240321 エンジニアマーケティングの業務紹介(DevRel).pptx20240321 エンジニアマーケティングの業務紹介(DevRel).pptx
20240321 エンジニアマーケティングの業務紹介(DevRel).pptxCybozu, Inc.
 
モバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousan
モバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousanモバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousan
モバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousanAndrey Chernov
 
AIのリスクを一緒におさらいしましょう (推し技術:生成AI)Let's review the risks of AI together
AIのリスクを一緒におさらいしましょう(推し技術:生成AI)Let's review the risks of AI togetherAIのリスクを一緒におさらいしましょう(推し技術:生成AI)Let's review the risks of AI together
AIのリスクを一緒におさらいしましょう (推し技術:生成AI)Let's review the risks of AI togetherChuki ちゅき
 
コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話
コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話
コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話Ryoichi Ito
 
RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話
RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話
RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話MinoruInoue2
 
This_is_Raccoon's_Engineer_Training.pptx
This_is_Raccoon's_Engineer_Training.pptxThis_is_Raccoon's_Engineer_Training.pptx
This_is_Raccoon's_Engineer_Training.pptxTomohiro Tamura
 

Recently uploaded (7)

U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】
U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】
U-22プログラミング・コンテスト2024 作品説明動画制作のポイント【2024年4月公開】
 
20240321 エンジニアマーケティングの業務紹介(DevRel).pptx
20240321 エンジニアマーケティングの業務紹介(DevRel).pptx20240321 エンジニアマーケティングの業務紹介(DevRel).pptx
20240321 エンジニアマーケティングの業務紹介(DevRel).pptx
 
モバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousan
モバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousanモバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousan
モバイルアプリパフォーマンス向上の道を踏み出す前に知っておきたいコト!@andousan
 
AIのリスクを一緒におさらいしましょう (推し技術:生成AI)Let's review the risks of AI together
AIのリスクを一緒におさらいしましょう(推し技術:生成AI)Let's review the risks of AI togetherAIのリスクを一緒におさらいしましょう(推し技術:生成AI)Let's review the risks of AI together
AIのリスクを一緒におさらいしましょう (推し技術:生成AI)Let's review the risks of AI together
 
コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話
コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話
コミュニティの要望に高速で応えることとエンジニアとしてのキャリア形成を frourio 採用で一石二鳥した話
 
RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話
RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話
RPLidar C1M1からROS2の沼に入った話&プレゼントのレーザーカッターキーホルダーの裏話
 
This_is_Raccoon's_Engineer_Training.pptx
This_is_Raccoon's_Engineer_Training.pptxThis_is_Raccoon's_Engineer_Training.pptx
This_is_Raccoon's_Engineer_Training.pptx
 

クラウド上のシステム監視 入門編~システムを作ったその先に~

  • 1. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED クラウド上のシステム監視 入門編 ~システムを作ったその先に~ 20181024_Nifcloud_Meetup_LTSRE部 吉村 富士通クラウドテクノロジーズ株式会社 インフラSRE部 吉村 晃
  • 2. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED トピック クラウド環境での監視(初心者向け) • IaaSでそもそも監視いる? • VM立ててみたけど、どうやって監視しよう • なにを監視したらいい ニフクラ運用上でやった監視紹介(参考までに) • ニフクラで作ったVMを監視してみた • IaaS運用上で必要な監視
  • 3. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 自己紹介 プロフィール • 吉村 晃 • 富士通クラウドテクノロジーズ (ニフティ2014年入社) • インフラSRE部(IaaSのインフラ寄り運用部隊) • ストレージ寄り(≠物理)の運用・監視などを主に担当 業務でよくお世話になるもの 業務でみているVM数は大体300~ • DRサービス用システム • 監視システム • ログ基盤
  • 4. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED クラウド環境での監視 Confidential | 4
  • 5. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED IaaSでそもそも監視いる? いります なぜ監視するのか • IaaSの責任分界点(OSから上は見ない/見えない) • システムが見通せない ≒ 正しい構成が取れない • (サービス自体のメトリクスは利用者が見る必要がある)
  • 6. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ノー監視で起きるだろうこと 問題解決(or サポート)が遅くなる/できなくなる • (特にIaaSは)インフラ/OS両面の事象を突き合わせないとそもそも 答えにたどり着けない ボトルネックを特定できない • スケールアップ/アウト or アプリに手を入れる かどっちにする? サービスで重要なことが洗い出せない • ビジネス上の指針をどこに持つのか
  • 7. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED VM立ててみたけど、どうやって監視しよう 監視SaaSを使う • 対象が少ない・ある程度予算を積める・インフラ担当 監視ソフト(OSS)を立てる • 対象が多い・カスタマイズ・ストレージ持てる・(担当がいる)  有償ソフトを使う(自分は詳しくないので分からず)
  • 8. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 予算感(公式の価格から適当に推測) 監視SaaS(5ホストくらいはフリープランで見れたり) • Mackerel : 1800円/ホスト x 月 • DATADOG : 1700円/ホスト x 月 OSS運用 • 運用人件費 : <好きな数字を思い浮かべる> • VM+ストレージ(最低構成) • 9000円/月 ( AWS : t2.medium + 300GB gp2 EBS ) • 21000円/月(ニフクラ : e-Medium4 + 300GB 標準ディスク ) ざっくり100-150ホストを超えてくるとトントン? • ※ 正直運用持つくらいならSaaSにしたほうが良さそう
  • 9. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ちなみに、ニフクラ基本監視というのもあります コンパネから無料で簡易メトリックが取得できる
  • 10. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 個人的に監視で重視すること  監視内容より、普段の状況を知っていることのほうが重要 • 「何かが起きている」ことが分かれば最初の壁は超えている  システムは変わるし、利用状況も変わる。監視も変わる • 足りない監視・アラートは都度足していく • 「監視疲れ」を避けるため、見ないデータ(アラート)は入れない  注力するのはドメイン知識の獲得であって、仕組みではない • 仕組みはSaaSなどで極力省力化し、振る舞いについて共有する • (監視が安定するまでに数ヶ月~年単位で時間がかかることもある)
  • 11. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED なにを監視する 最初は基本的な要素で十分 • CPU / Mem / Disk / Network( 使用率・枯渇・周期 ) • 問題時に知りたいのは何時が起点なのか、何をしていたのか • これらの情報を確認できるだけで大分助かるはず Application performance management(APM) • アプリケーションやDBなど関して、より特化した情報が見える • レスポンスタイム・エラー率・重いクエリなど
  • 12. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED ニフクラ運用・利用上で やっている監視紹介 (時間があれば) Confidential | 12
  • 13. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 ログ基盤の監視 ニフクラIaaSに関連するログを集める基盤の監視 • 大体 数十~数百ホスト(VM)で構成されるシステム
  • 14. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 で困ったことと対策 VM数が多く、全体として機能しているか不明な時がある • 一見動いているように見えるが、よく見ると一部のログが来てない • 各所で冗長化しているので、一部が壊れても動いている 対策 : 基本的な監視を徹底 & キーポイントを別途監視 • 不意のハング・負荷高騰・リソース枯渇は基本監視で対応(Zabbix) • 流れているログ量も監視し、サービスとしての正常性を担保 • ElasticSearchに届いているログ量に著しい変化がないか • システムの中心にあるKafkaでメッセージ処理遅延がないか
  • 15. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例1 監視導入のBefore & After Before • トラブル時にどこが原因なのか追うのがキツイ(50VM程度調べる?) • VM数が多く、全体として機能しているか不明な時がある After : • 基本的なトラブル(CPU/Diskなど)はすぐ対象が分かり対応できる • アラート上がってない限りは基本大丈夫 • ログ流量から、概ねの動作確認がすぐできる • 「個々のコンポーネントは生きていたけど、実は動いてなかった」を防げる
  • 16. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 複数拠点にある物理ストレージ機器の監視 ニフクラの各リージョンに存在するストレージ機器の監視 • 秒単位の監視・継続できる監視・リージョン間のNW
  • 17. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 で困ったことと対策 秒単位の監視を継続的にできるようにしたい • ベンダの監視ツールはうまく対応できなかった(監視間隔・一元化) • 不安定なNWや、監視システム自体の異常に対応する必要がある 対策 : 複数機種を一元的に管理する監視スクリプトを書いた • 監視内容・間隔は自由に設定できる • スクリプト実行するノードを工夫することでNW問題を回避 • 監視システムが正常に動作しているかのチェック・修正を自動化
  • 18. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED 事例2 監視導入のBefore & After Before • 5分間隔の監視データしかなく、オペレーションに自信が持てない • いちいち機種毎に別のツールで調べる手間があった After : • 秒単位のデータを元に調査、回答などができるようになった • より顧客の利用状況に近いデータで議論できるようになった • 一元化したダッシュボードで、様々なストレージを横断的に確認可 • 自分たちが運用上重要だとみなす項目をより理解し改善できる
  • 19. Copyright 2017 FUJITSU CLOUD TECHNOLOGIES LIMITED まとめ  最低限の監視からでも始めましょう  監視SaaSなどを有効活用する  大きい・特殊な環境だと監視システムを作ることも視野に  監視も成長するので、サービスの一部として捉える  最終的には「その」システムに対する知見が要る  監視が安定するまでは時間がかかることを意識する