Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

アラート対応自動化を組み込んでみた

3,093 views

Published on

[2017/08/31に開催した「IIJ Technical NIGHT Vol.3」の講演資料です]
IIJ自身のシステム運用で培われたアラート対応のノウハウは社外のシステムにも活用できるはず。そんな考えからIIJでは、システム監視機能を提供する「IIJ統合運用管理サービス」にアラート対応の自動化処理を追加することにしました。自動化機能がどのように監視サービスに統合されるのかを紹介します。
講演者:柳井 浩平(サービス基盤本部 サービス運用企画部 M&Oサービス開発課)

Published in: Internet
  • Be the first to comment

アラート対応自動化を組み込んでみた

  1. 1. アラート対応自動化を組み込んでみた 講 演 者 : 柳 井 浩 平 ( サ ー ビ ス 基 盤 本 部 サ ー ビ ス 運 用 企 画 部 M & O サ ー ビ ス 開 発 課 )
  2. 2. 31
  3. 3. 32 楽にならない理由 抜け出せない“人に依存した運用” 1.使わない手順書のための労力 2.対応するオペレーターの不足 3.増え続けるシステム&クラウド
  4. 4. 自動化が解決するメリット
  5. 5. 34 使わない手順書のための労力 プロセスを自動復旧 【tomcat再起動】 プロセス数確認 → 起動実行 tomcatのプロセスが落ちたら プロセスを自動起動したい! 1. 運用対象ノードXのtomcatプロセス異常を検知 2. アラート通知メールをお客様に送信 3. 自動オペレーション(コマンド)実行 ① tomcatのプロセス数を取得 ② プロセス数が1であれば、処理なし ③ プロセス数が0であれば、tomcat再起動コマンドを実行し、戻り値を設定 ④ プロセス数が0、1以外であれば、戻り値2を設定 ⑤ 戻り値を返して終了 4. 実行結果メールをお客様に送信 5. チケットに起票 タイムチャート【tomcat再起動】
  6. 6. 35 使わない手順書のための労力 アプリケーションログを抜き出す 【ログ確認】 エラーログの前後20行を取得 監視アラートだけでは アプリケーションの挙動がわからない! 1. 運用対象ノードZのアプリケーションログで異常を検知 2. アラート通知メールをお客様に送信 3. 自動オペレーション(コマンド)実行 ① ログに出力されたエラーの前後20行を取得 ② 戻り値を返して終了 4. 実行結果メールをお客様に送信 5. チケットに起票 タイムチャート【ログ確認】
  7. 7. 36 対応するオペレーターの不足 圧倒的な対応スピードの向上 自動化で 対応負荷 アラート 処理 オペレーション 手順書 作成 原因調査 削減
  8. 8. 37 増え続けるシステム&クラウド 既存システムを生かした手軽な導入 自由なIaaS環境 自由な監視ツール 監視 メール取込 統合ポータル チケット管理 運用サービス ジョブ管理 インシデントAPI 中継 自動オペレーション
  9. 9. 38 導入効果 自動化により システム運用を楽に 80% 運用コストの削減 減 対応スピードの向上 2倍 IIJが利用ユーザとして適用した際の導入効果です。同一人数で約5倍のサーバ 数を運用することに成功し、アラート発生から初動の対応時間が従来に比べ半 分の時間に短縮されました。
  10. 10. 39 システム運用者の 毎日をもっと楽にする
  11. 11. APPENDIX
  12. 12. 41 サービスメニュー マルチクラウドに最適な統合運用管理 監視・運用・ジョブ管理・プライベート接続をSaaS型で提供し、お客様のすべてのITシステムの一元管理を実現 IIJ統合運用管理サービスメニュー 統合管理 ジョブ管理 専用ジョブ管理 共用ジョブ管理 運用サービス 拡張運用 標準運用 監視サービス 簡易監視 標準監視 チケット管理統合Webポータル APIインタフェース統合サポート窓口 プライベート接続 インターネットVPNリンクリモート標準/拡張リンク エンタープライズ運用 お客様担当者 Azure 他クラウド接続オンプレミス接続 GIO 標準/拡張リンク AWS IIJクラウド接続 マルチクラウド運用 管理画面 自動オペレーション 個別リンク その他
  13. 13. 42 サービス機能:統合管理ポータルとチケット管理 チケット管理機能もある統合WEBポータルを標準提供 UOMポータル システムの運用担当者向け情報、お客様の管理 対象サービス に関する情報、及びコントロール パネルの操作を集約した、IIJ統合運用管理サー ビスのポータルサイト https://uom.iijgio.jp/UOMポータル URL UOMポータル 監視サービス、ジョブ管理サービス、インシデントAPIで検知・発生したアラート、メール取り込みオプションで指定したメールが アラート中継システムを経由し、インシデント管理機能へ自動登録。対応状況をお客様自身で管理可能。 チケット管理画面 チケット管理標準機能 UOMポータルの主要機能 • ダッシュボード • チケット管理 • アラート情報 • ノード状態 • ファイル保管 • 監視コントロールパネル • 運用コントロールパネル • ジョブコントロールパネル 機能 概要 チケットの登録・作成・確認 インシデント管理機能へ自動登録。3ヶ月分の情報をチケット で確認可能 チケットの担当者割り当て・ ステータス変更・関連付け 対応する担当者を割り当て、対応状況を変更、関連のある複 数チケットをまとめができます。 チケットの検索・編集・削除 チケットの検索、情報の追加・修正、削除ができます。 チケットの対応履歴 「インシデント」、「リクエスト」、「タスク」に関する対 応経緯を追加・修正できます チケット管理
  14. 14. 43 サービス主要機能:監視サービス マルチクラウドに対応可能な監視システムをSaaS提供 ■オプション SNMP Trap オプション: SNMP Trap監視 標準監視 簡易監視 ・Ping監視 ・Port監視(TCP) ・EZURL監視 ・URL階層監視 ・プロセス監視 ・Winサービス監視 ・Logキーワード監視 ・Winイベントログ監視 ・CPU/メモリ/Disk監視 ・トラフィック監視 ・ESXi監視 など <提供監視機能> ・Ping監視 ・Port監視(TCP) ・EZURL監視 ・URL階層監視 ※10ポイント単位 <提供監視機能> ※30ポイント単位 監視 アラート通知 ・メール ・電話 監視レポート参照 監視設定 監視 ポイント制課金 オンプレミス 監視システム ユーザ/Sler 管理画面 一元管理と 充実したレポート ユーザセルフ 監視設定 マルチクラウド 監視機能を提供する 監視管理画面 とアラート検知時の メール通知/ 自動電話通知 を標準提供 充実したレポート機能と監視アラートの一元管理により、 システム運用の見える化を実現 標準監視と簡易監視の2タイプの監視メニューを ポイント 制課金でコスト効率 良く利用可能 ※ ポイント制課金とは、監視設定を項目ごとにポイントを利用し、そのポイント数に 応じて料金が決定する仕組みです。 エージェントレス 監視 SaaS提供のエージェントレス監視により、IIJのクラウドサービス(IIJ GIO)だけでなく、オンプレミス環境やその他 クラウド含めたマルチクラウド環境などあらゆる対象を監視可能
  15. 15. 44 サービス主要機能:運用サービス 豊富な経験と実績から高品質のシステム運用を提供 事前に用意した手順書に基づくオペレーション標準運用 や、スクリプト自動実行などが実施できる安価な自動オ ペレーションを提供 個別の定型手順書の実施や、障害対応エンジニアリング などのエンタープライズ向け運用は、拡張運用で対応 運用導入において、経験豊富なSEが運用コンサルティン グを行い、安定的な運用を実現 ※拡張運用をご利用の場合は、事前に運用コンサルティングが必須となります。 オンプレミス ユーザ/Sler 管理画面 マルチクラウド 監視システム 監視・運用 24h365d サポート エンジニア 監視レポート参照 監視設定 報告 監視・運用 対象機器を1台から利用でき、台数の増減にも容易に対応可能なスケールアウト型の運用メニュー 自動オペレーション 標準運用 標準プラスオプション 拡張運用 オプション 弊社で用意済の標準手順書に基づくオペレーション 弊社で用意済の定型手順書に基づくオペレーション お客様個別手順の実施と障害調査や復旧などのエンジニアリング SSL証明書更新、運用実績レポートなどの個別カスタマイズ運用 ※自動オペレーション含む ※拡張運用契約には標準運用の契約が必須 アラート検知後に特定のコマンドを自動で実施
  16. 16. 45 サービス主要機能:ジョブ管理サービス 小規模~大規模まで利用できるジョブ管理もSaaS提供 専用ジョブ管理共用ジョブ管理 中~大規模のジョブ管理向け小規模・スモールスタート <対象エージェント台数> ・1台~10台 ジョブ実行 アラートメール レポート参照 ジョブ設定 ジョブ管理のシステムをSaaS型で提供するため、1台か らでも 早期導入が可能 ※ ジョブ管理は「標準監視」と「標準運用」を契約しているノードが対象です。 充実した ジョブコントロールパネル により、ジョブのモ ニタリングやオペレーション、レポーティングが可能 スモールスタート 可能な共用ジョブ管理と 大規模システ ム にも対応した専用ジョブ管理メニューを提供 <対象エージェント台数> ・10台~無制限 JOB管理 マネージャ 共用 専用 ジョブ実行 ジョブコントロールパネル ジョブコントロールパネル ジョブネット スケジュール アラート通知 ■ 主な機能 ジョブ管理サーバをSaaS型で提供し、対象サーバへエージェントを入れるだけで、ジョブ管理を実装可能 オンプレミス マルチクラウド ユーザ/Sler 管理画面 エージェント エージェント エージェント エージェントエージェント
  17. 17. 46 システム接続イメージ Azure IaaS・AWS向けのプライベート接続 PBB プライベート バックボーン インターネットVPNリンク インターネット回線を介したVPN接続 個別リンク さまざまなネットワーク構成に対応 Azure IaaS AWS インターネット インターネット VPNリンク インターネット VPNリンク IIJ統合運用管理サービス Azure VPN Gateway Amazon Virtual Private Cloud Azure IaaS AWS PBB プライベート バックボーン IIJ統合運用管理サービス Azure Express Route Amazon Direct Connect IIJクラウド エクスチェンジサービス for Microsoft Azure IIJクラウド エクスチェンジサービス for AWS NATルータ (個別構築) NATルータ (個別構築) インターネットVPNリンクの対向ルータとなる Azure VPN Gateway や Amazon VPC の設定はお客様で実施 • Azure VPN Gateway、Amazon VPC向けのプロファイル (設定値)を提供し、VPN接続を容易にします。 監視のためのNATアドレスは1リンクあたり14個まで • 複数契約(最大3契約)することでNATアドレスを増加可 能です。 お客様システムにて 閉域接続(Azure Express Route や Amazon Direct Connectを利用)している場合は、その経 路を利用して運用管理が可能です。 • 監視用のNATルータは、独自に準備が必要です。上記の構成で は、IIJ GIOにNAT用の仮想ルータをSIで導入いただく想定で す。 プロファイル
  18. 18. 47 パートナー様への展開 パートナー様ブランドによる再販(OEM) IIJ パートナー様 エンドユーザ OEM販売 IIJ統合運用管理サービス OEM版 の特別機能 メニュー制御 メール送信元制御 ドメイン変更 アナウンス管理 ロゴ差し替え 顧客チケット管理 サブスクリプション管理 アカウント管理 契約/請求管理 OEM専用環境 ※順次リリース予定

×