More Related Content
Similar to 運用現場で常に隣り合わせの障害対応、IIJの出した答え (20)
運用現場で常に隣り合わせの障害対応、IIJの出した答え
- 2. ©Internet Initiative Japan Inc. 2
はじめに
• IIJ は今回取り上げる Barry をはじめ、これまで多くの運用ツー
ルを自作してきました。
– 監視システム
– グラフ作成ツール
– など
• 本セッションではIIJが抱える運用上の課題と解決策をその背景も
併せて説明します。
- 3. ©Internet Initiative Japan Inc. 3
本セッションの流れ
なぜ IIJ は運用を重視するのか?
• 事業スタイルによるもの
• 通信事業によるもの
IIJ における運用と課題
• IIJ が目指す運用
• 運用の特性
• これまでのエスカレーションフロー
• 運用の課題
IIJ の解決策
•IIJ が出した答え
•なぜ IIJ は運用ツールを自作するのか?
- 4. ©Internet Initiative Japan Inc. 4
通信事業はストックビジネス
企画 設計・開発 運用
フロー
ビジネス
ストック
ビジネス
• SI
• 受託ソフトウェア
開発
• ISP
• クラウドサービス
• 通信事業の特性
– 通信事業はストックビジネスであり、収益が上がる(お客様に価値を提供す
る)のは運用フェーズである
– 収益を上げるためには、多くのお客様にサービスを継続してご利用いただく必
要がある
– お客様に継続してサービスをご利用いただくためには、価値を提供し続ける必
要がある
– 競合他社との比較において、通信機能そのものの違いは少なく、お客様の満足
度に対する運用の重要度は高い(いつでも使えてて当たり前)
収益
納品/
リリース
収益
収益
収益
収益
収益
- 5. ©Internet Initiative Japan Inc. 5
『通信』は社会インフラ
3万
10万
100万
1時間 2時間 12時間 24時間
1
2
3
45
1
2
3
4
5
継続時間
影響を与えた
利用者数
緊急通報を取り扱う音声伝送役務
1時間/3万人
緊急通報を取り扱わない音声伝送役務
2時間/3万人,1時間/10万人
LPWAサービス(報告規則第1条2項17号)
12時間/3万人,2時間/100万人
無償のインターネット関連サービス
24時間/10万人,12時間/100万人
1~4以外の電気通信役務
2時間/3万人,1時間/100万人
IIJサービスが該当する基準
参考: http://www.soumu.go.jp/menu_seisaku/ictseisaku/net_anzen/jiko/judai.html
1時間~2時間以内の障害復旧が求められる
電気通信事業法における「重大な事故」
- 7. ©Internet Initiative Japan Inc. 7
運用の特性
• 『運用』は継続する
– サービスが継続するかぎり終わらない
– 運用担当者の継続的な稼働が発生する
• 『運用』の業務はイベント的に発生するものが多い
– 機器の故障
– 脆弱性対応
– ソフトウェアバグなど不具合の顕在化
– 各種リソースの不足
• 『運用』コストは積みあがる
– 一つひとつの業務の負担は軽くても、業務が継続的、24時間365日突
発的に発生することで、運用コストは増大する
- 8. ©Internet Initiative Japan Inc. 8
監視
システム
IIJの障害対応フロー
運用対象
システム
運用担当者
エスカレーションリスト
(4)
定型オペレーションで対応でき
ない場合は、エスカレーション
リストを参照して、対応者可能
な人が見つかるまで順番に電
話し続ける
オペレータ
(2)
メールで
アラートを通知
(1)
異常検知
監視
オペレーションセンター
(3)
定型的な
対応作業を実施
運用担当者
エスカレーションリスト
優先順位 氏名 電話番号
1 佐藤 蓮 090-xxxx-xxxx
2 鈴木 湊 090-xxxx-xxxx
3 高橋 大翔 090-xxxx-xxxx
4 田中 大和 090-xxxx-xxxx
5 渡辺 陽翔 090-xxxx-xxxx
au
docomo
(5)
対応者の決定
(6)
対応の実施
…
- 9. ©Internet Initiative Japan Inc. 9
なぜ電話でエスカレーションをしているのか?
• 電話を使うメリット
– メールやSMSでは受信時の数秒の通知だけなので気づかないことがあ
るが、電話は受話するまで鳴らし続けることができる
• 電話エスカレーションの課題
– 人が電話でエスカレーションをする場合は人手がかかる
• 一部で自動架電システムを導入しているところもあるが、技術的制約により人によ
る電話エスカレーション業務も多数残っている
– 電話回線数の制約があるため同時エスカレーションが難しい
• 原則としてエスカレーションリスト上位からシーケンシャルに電話をすることにな
る
• 大規模障害時に大量にエスカレーションが発生すると手間と時間がかかる
• あらかじめ回線数を多くもっておくと維持コストがかかる
対応者を確実に捕まえるために電話でエスカレーション
- 10. ©Internet Initiative Japan Inc. 10
運用担当者のつらさ
• 休日・夜間を問わず緊急対応が発生する
– 家族や恋人、友人とのプライベートな時間での緊急呼び出し
– 深夜・早朝など睡眠中の緊急呼び出し
• あらかじめ想定された障害だけが発生するわけではなく、高度な
対応スキルが要求される
– アラート検知時の迅速な状況判断
– 影響の範囲と内容の早期特定
– 原因の特定と対応方針の決定
– 迅速かつ確実な対応実施
• 精神的な負担
– 早期復旧に対するプレッシャー
– 対応方法が分からない
– 対処を誤った場合は被害を拡大させる可能性もある
– 独りぼっちでの対応
• 対応しても誰も評価してくれない?
- 11. ©Internet Initiative Japan Inc. 11
障害対応のジレンマ
障害対応者の確実な確保
• エスカレーションリストの
人数を増やす
• 主担当でないシステムのエ
スカレーションも受ける
対応できる障害のみ対応
• 主担当のシステムのエスカレー
ションのみ受ける
• エスカレーションリストの人数
が減る
あるシステムの主担当
(システムを完全に把握している人)
は数名…
- 12. ©Internet Initiative Japan Inc. 12
IIJ が出した答えは スマホアプリ『Barry』
障害対応者を迅速かつ確実に確保する
• メールに依存しないアラート通知
• プッシュ通知の仕組みを利用した同時一斉呼出し(エスカレーション)
障害対応者の負担を軽減する
• 障害対応状況を関係者間でリアルタイム共有
• 関係者間でのメッセージ交換
• ボタン1つで「応援要請」やマネージャ呼出し
• 対応の記録と過去の対応記録(ナレッジ)の検索・参照
- 13. ©Internet Initiative Japan Inc. 13
業務システムを自社開発するか?既製品を使うか?
自社開発のメリット
• ツールを業務に最適化で
きる
• 自社内で情報管理できる
自社開発のデメリット
• 開発工数がかかる
• 独自ツールの使い方を覚
えないといけない
業務にツールを合わせるか?
ツールに業務を合わせるか?
業務に最適化されたツールで運用の品質を追求していく
- 14. ©Internet Initiative Japan Inc. 14
まとめ
• IIJは運用を重視してきた
– 通信事業はストックビジネスであり、事業として成功するためには安定した
サービス提供が必要
– 通信という社会インフラの提供者として、安定したサービスを提供する社会的
責任がある
– 運用のコストは継続的に発生するため、運用コストの削減も重要
• 安定したサービス運用に必要なこと
– 迅速な障害対応
– 影響範囲の拡大防止(適切かつ確実な障害対応)
• サービス運用の課題
– 対応者の迅速かつ確実な確保
– 運用担当者の負担軽減
• いま何が起きているのか、どのようは影響が出ているのか、どのように対応するべきなのか、など
各種判断や実行における技術面での対応支援
• 精神的プレッシャーの軽減
• IIJ はこの課題を Barry で解決する
– 直接対応できなくてもスマホだけあれば障害対応をサポートできる
– みんなで助け合いながら障害対応