Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

運用現場で常に隣り合わせの障害対応、IIJの出した答え

833 views

Published on

[2019/09/30開催「IIJ Technical NIGHT vol.8」の講演資料です]

IIJには、インターネット・バックボーンをはじめクラウド基盤やWeb・Mailなどのアプリケーションなど様々なシステムを日々運用しているエンジニアがたくさんいます。彼らはいつ発生するかわからない障害と常に隣り合わせの状態で、万が一、障害が発生した場合には迅速な対応が求められます。
本セッションでは、IIJのエンジニアが普段どのように障害に対応しているのかを紹介するとともに、障害対応の品質向上を目指して独自に開発した障害対応ツール「Barry(バリー)」誕生の背景を紹介します。

▼講演者
基盤エンジニアリング本部 電気通信設備統括室 高山 将孝

Published in: Internet
  • Be the first to comment

  • Be the first to like this

運用現場で常に隣り合わせの障害対応、IIJの出した答え

  1. 1. ©Internet Initiative Japan Inc. 1 2019/09/30 基盤エンジニアリング本部 電気通信設備統括室 高山 将孝 (Session1) 運用現場で常に隣り合わせの障害対応、IIJの出した答え
  2. 2. ©Internet Initiative Japan Inc. 2 はじめに • IIJ は今回取り上げる Barry をはじめ、これまで多くの運用ツー ルを自作してきました。 – 監視システム – グラフ作成ツール – など • 本セッションではIIJが抱える運用上の課題と解決策をその背景も 併せて説明します。
  3. 3. ©Internet Initiative Japan Inc. 3 本セッションの流れ なぜ IIJ は運用を重視するのか? • 事業スタイルによるもの • 通信事業によるもの IIJ における運用と課題 • IIJ が目指す運用 • 運用の特性 • これまでのエスカレーションフロー • 運用の課題 IIJ の解決策 •IIJ が出した答え •なぜ IIJ は運用ツールを自作するのか?
  4. 4. ©Internet Initiative Japan Inc. 4 通信事業はストックビジネス 企画 設計・開発 運用 フロー ビジネス ストック ビジネス • SI • 受託ソフトウェア 開発 • ISP • クラウドサービス • 通信事業の特性 – 通信事業はストックビジネスであり、収益が上がる(お客様に価値を提供す る)のは運用フェーズである – 収益を上げるためには、多くのお客様にサービスを継続してご利用いただく必 要がある – お客様に継続してサービスをご利用いただくためには、価値を提供し続ける必 要がある – 競合他社との比較において、通信機能そのものの違いは少なく、お客様の満足 度に対する運用の重要度は高い(いつでも使えてて当たり前) 収益 納品/ リリース 収益 収益 収益 収益 収益
  5. 5. ©Internet Initiative Japan Inc. 5 『通信』は社会インフラ 3万 10万 100万 1時間 2時間 12時間 24時間 1 2 3 45 1 2 3 4 5 継続時間 影響を与えた 利用者数 緊急通報を取り扱う音声伝送役務 1時間/3万人 緊急通報を取り扱わない音声伝送役務 2時間/3万人,1時間/10万人 LPWAサービス(報告規則第1条2項17号) 12時間/3万人,2時間/100万人 無償のインターネット関連サービス 24時間/10万人,12時間/100万人 1~4以外の電気通信役務 2時間/3万人,1時間/100万人 IIJサービスが該当する基準 参考: http://www.soumu.go.jp/menu_seisaku/ictseisaku/net_anzen/jiko/judai.html 1時間~2時間以内の障害復旧が求められる 電気通信事業法における「重大な事故」
  6. 6. ©Internet Initiative Japan Inc. 6 IIJ が目指す運用 障害・事故の発生を防止する 障害・事故発生時に迅速な対応を行う 障害・事故発生時の影響の拡大防止 今回は 『迅速な対応』と『影響の拡大防止』 がターゲット
  7. 7. ©Internet Initiative Japan Inc. 7 運用の特性 • 『運用』は継続する – サービスが継続するかぎり終わらない – 運用担当者の継続的な稼働が発生する • 『運用』の業務はイベント的に発生するものが多い – 機器の故障 – 脆弱性対応 – ソフトウェアバグなど不具合の顕在化 – 各種リソースの不足 • 『運用』コストは積みあがる – 一つひとつの業務の負担は軽くても、業務が継続的、24時間365日突 発的に発生することで、運用コストは増大する
  8. 8. ©Internet Initiative Japan Inc. 8 監視 システム IIJの障害対応フロー 運用対象 システム 運用担当者 エスカレーションリスト (4) 定型オペレーションで対応でき ない場合は、エスカレーション リストを参照して、対応者可能 な人が見つかるまで順番に電 話し続ける オペレータ (2) メールで アラートを通知 (1) 異常検知 監視 オペレーションセンター (3) 定型的な 対応作業を実施 運用担当者 エスカレーションリスト 優先順位 氏名 電話番号 1 佐藤 蓮 090-xxxx-xxxx 2 鈴木 湊 090-xxxx-xxxx 3 高橋 大翔 090-xxxx-xxxx 4 田中 大和 090-xxxx-xxxx 5 渡辺 陽翔 090-xxxx-xxxx au docomo (5) 対応者の決定 (6) 対応の実施 …
  9. 9. ©Internet Initiative Japan Inc. 9 なぜ電話でエスカレーションをしているのか? • 電話を使うメリット – メールやSMSでは受信時の数秒の通知だけなので気づかないことがあ るが、電話は受話するまで鳴らし続けることができる • 電話エスカレーションの課題 – 人が電話でエスカレーションをする場合は人手がかかる • 一部で自動架電システムを導入しているところもあるが、技術的制約により人によ る電話エスカレーション業務も多数残っている – 電話回線数の制約があるため同時エスカレーションが難しい • 原則としてエスカレーションリスト上位からシーケンシャルに電話をすることにな る • 大規模障害時に大量にエスカレーションが発生すると手間と時間がかかる • あらかじめ回線数を多くもっておくと維持コストがかかる 対応者を確実に捕まえるために電話でエスカレーション
  10. 10. ©Internet Initiative Japan Inc. 10 運用担当者のつらさ • 休日・夜間を問わず緊急対応が発生する – 家族や恋人、友人とのプライベートな時間での緊急呼び出し – 深夜・早朝など睡眠中の緊急呼び出し • あらかじめ想定された障害だけが発生するわけではなく、高度な 対応スキルが要求される – アラート検知時の迅速な状況判断 – 影響の範囲と内容の早期特定 – 原因の特定と対応方針の決定 – 迅速かつ確実な対応実施 • 精神的な負担 – 早期復旧に対するプレッシャー – 対応方法が分からない – 対処を誤った場合は被害を拡大させる可能性もある – 独りぼっちでの対応 • 対応しても誰も評価してくれない?
  11. 11. ©Internet Initiative Japan Inc. 11 障害対応のジレンマ 障害対応者の確実な確保 • エスカレーションリストの 人数を増やす • 主担当でないシステムのエ スカレーションも受ける 対応できる障害のみ対応 • 主担当のシステムのエスカレー ションのみ受ける • エスカレーションリストの人数 が減る あるシステムの主担当 (システムを完全に把握している人) は数名…
  12. 12. ©Internet Initiative Japan Inc. 12 IIJ が出した答えは スマホアプリ『Barry』 障害対応者を迅速かつ確実に確保する • メールに依存しないアラート通知 • プッシュ通知の仕組みを利用した同時一斉呼出し(エスカレーション) 障害対応者の負担を軽減する • 障害対応状況を関係者間でリアルタイム共有 • 関係者間でのメッセージ交換 • ボタン1つで「応援要請」やマネージャ呼出し • 対応の記録と過去の対応記録(ナレッジ)の検索・参照
  13. 13. ©Internet Initiative Japan Inc. 13 業務システムを自社開発するか?既製品を使うか? 自社開発のメリット • ツールを業務に最適化で きる • 自社内で情報管理できる 自社開発のデメリット • 開発工数がかかる • 独自ツールの使い方を覚 えないといけない 業務にツールを合わせるか? ツールに業務を合わせるか? 業務に最適化されたツールで運用の品質を追求していく
  14. 14. ©Internet Initiative Japan Inc. 14 まとめ • IIJは運用を重視してきた – 通信事業はストックビジネスであり、事業として成功するためには安定した サービス提供が必要 – 通信という社会インフラの提供者として、安定したサービスを提供する社会的 責任がある – 運用のコストは継続的に発生するため、運用コストの削減も重要 • 安定したサービス運用に必要なこと – 迅速な障害対応 – 影響範囲の拡大防止(適切かつ確実な障害対応) • サービス運用の課題 – 対応者の迅速かつ確実な確保 – 運用担当者の負担軽減 • いま何が起きているのか、どのようは影響が出ているのか、どのように対応するべきなのか、など 各種判断や実行における技術面での対応支援 • 精神的プレッシャーの軽減 • IIJ はこの課題を Barry で解決する – 直接対応できなくてもスマホだけあれば障害対応をサポートできる – みんなで助け合いながら障害対応

×