SlideShare a Scribd company logo
1 of 14
Download to read offline
©Internet Initiative Japan Inc. 1
2019/09/30
基盤エンジニアリング本部 電気通信設備統括室
高山 将孝
(Session1)
運用現場で常に隣り合わせの障害対応、IIJの出した答え
©Internet Initiative Japan Inc. 2
はじめに
• IIJ は今回取り上げる Barry をはじめ、これまで多くの運用ツー
ルを自作してきました。
– 監視システム
– グラフ作成ツール
– など
• 本セッションではIIJが抱える運用上の課題と解決策をその背景も
併せて説明します。
©Internet Initiative Japan Inc. 3
本セッションの流れ
なぜ IIJ は運用を重視するのか?
• 事業スタイルによるもの
• 通信事業によるもの
IIJ における運用と課題
• IIJ が目指す運用
• 運用の特性
• これまでのエスカレーションフロー
• 運用の課題
IIJ の解決策
•IIJ が出した答え
•なぜ IIJ は運用ツールを自作するのか?
©Internet Initiative Japan Inc. 4
通信事業はストックビジネス
企画 設計・開発 運用
フロー
ビジネス
ストック
ビジネス
• SI
• 受託ソフトウェア
開発
• ISP
• クラウドサービス
• 通信事業の特性
– 通信事業はストックビジネスであり、収益が上がる(お客様に価値を提供す
る)のは運用フェーズである
– 収益を上げるためには、多くのお客様にサービスを継続してご利用いただく必
要がある
– お客様に継続してサービスをご利用いただくためには、価値を提供し続ける必
要がある
– 競合他社との比較において、通信機能そのものの違いは少なく、お客様の満足
度に対する運用の重要度は高い(いつでも使えてて当たり前)
収益
納品/
リリース
収益
収益
収益
収益
収益
©Internet Initiative Japan Inc. 5
『通信』は社会インフラ
3万
10万
100万
1時間 2時間 12時間 24時間
1
2
3
45
1
2
3
4
5
継続時間
影響を与えた
利用者数
緊急通報を取り扱う音声伝送役務
1時間/3万人
緊急通報を取り扱わない音声伝送役務
2時間/3万人,1時間/10万人
LPWAサービス(報告規則第1条2項17号)
12時間/3万人,2時間/100万人
無償のインターネット関連サービス
24時間/10万人,12時間/100万人
1~4以外の電気通信役務
2時間/3万人,1時間/100万人
IIJサービスが該当する基準
参考: http://www.soumu.go.jp/menu_seisaku/ictseisaku/net_anzen/jiko/judai.html
1時間~2時間以内の障害復旧が求められる
電気通信事業法における「重大な事故」
©Internet Initiative Japan Inc. 6
IIJ が目指す運用
障害・事故の発生を防止する
障害・事故発生時に迅速な対応を行う
障害・事故発生時の影響の拡大防止
今回は
『迅速な対応』と『影響の拡大防止』
がターゲット
©Internet Initiative Japan Inc. 7
運用の特性
• 『運用』は継続する
– サービスが継続するかぎり終わらない
– 運用担当者の継続的な稼働が発生する
• 『運用』の業務はイベント的に発生するものが多い
– 機器の故障
– 脆弱性対応
– ソフトウェアバグなど不具合の顕在化
– 各種リソースの不足
• 『運用』コストは積みあがる
– 一つひとつの業務の負担は軽くても、業務が継続的、24時間365日突
発的に発生することで、運用コストは増大する
©Internet Initiative Japan Inc. 8
監視
システム
IIJの障害対応フロー
運用対象
システム
運用担当者
エスカレーションリスト
(4)
定型オペレーションで対応でき
ない場合は、エスカレーション
リストを参照して、対応者可能
な人が見つかるまで順番に電
話し続ける
オペレータ
(2)
メールで
アラートを通知
(1)
異常検知
監視
オペレーションセンター
(3)
定型的な
対応作業を実施
運用担当者
エスカレーションリスト
優先順位 氏名 電話番号
1 佐藤 蓮 090-xxxx-xxxx
2 鈴木 湊 090-xxxx-xxxx
3 高橋 大翔 090-xxxx-xxxx
4 田中 大和 090-xxxx-xxxx
5 渡辺 陽翔 090-xxxx-xxxx
au
docomo
(5)
対応者の決定
(6)
対応の実施
…
©Internet Initiative Japan Inc. 9
なぜ電話でエスカレーションをしているのか?
• 電話を使うメリット
– メールやSMSでは受信時の数秒の通知だけなので気づかないことがあ
るが、電話は受話するまで鳴らし続けることができる
• 電話エスカレーションの課題
– 人が電話でエスカレーションをする場合は人手がかかる
• 一部で自動架電システムを導入しているところもあるが、技術的制約により人によ
る電話エスカレーション業務も多数残っている
– 電話回線数の制約があるため同時エスカレーションが難しい
• 原則としてエスカレーションリスト上位からシーケンシャルに電話をすることにな
る
• 大規模障害時に大量にエスカレーションが発生すると手間と時間がかかる
• あらかじめ回線数を多くもっておくと維持コストがかかる
対応者を確実に捕まえるために電話でエスカレーション
©Internet Initiative Japan Inc. 10
運用担当者のつらさ
• 休日・夜間を問わず緊急対応が発生する
– 家族や恋人、友人とのプライベートな時間での緊急呼び出し
– 深夜・早朝など睡眠中の緊急呼び出し
• あらかじめ想定された障害だけが発生するわけではなく、高度な
対応スキルが要求される
– アラート検知時の迅速な状況判断
– 影響の範囲と内容の早期特定
– 原因の特定と対応方針の決定
– 迅速かつ確実な対応実施
• 精神的な負担
– 早期復旧に対するプレッシャー
– 対応方法が分からない
– 対処を誤った場合は被害を拡大させる可能性もある
– 独りぼっちでの対応
• 対応しても誰も評価してくれない?
©Internet Initiative Japan Inc. 11
障害対応のジレンマ
障害対応者の確実な確保
• エスカレーションリストの
人数を増やす
• 主担当でないシステムのエ
スカレーションも受ける
対応できる障害のみ対応
• 主担当のシステムのエスカレー
ションのみ受ける
• エスカレーションリストの人数
が減る
あるシステムの主担当
(システムを完全に把握している人)
は数名…
©Internet Initiative Japan Inc. 12
IIJ が出した答えは スマホアプリ『Barry』
障害対応者を迅速かつ確実に確保する
• メールに依存しないアラート通知
• プッシュ通知の仕組みを利用した同時一斉呼出し(エスカレーション)
障害対応者の負担を軽減する
• 障害対応状況を関係者間でリアルタイム共有
• 関係者間でのメッセージ交換
• ボタン1つで「応援要請」やマネージャ呼出し
• 対応の記録と過去の対応記録(ナレッジ)の検索・参照
©Internet Initiative Japan Inc. 13
業務システムを自社開発するか?既製品を使うか?
自社開発のメリット
• ツールを業務に最適化で
きる
• 自社内で情報管理できる
自社開発のデメリット
• 開発工数がかかる
• 独自ツールの使い方を覚
えないといけない
業務にツールを合わせるか?
ツールに業務を合わせるか?
業務に最適化されたツールで運用の品質を追求していく
©Internet Initiative Japan Inc. 14
まとめ
• IIJは運用を重視してきた
– 通信事業はストックビジネスであり、事業として成功するためには安定した
サービス提供が必要
– 通信という社会インフラの提供者として、安定したサービスを提供する社会的
責任がある
– 運用のコストは継続的に発生するため、運用コストの削減も重要
• 安定したサービス運用に必要なこと
– 迅速な障害対応
– 影響範囲の拡大防止(適切かつ確実な障害対応)
• サービス運用の課題
– 対応者の迅速かつ確実な確保
– 運用担当者の負担軽減
• いま何が起きているのか、どのようは影響が出ているのか、どのように対応するべきなのか、など
各種判断や実行における技術面での対応支援
• 精神的プレッシャーの軽減
• IIJ はこの課題を Barry で解決する
– 直接対応できなくてもスマホだけあれば障害対応をサポートできる
– みんなで助け合いながら障害対応

More Related Content

What's hot

「おうちクラウド」が今熱い!
「おうちクラウド」が今熱い!「おうちクラウド」が今熱い!
「おうちクラウド」が今熱い!Hirotaka Sato
 
ロードバランスへの長い道
ロードバランスへの長い道ロードバランスへの長い道
ロードバランスへの長い道Jun Kato
 
ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)
ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)
ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)Wataru NOGUCHI
 
Re: ゼロから始める監視設計
Re: ゼロから始める監視設計Re: ゼロから始める監視設計
Re: ゼロから始める監視設計Masahito Zembutsu
 
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...NTT DATA Technology & Innovation
 
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチマイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ増田 亨
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)NTT DATA Technology & Innovation
 
監視 Overview
監視 Overview監視 Overview
監視 OverviewIIJ
 
データセンターネットワークの構成について
データセンターネットワークの構成についてデータセンターネットワークの構成について
データセンターネットワークの構成についてMicroAd, Inc.(Engineer)
 
wakamonog6 インターネットの裏側の仕組み
wakamonog6 インターネットの裏側の仕組みwakamonog6 インターネットの裏側の仕組み
wakamonog6 インターネットの裏側の仕組みTaiji Tsuchiya
 
ルーティングチュートリアルチュートリアル TCP/IP編
ルーティングチュートリアルチュートリアル TCP/IP編ルーティングチュートリアルチュートリアル TCP/IP編
ルーティングチュートリアルチュートリアル TCP/IP編Yuya Rin
 
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫Yuta Imai
 
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編株式会社 NTTテクノクロス
 
Keycloakの実際・翻訳プロジェクト紹介
Keycloakの実際・翻訳プロジェクト紹介Keycloakの実際・翻訳プロジェクト紹介
Keycloakの実際・翻訳プロジェクト紹介Hiroyuki Wada
 
30分でわかる! コンピュータネットワーク
30分でわかる! コンピュータネットワーク30分でわかる! コンピュータネットワーク
30分でわかる! コンピュータネットワークTrainocate Japan, Ltd.
 
事業成長にコミットするエンジニア組織への道のり
事業成長にコミットするエンジニア組織への道のり事業成長にコミットするエンジニア組織への道のり
事業成長にコミットするエンジニア組織への道のりRecruit Lifestyle Co., Ltd.
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計sairoutine
 
ISPネットワーク運用で覗いてるもの
ISPネットワーク運用で覗いてるものISPネットワーク運用で覗いてるもの
ISPネットワーク運用で覗いてるものTaiji Tsuchiya
 

What's hot (20)

「おうちクラウド」が今熱い!
「おうちクラウド」が今熱い!「おうちクラウド」が今熱い!
「おうちクラウド」が今熱い!
 
ロードバランスへの長い道
ロードバランスへの長い道ロードバランスへの長い道
ロードバランスへの長い道
 
ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)
ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)
ネットワークシミュレータで手軽にネットワークのお勉強(GNS3編)
 
Re: ゼロから始める監視設計
Re: ゼロから始める監視設計Re: ゼロから始める監視設計
Re: ゼロから始める監視設計
 
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
NTTデータ流Infrastructure as Code~ 大規模プロジェクトを通して考え抜いた基盤自動化の新たな姿~(NTTデータ テクノロジーカンフ...
 
マイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチマイクロサービス 4つの分割アプローチ
マイクロサービス 4つの分割アプローチ
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
 
監視 Overview
監視 Overview監視 Overview
監視 Overview
 
データセンターネットワークの構成について
データセンターネットワークの構成についてデータセンターネットワークの構成について
データセンターネットワークの構成について
 
wakamonog6 インターネットの裏側の仕組み
wakamonog6 インターネットの裏側の仕組みwakamonog6 インターネットの裏側の仕組み
wakamonog6 インターネットの裏側の仕組み
 
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
 
ルーティングチュートリアルチュートリアル TCP/IP編
ルーティングチュートリアルチュートリアル TCP/IP編ルーティングチュートリアルチュートリアル TCP/IP編
ルーティングチュートリアルチュートリアル TCP/IP編
 
オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫オンラインゲームの仕組みと工夫
オンラインゲームの仕組みと工夫
 
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
 
Keycloakの実際・翻訳プロジェクト紹介
Keycloakの実際・翻訳プロジェクト紹介Keycloakの実際・翻訳プロジェクト紹介
Keycloakの実際・翻訳プロジェクト紹介
 
30分でわかる! コンピュータネットワーク
30分でわかる! コンピュータネットワーク30分でわかる! コンピュータネットワーク
30分でわかる! コンピュータネットワーク
 
事業成長にコミットするエンジニア組織への道のり
事業成長にコミットするエンジニア組織への道のり事業成長にコミットするエンジニア組織への道のり
事業成長にコミットするエンジニア組織への道のり
 
ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計ゲームエンジニアのためのデータベース設計
ゲームエンジニアのためのデータベース設計
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
ISPネットワーク運用で覗いてるもの
ISPネットワーク運用で覗いてるものISPネットワーク運用で覗いてるもの
ISPネットワーク運用で覗いてるもの
 

Similar to 運用現場で常に隣り合わせの障害対応、IIJの出した答え

ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)伸夫 森本
 
100714 iocj情報交換会 冒頭
100714 iocj情報交換会 冒頭100714 iocj情報交換会 冒頭
100714 iocj情報交換会 冒頭Takaaki Yano
 
SORACOM UG Explorer 2018 - IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウ
SORACOM UG Explorer 2018 -  IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウSORACOM UG Explorer 2018 -  IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウ
SORACOM UG Explorer 2018 - IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウ紘之 大田黒
 
Ignite ui 2012 最新情報 jQuery UI 編
Ignite ui 2012 最新情報 jQuery UI 編Ignite ui 2012 最新情報 jQuery UI 編
Ignite ui 2012 最新情報 jQuery UI 編Daizen Ikehara
 
Rancherを活用した開発・運用効率の改善への取り組み
Rancherを活用した開発・運用効率の改善への取り組みRancherを活用した開発・運用効率の改善への取り組み
Rancherを活用した開発・運用効率の改善への取り組みMichitaka Terada
 
20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎啓明 新冨
 
大規模アジャイル Ibm
大規模アジャイル Ibm大規模アジャイル Ibm
大規模アジャイル IbmSORACOM, INC
 
20210521 jimuc panel
20210521 jimuc panel20210521 jimuc panel
20210521 jimuc panelChikakoInami1
 
OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様ManageEngine, Zoho Corporation
 
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」PC Cluster Consortium
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポートDaichi Morifuji
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre正善 大島
 
【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)
【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)
【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)Developers Summit
 
IIJ GIOを支える統合運用監視基盤
IIJ GIOを支える統合運用監視基盤IIJ GIOを支える統合運用監視基盤
IIJ GIOを支える統合運用監視基盤IIJ
 
マイクロソフトにおけるエバンジェリズム活動
マイクロソフトにおけるエバンジェリズム活動マイクロソフトにおけるエバンジェリズム活動
マイクロソフトにおけるエバンジェリズム活動Osamu Monoe
 
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...de:code 2017
 
自動化の下ごしらえ
自動化の下ごしらえ自動化の下ごしらえ
自動化の下ごしらえakira6592
 
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しようテスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しようAkira Ikeda
 
『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立についてMasahiko Ebisuda
 

Similar to 運用現場で常に隣り合わせの障害対応、IIJの出した答え (20)

ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)ノーツが日本を救う(2002/3/13)
ノーツが日本を救う(2002/3/13)
 
Agile meets BABOK
Agile meets BABOKAgile meets BABOK
Agile meets BABOK
 
100714 iocj情報交換会 冒頭
100714 iocj情報交換会 冒頭100714 iocj情報交換会 冒頭
100714 iocj情報交換会 冒頭
 
SORACOM UG Explorer 2018 - IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウ
SORACOM UG Explorer 2018 -  IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウSORACOM UG Explorer 2018 -  IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウ
SORACOM UG Explorer 2018 - IoTxAIを活用した小売業向け店舗解析サービスの仕組みとノウハウ
 
Ignite ui 2012 最新情報 jQuery UI 編
Ignite ui 2012 最新情報 jQuery UI 編Ignite ui 2012 最新情報 jQuery UI 編
Ignite ui 2012 最新情報 jQuery UI 編
 
Rancherを活用した開発・運用効率の改善への取り組み
Rancherを活用した開発・運用効率の改善への取り組みRancherを活用した開発・運用効率の改善への取り組み
Rancherを活用した開発・運用効率の改善への取り組み
 
20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎20150425 iiba日本支部講演 日米比較 一色浩一郎
20150425 iiba日本支部講演 日米比較 一色浩一郎
 
大規模アジャイル Ibm
大規模アジャイル Ibm大規模アジャイル Ibm
大規模アジャイル Ibm
 
20210521 jimuc panel
20210521 jimuc panel20210521 jimuc panel
20210521 jimuc panel
 
OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様OpManager導入事例 日テレITプロデュース様
OpManager導入事例 日テレITプロデュース様
 
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
 
企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート企業と勉強会 @nifty エンジニアサポート
企業と勉強会 @nifty エンジニアサポート
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre
 
【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)
【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)
【13-B-4】事例から学ぶdev ops実現のためのプラクティス(黒川敦〔日本アイ・ビー・エム〕)
 
IIJ GIOを支える統合運用監視基盤
IIJ GIOを支える統合運用監視基盤IIJ GIOを支える統合運用監視基盤
IIJ GIOを支える統合運用監視基盤
 
マイクロソフトにおけるエバンジェリズム活動
マイクロソフトにおけるエバンジェリズム活動マイクロソフトにおけるエバンジェリズム活動
マイクロソフトにおけるエバンジェリズム活動
 
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
 
自動化の下ごしらえ
自動化の下ごしらえ自動化の下ごしらえ
自動化の下ごしらえ
 
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しようテスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
テスト分析・設計を体感しよう ~マインドマップを活用してテスト観点を発想しよう
 
『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について
 

More from IIJ

プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例
プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例
プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例IIJ
 
IIJ_デジタルワークプレース事業紹介資料
IIJ_デジタルワークプレース事業紹介資料IIJ_デジタルワークプレース事業紹介資料
IIJ_デジタルワークプレース事業紹介資料IIJ
 
HTTPを理解する
HTTPを理解するHTTPを理解する
HTTPを理解するIIJ
 
DevOps Overview
DevOps OverviewDevOps Overview
DevOps OverviewIIJ
 
ただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学び
ただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学びただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学び
ただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学びIIJ
 
上っ面スクラムチームにならないために気を付けたいこと
上っ面スクラムチームにならないために気を付けたいこと上っ面スクラムチームにならないために気を付けたいこと
上っ面スクラムチームにならないために気を付けたいことIIJ
 
Super Easy Memory Forensics
Super Easy Memory ForensicsSuper Easy Memory Forensics
Super Easy Memory ForensicsIIJ
 
チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談
チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談
チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談IIJ
 
【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?
【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?
【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?IIJ
 
コロナ禍での白井データセンターキャンパスの運用施策
コロナ禍での白井データセンターキャンパスの運用施策コロナ禍での白井データセンターキャンパスの運用施策
コロナ禍での白井データセンターキャンパスの運用施策IIJ
 
コロナ禍の開発勉強会~社内教育ツールの開発と実装
コロナ禍の開発勉強会~社内教育ツールの開発と実装コロナ禍の開発勉強会~社内教育ツールの開発と実装
コロナ禍の開発勉強会~社内教育ツールの開発と実装IIJ
 
セキュリティ動向2020
セキュリティ動向2020セキュリティ動向2020
セキュリティ動向2020IIJ
 
データセンターのエネルギーコントロールの仕組み
データセンターのエネルギーコントロールの仕組みデータセンターのエネルギーコントロールの仕組み
データセンターのエネルギーコントロールの仕組みIIJ
 
世界のインターネット事情
世界のインターネット事情世界のインターネット事情
世界のインターネット事情IIJ
 
フロントからバックエンドまで - WebAssemblyで広がる可能性
フロントからバックエンドまで - WebAssemblyで広がる可能性フロントからバックエンドまで - WebAssemblyで広がる可能性
フロントからバックエンドまで - WebAssemblyで広がる可能性IIJ
 
あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~
あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~
あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~IIJ
 
インシデント調査システムが内製すぎる件~CHAGEのご紹介~
インシデント調査システムが内製すぎる件~CHAGEのご紹介~インシデント調査システムが内製すぎる件~CHAGEのご紹介~
インシデント調査システムが内製すぎる件~CHAGEのご紹介~IIJ
 
IIJ Technical DAY 2019 ~ セキュリティ動向2019
IIJ Technical DAY 2019 ~ セキュリティ動向2019IIJ Technical DAY 2019 ~ セキュリティ動向2019
IIJ Technical DAY 2019 ~ セキュリティ動向2019IIJ
 
IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...
IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...
IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...IIJ
 
IIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリング
IIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリングIIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリング
IIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリングIIJ
 

More from IIJ (20)

プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例
プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例
プロダクトオーナーと開発者が別会社・別組織でも前のめりなチームを生み出す取り組み事例
 
IIJ_デジタルワークプレース事業紹介資料
IIJ_デジタルワークプレース事業紹介資料IIJ_デジタルワークプレース事業紹介資料
IIJ_デジタルワークプレース事業紹介資料
 
HTTPを理解する
HTTPを理解するHTTPを理解する
HTTPを理解する
 
DevOps Overview
DevOps OverviewDevOps Overview
DevOps Overview
 
ただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学び
ただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学びただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学び
ただいま三河。あれから1年、チームNOCKncokが開発しないスクラムで成果を出した経験から得た学び
 
上っ面スクラムチームにならないために気を付けたいこと
上っ面スクラムチームにならないために気を付けたいこと上っ面スクラムチームにならないために気を付けたいこと
上っ面スクラムチームにならないために気を付けたいこと
 
Super Easy Memory Forensics
Super Easy Memory ForensicsSuper Easy Memory Forensics
Super Easy Memory Forensics
 
チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談
チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談
チームみを大切にした 私たちの“受託アジャイル・スクラム”体験談
 
【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?
【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?
【解説】IKE(IIJ Kubernetes Engine):= Vanilla Kubernetes + 何?
 
コロナ禍での白井データセンターキャンパスの運用施策
コロナ禍での白井データセンターキャンパスの運用施策コロナ禍での白井データセンターキャンパスの運用施策
コロナ禍での白井データセンターキャンパスの運用施策
 
コロナ禍の開発勉強会~社内教育ツールの開発と実装
コロナ禍の開発勉強会~社内教育ツールの開発と実装コロナ禍の開発勉強会~社内教育ツールの開発と実装
コロナ禍の開発勉強会~社内教育ツールの開発と実装
 
セキュリティ動向2020
セキュリティ動向2020セキュリティ動向2020
セキュリティ動向2020
 
データセンターのエネルギーコントロールの仕組み
データセンターのエネルギーコントロールの仕組みデータセンターのエネルギーコントロールの仕組み
データセンターのエネルギーコントロールの仕組み
 
世界のインターネット事情
世界のインターネット事情世界のインターネット事情
世界のインターネット事情
 
フロントからバックエンドまで - WebAssemblyで広がる可能性
フロントからバックエンドまで - WebAssemblyで広がる可能性フロントからバックエンドまで - WebAssemblyで広がる可能性
フロントからバックエンドまで - WebAssemblyで広がる可能性
 
あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~
あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~
あ! やせいのEmotetがあらわれた! ~ IIJ C-SOCサービスの分析ルールについて~
 
インシデント調査システムが内製すぎる件~CHAGEのご紹介~
インシデント調査システムが内製すぎる件~CHAGEのご紹介~インシデント調査システムが内製すぎる件~CHAGEのご紹介~
インシデント調査システムが内製すぎる件~CHAGEのご紹介~
 
IIJ Technical DAY 2019 ~ セキュリティ動向2019
IIJ Technical DAY 2019 ~ セキュリティ動向2019IIJ Technical DAY 2019 ~ セキュリティ動向2019
IIJ Technical DAY 2019 ~ セキュリティ動向2019
 
IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...
IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...
IIJ Technical DAY 2019 ~ Untangling the world-wide mesh of undersea cables:世界...
 
IIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリング
IIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリングIIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリング
IIJ Technical DAY 2019 ~ 安全なデジタル通貨流通を支えるアーキテクチャとエンジニアリング
 

運用現場で常に隣り合わせの障害対応、IIJの出した答え

  • 1. ©Internet Initiative Japan Inc. 1 2019/09/30 基盤エンジニアリング本部 電気通信設備統括室 高山 将孝 (Session1) 運用現場で常に隣り合わせの障害対応、IIJの出した答え
  • 2. ©Internet Initiative Japan Inc. 2 はじめに • IIJ は今回取り上げる Barry をはじめ、これまで多くの運用ツー ルを自作してきました。 – 監視システム – グラフ作成ツール – など • 本セッションではIIJが抱える運用上の課題と解決策をその背景も 併せて説明します。
  • 3. ©Internet Initiative Japan Inc. 3 本セッションの流れ なぜ IIJ は運用を重視するのか? • 事業スタイルによるもの • 通信事業によるもの IIJ における運用と課題 • IIJ が目指す運用 • 運用の特性 • これまでのエスカレーションフロー • 運用の課題 IIJ の解決策 •IIJ が出した答え •なぜ IIJ は運用ツールを自作するのか?
  • 4. ©Internet Initiative Japan Inc. 4 通信事業はストックビジネス 企画 設計・開発 運用 フロー ビジネス ストック ビジネス • SI • 受託ソフトウェア 開発 • ISP • クラウドサービス • 通信事業の特性 – 通信事業はストックビジネスであり、収益が上がる(お客様に価値を提供す る)のは運用フェーズである – 収益を上げるためには、多くのお客様にサービスを継続してご利用いただく必 要がある – お客様に継続してサービスをご利用いただくためには、価値を提供し続ける必 要がある – 競合他社との比較において、通信機能そのものの違いは少なく、お客様の満足 度に対する運用の重要度は高い(いつでも使えてて当たり前) 収益 納品/ リリース 収益 収益 収益 収益 収益
  • 5. ©Internet Initiative Japan Inc. 5 『通信』は社会インフラ 3万 10万 100万 1時間 2時間 12時間 24時間 1 2 3 45 1 2 3 4 5 継続時間 影響を与えた 利用者数 緊急通報を取り扱う音声伝送役務 1時間/3万人 緊急通報を取り扱わない音声伝送役務 2時間/3万人,1時間/10万人 LPWAサービス(報告規則第1条2項17号) 12時間/3万人,2時間/100万人 無償のインターネット関連サービス 24時間/10万人,12時間/100万人 1~4以外の電気通信役務 2時間/3万人,1時間/100万人 IIJサービスが該当する基準 参考: http://www.soumu.go.jp/menu_seisaku/ictseisaku/net_anzen/jiko/judai.html 1時間~2時間以内の障害復旧が求められる 電気通信事業法における「重大な事故」
  • 6. ©Internet Initiative Japan Inc. 6 IIJ が目指す運用 障害・事故の発生を防止する 障害・事故発生時に迅速な対応を行う 障害・事故発生時の影響の拡大防止 今回は 『迅速な対応』と『影響の拡大防止』 がターゲット
  • 7. ©Internet Initiative Japan Inc. 7 運用の特性 • 『運用』は継続する – サービスが継続するかぎり終わらない – 運用担当者の継続的な稼働が発生する • 『運用』の業務はイベント的に発生するものが多い – 機器の故障 – 脆弱性対応 – ソフトウェアバグなど不具合の顕在化 – 各種リソースの不足 • 『運用』コストは積みあがる – 一つひとつの業務の負担は軽くても、業務が継続的、24時間365日突 発的に発生することで、運用コストは増大する
  • 8. ©Internet Initiative Japan Inc. 8 監視 システム IIJの障害対応フロー 運用対象 システム 運用担当者 エスカレーションリスト (4) 定型オペレーションで対応でき ない場合は、エスカレーション リストを参照して、対応者可能 な人が見つかるまで順番に電 話し続ける オペレータ (2) メールで アラートを通知 (1) 異常検知 監視 オペレーションセンター (3) 定型的な 対応作業を実施 運用担当者 エスカレーションリスト 優先順位 氏名 電話番号 1 佐藤 蓮 090-xxxx-xxxx 2 鈴木 湊 090-xxxx-xxxx 3 高橋 大翔 090-xxxx-xxxx 4 田中 大和 090-xxxx-xxxx 5 渡辺 陽翔 090-xxxx-xxxx au docomo (5) 対応者の決定 (6) 対応の実施 …
  • 9. ©Internet Initiative Japan Inc. 9 なぜ電話でエスカレーションをしているのか? • 電話を使うメリット – メールやSMSでは受信時の数秒の通知だけなので気づかないことがあ るが、電話は受話するまで鳴らし続けることができる • 電話エスカレーションの課題 – 人が電話でエスカレーションをする場合は人手がかかる • 一部で自動架電システムを導入しているところもあるが、技術的制約により人によ る電話エスカレーション業務も多数残っている – 電話回線数の制約があるため同時エスカレーションが難しい • 原則としてエスカレーションリスト上位からシーケンシャルに電話をすることにな る • 大規模障害時に大量にエスカレーションが発生すると手間と時間がかかる • あらかじめ回線数を多くもっておくと維持コストがかかる 対応者を確実に捕まえるために電話でエスカレーション
  • 10. ©Internet Initiative Japan Inc. 10 運用担当者のつらさ • 休日・夜間を問わず緊急対応が発生する – 家族や恋人、友人とのプライベートな時間での緊急呼び出し – 深夜・早朝など睡眠中の緊急呼び出し • あらかじめ想定された障害だけが発生するわけではなく、高度な 対応スキルが要求される – アラート検知時の迅速な状況判断 – 影響の範囲と内容の早期特定 – 原因の特定と対応方針の決定 – 迅速かつ確実な対応実施 • 精神的な負担 – 早期復旧に対するプレッシャー – 対応方法が分からない – 対処を誤った場合は被害を拡大させる可能性もある – 独りぼっちでの対応 • 対応しても誰も評価してくれない?
  • 11. ©Internet Initiative Japan Inc. 11 障害対応のジレンマ 障害対応者の確実な確保 • エスカレーションリストの 人数を増やす • 主担当でないシステムのエ スカレーションも受ける 対応できる障害のみ対応 • 主担当のシステムのエスカレー ションのみ受ける • エスカレーションリストの人数 が減る あるシステムの主担当 (システムを完全に把握している人) は数名…
  • 12. ©Internet Initiative Japan Inc. 12 IIJ が出した答えは スマホアプリ『Barry』 障害対応者を迅速かつ確実に確保する • メールに依存しないアラート通知 • プッシュ通知の仕組みを利用した同時一斉呼出し(エスカレーション) 障害対応者の負担を軽減する • 障害対応状況を関係者間でリアルタイム共有 • 関係者間でのメッセージ交換 • ボタン1つで「応援要請」やマネージャ呼出し • 対応の記録と過去の対応記録(ナレッジ)の検索・参照
  • 13. ©Internet Initiative Japan Inc. 13 業務システムを自社開発するか?既製品を使うか? 自社開発のメリット • ツールを業務に最適化で きる • 自社内で情報管理できる 自社開発のデメリット • 開発工数がかかる • 独自ツールの使い方を覚 えないといけない 業務にツールを合わせるか? ツールに業務を合わせるか? 業務に最適化されたツールで運用の品質を追求していく
  • 14. ©Internet Initiative Japan Inc. 14 まとめ • IIJは運用を重視してきた – 通信事業はストックビジネスであり、事業として成功するためには安定した サービス提供が必要 – 通信という社会インフラの提供者として、安定したサービスを提供する社会的 責任がある – 運用のコストは継続的に発生するため、運用コストの削減も重要 • 安定したサービス運用に必要なこと – 迅速な障害対応 – 影響範囲の拡大防止(適切かつ確実な障害対応) • サービス運用の課題 – 対応者の迅速かつ確実な確保 – 運用担当者の負担軽減 • いま何が起きているのか、どのようは影響が出ているのか、どのように対応するべきなのか、など 各種判断や実行における技術面での対応支援 • 精神的プレッシャーの軽減 • IIJ はこの課題を Barry で解決する – 直接対応できなくてもスマホだけあれば障害対応をサポートできる – みんなで助け合いながら障害対応