Azure VM の可用性を見直そう
~今更聞けない障害 / SLA / メンテナンスの仕組み~
Interact x Cloud Samurai 2016 Summer
2016/06/25
宇田 周平
(うだ しゅうへい)
 日本マイクロソフト株式会社
カスタマー サービス&サポート
サポート エンジニア
 Windows (Hyper-V, Remote Desktop, Performance)
 Azure (IaaS / Network)
Twitter: syuheiuda
Facebook: syuhei.uda
Blog: http://www.syuheiuda.com/
Raspberry Pi 2とWindows 10ではじめる
IoTプログラミング (マイナビ出版刊)
余談ですが...
 プライベート コンテナ データセンターが
欲しいので、海上コンテナを見てきました
本セッション
のゴール
 Azure のインフラについてご理解いただく
 可用性セットやメンテナンスなどの Azure 独自の
概念や仕組みを正しくご理解をいただく
 “芯” 機能を理解できれば、Azure は怖くない
アジェンダ
 Azure のサポート契約
 サービス レベル (SLA)
 データセンタの裏側
 障害・メンテナンス時の挙動
いつものお願い
 コミュニティにおけるマイクロソフト社員による
発言やコメントは、マイクロソフトの正式な見解
またはコメントではありません。
 本セッションの内容は、本日 (2016/06) 時点での
ものであり、今後予告なく変更される場合があり
ます。
サポート契約について
サービス レベル / 重大度
Azure の
サポート契約
https://azure.microsoft.com/ja-jp/support/plans/
中の人からの
お願い
 お問い合わせ時の重大度 A はサービス ダウンなど
の即時対応が必要な場合にのみご利用ください
(原則、重大度は B / C でお願いします)
 重大度 A の場合…
 Microsoft 側は 24 時間対応の特別体制となり、一方で
お客様側にも 24 時間ご連絡がつく体制をとっていただ
きます
 復旧が最優先のため、原因追及は緊急度 A の範囲外
(復旧後、営業時間内にて緊急度 B での対応は可能)
Azure の SLA について
SLA を正しくご存知ですか?
SLA とは
 機能毎に定められた稼働率の目標
 稼働率は月単位で計算されます
 99.99 % (約 4 分)
 99.95 % (約 21 分)
 99.9 % (約 43 分)
 99 % (約 7.2 時間)
VM の SLA
 インターネットに接続するすべての仮想マ
シンに、同じ可用性セットにデプロイした
2 つ以上のインスタンスがある場合、マイ
クロソフトは、99.95% 以上の時間にお
いて外部接続が確保されることを保証しま
す。
https://azure.microsoft.com/ja-jp/support/legal/sla/virtual-machines/v1_1/
Storageの
SLA
 マイクロソフトは、99.99% (クール アク
セス レベルについては 99.9%) 以上の時
間において、読み取りアクセス地理冗長ス
トレージ (RA-GRS) アカウントからの
データの読み取り要求が正しく処理される
ことを保証します。
 ただし、プライマリ リージョンからのデー
タの読み取りに失敗した場合は、セカンダ
リ リージョンで読み取りを再試行します。
https://azure.microsoft.com/ja-jp/support/legal/sla/storage/v1_1/
ExpressRoute
/ VPN の SLA
 マイクロソフトは、ExpressRoute の専用
回線について 99.9% 以上の可用性を保証
します。
 マイクロソフトは、各 VPN Gateway につ
いて 99.9% の可用性を保証します。
https://azure.microsoft.com/ja-jp/support/legal/sla/expressroute/v1_0/
https://azure.microsoft.com/ja-jp/support/legal/sla/vpn-gateway/v1_0/
ここからが本題
可用性を確保
するには…
 まずは「可用性セット」を組みましょう
(残念ながら、そもそも可用性セットを組んでいない
or 正しく使っていただけていないお客様が多いです)
 Azure の裏側の仕組みがどうなっているか
正しく理解しましょう
 クラスタ
 更新ドメイン (Update Domain)
 障害ドメイン (Fault Domain)
 個々のサービス・アプリでの可用性担保に関しては、また別の機会に...
可用性セット
とは
 仮想マシンを分散配置させるための仕組み
(各仮想マシンを異なるラックや物理サーバに配置
するためのパラメータ)
 同じ役割を持つサーバ群を可用性セットで
グループ化しましょう
 Web サーバ (x2 台以上) の可用性セット
 DB サーバ (x2 台以上) の可用性セット
 (Web サーバと DB サーバを一緒しないこと)
データセンタの裏側
Azure リージョン 場所
東アジア 香港
東南アジア シンガポール
東日本 東京、埼玉
西日本 大阪
Azure の
データセンタ
 Azure のデータセンタは実は 1 リージョン
あたり複数ある
https://azure.microsoft.com/ja-jp/regions/
データセンタ
の中身
http://www.wired.com/2013/02/boydton/
Azure の
クラスタ
(≠ MSFC)
 先の写真のような、サーバーのグループを
クラスタという単位で読んでいます
 クラスタ内は原則として同一の筐体ですが
VM サイズごとにハードは異なります
 A シリーズ: 様々なサーバー下で稼働可
 D シリーズ: ローカル SSD
 Dv2 シリーズ: Xeon E5-2673 v3
参考: https://channel9.msdn.com/Events/de-code/2016/INF-001
整理すると
東日本
東京
第一クラスタ
(A 専用)
約 20 ラック
第二クラスタ
(A / D 専用)
約 20 ラック
第三クラスタ
(A / D 専用)
約 20 ラック
第四クラスタ
(A / Dv2 専用)
約 20 ラック
第五クラスタ
(A / DS 専用)
約 20 ラック
埼玉
第一クラスタ
(A 専用)
約 20 ラック
※ あくまでもイメージです
障害ドメイン
更新ドメイン
障害ドメイン
更新ドメイン
の確認方法
障害ドメイン
とは何か…
 電源とネットワーク スイッチを共有する仮
想マシンのグループ
 要は Azure のインフラにおける障害発生時
の影響範囲 (あるラックが死んでも、隣の
ラックは影響を受けない)
VM 配置の
イメージ
Windows Azure Internals
https://channel9.msdn.com/Events/TechEd/NorthAmerica/2013/WAD-B402
ラック # 1 ラック # 2 ラック # 3 ラック # 4
物理サーバが
故障したら…
可用性セットを組んだ VM 群
Azure VM
故障等で使えない物理サーバー
1. 物理サーバーで何らか
ハードウェア障害が発生
2. 障害を検知後、正常な
物理サーバー自動で移動
(Kernel-Power 41)
3. 故障したサーバとして
マークし、運用から隔離
ラック # 1 ラック # 2 ラック # 3 ラック # 4ラック # 1 ラック # 2 ラック # 3 ラック # 4
電源障害が
発生すると…
3. 故障したサーバーとしてマーク
(これが障害ドメイン)
1. シャーシ全体がダウン
2. それぞれ、空いている
正常な物理サーバに移動
可用性セットを組んだ VM 群
Azure VM
故障等で使えない物理サーバー
更新ドメイン
とは何か…
 メンテナンス時に、作業タイミングが重複
してダウンタイムが発生しないようにする
ための仕組み
メンテナンス
にも色々ある
計画内メンテナンス
 通知のないもの (≒再起動が発生しない)
 通知のあるもの (≒再起動が発生する)
 シングル インスタンス対象
 マルチ インスタンス対象
計画外メンテナンス(≒障害)
 前述の自動復旧とか
メンテナンス
通知メールは
二種類ある
シングル インスタンス
(12 時間中 15 分)
マルチ インスタンス
(3 日間中 15 分、可用性を考
慮)
Demo
マルチ インスタンスを対象としたメンテナンスの流れ
最後に  まずは正しく可用性セットを組みましょう
Q & A
ご清聴ありがとうございまいた。
個別のご相談もお気軽にどうぞ!
Appendix
 可用性関連資料
 仮想マシンの可用性管理
 Azure での仮想マシンに対する計画的なメンテナンス
 Azure VM のメンテナンス FAQ
 Azure での高可用な基幹業務アプリケーションのデプロイ
Appendix
 その他、目を通していただきたい情報
 Azure 仮想マシンにおける不要な NIC を削除する方法
 Azure VM のストレージ パフォーマンスに関する留意点と対
処策
 VPN ゲートウェイのリセットについて
 IP アドレス 168.63.129.16 について
Appendix
 おまけ
 Azure Subscription のサマリーを生成するスクリプトを公開
しました
 Get-SubscriptionDetails

Azure vm の可用性を見直そう