Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

VMware ESXi トラブルシューティング

9,039 views

Published on

IaaS Casual Talks #1 (http://iaas-casual.connpass.com/event/28046/) で話した内容です。
VMware ESXiのちょっとしたトラブルシューティングのTips。

Published in: Engineering
  • Be the first to comment

VMware ESXi トラブルシューティング

  1. 1. VMware ESXi トラブルシューティング フランちゃんウフフなシステムエンジニア おおかわ かずひと IIJ Global Solutions Inc.
  2. 2. アジェンダ • はじめに • 自己紹介 • IaaSにおける自社の立ち位置 • ESXiのトラブルシューティング話 • まとめ
  3. 3. はじめに Casual Talkという事で軽めです。 といわけでトークメインで。 (後からスライド見る皆さんごめんなさい キャハ♪) 時間がなくてネタの仕込みはございません。 よろしくお願いします。
  4. 4. 自己紹介 • おおかわかずひと@SatchanP (相変わらず意識低い系) • IIJ GlobalでSE初めて半年ちょっと • 以前はウェブ系のインフラエンジニア (前職はKauli 株式会社) • VOYAGE GROUPに買収されたため緊急脱出 • プライベートラリースト • 二次属性 アイマス : やよい 真美 東方 : フランちゃん 咲夜さん 艦これ : Верный 響
  5. 5. IaaSにおける自社の立ち位置 ストレージ SAN/NW サーバ HV OS SAP/ERP VM IIJGIO利用時の 担当範囲 オンプレ構築 担当範囲 VMware ESXi によるERP基盤提供が主 要件定義、個別設計(WAN/NW/Server)、構築、運用など エンドユーザ/アプリベンダー範囲
  6. 6. ESXiトラブルシューティングの必要性 • OSS当たり前で生きてきて初めてまともな商用にのった • 金で解決できるバラ色の世界が待っているはずだった • 現実は甘くなく… • サポートに確実な問題個所を伝えないと調査に時間がかかる、真面目 に調べてくれない、的外れな回答が返ってくる • サポートからの回答がだけではエンドユーザに説明がつかない場合も • 結局高いお金払ってるのに、自前で納得いくまで調査するしかない • 調査結果のエビデンスを得るためにサポートを追いつめる • ProxyしているだけではSEの意味がない
  7. 7. トラブルの切り分け方 (NW) 各レイヤーごとに分けて切り分けが必要 Virtual Switch OS/Kernel vmnic vDS/vSS アプリケーション 物理NIC 物理スイッチ イーサネット
  8. 8. トラブルの切り分け方 (Storage I/O) vHBA (vSCSI) FC, Ethernet Adapter SAN Storage SCSI Host SCSI
  9. 9. 便利なツール群 • ESXi ssh • vSphere Client / Web Client • IDA Debugger • 各種SNMPツール 社内の制度上Zabbix (中の人的は cacti + GrowthForecast + nagios が好き)
  10. 10. 便利なツール群(CLI編 よく使う人たち) • vmdumper • memstats • tcpdump-uw pktcap-uw • strace • ethtool • dmesg • vProbe • vsish • esxcfg-* • esxtop • vscsiStats • vmkping • vmkbacktrace
  11. 11. vsishが便利! • Linuxのprocfs/sysctrlのようなもの • Linux使いには親和性が高い • Vmkernelのパラメータやカウンタの参照、変更が可能 • 軽い 使いやすい わかりやすい • ノンインタラクティブモードで、シェルから実行して 出力だけ得ることも可能 (-e : option)
  12. 12. vsishでNWトラブルの調査 (vDS) esx-top -> n で調査対象のポートを特定する
  13. 13. vsishでNWトラブルの調査 (vDS) 仮想スイッチポートのカウンターを確認する
  14. 14. vsishでNWトラブルの調査 (VM Ring Buffer) vmnicの種類を確認する
  15. 15. vsishでNWトラブルの調査 (VM Ring Buffer) エラーカウンターを確認する
  16. 16. vsishでNWトラブルの調査 (TCPスタック) vmkernel の TCPスタックカウンターを見てみる
  17. 17. vsishでNWトラブルの調査 (TCPスタック) ブラックホールの形跡がないか確認
  18. 18. 物理NICはethtool or vsish でも可
  19. 19. esxtop (memory)でNUMAの確認 NUMA Remote | NUMA Local (MB)
  20. 20. esxtop (memory)でNUMAの確認 アカンやつ
  21. 21. フリーズしたVMの情報収集 NMIを発生させてクラッシュダンプから解析 (ダンプさせる設定がゲストOS側に必要)
  22. 22. ダンプ解析は気合で! (時間がなかったから省略…)
  23. 23. その他アプライアンス • vCenter, RM, SRM等、ほぼJava + DB(PG, MSSQL) • Log4Jのアレ、ログの量が多く冗長 • 上記以外のログがひっそりある場合も • 何かあったらとにかくログの回収を光速で行う (2,3日でlotateされてしまうログもある) • アプライアンスは調子にのって増やさない 問題の原因が増えるし、切り分けが面倒 ご利用はご計画的に!
  24. 24. まとめ • みんなVMwareを使ってサービスしているので、サ ポートまかせでは差別化できるはずがない • 商用でもOSSでも手間がかかるのは一緒(だった…) • 日本の中途半端なSI/SE屋は淘汰されていきそう • 見せ方は綺麗だけど、ESXi自体レガシーの塊になりつ つある印象 • そんなわけでSE大変だけど楽しい!
  25. 25. ありがとうございました!

×