Failover Cluster Troubleshooting<br />10.08.2011<br />Hakan YÜKSEL<br />hakan.yuksel@turkiyefinans.com.tr<br />http://yuks...
Ajanda<br /><ul><li>Cluster
Kavramlar, Gereksinimler, Mimari, Log Yönetimi, ..
Quorum Modeli
Troubleshooting
Soru – Cevap</li></li></ul><li>Cluster Gereksinimleri<br />Review hardware and infrastructure requirements for a failover ...
Storage: You must use shared storage that is compatible with Windows Server 2008 R2
Network adapters and cable (for network communication): The network hardware, like other components in the failover cluste...
Account for administering the cluster: When you first create a cluster or add servers to it, you must be logged on to the ...
Standart Edition üzerindeki sunucular üzerinde cluster activate edilebilir
SCSI-3 CommandsPersistent Reservations (PRs) Required
Basic GPT and MBR disks supported
Multipath IO (MPIO) recommended</li></li></ul><li>Sık Sorulanlar<br />Sanal makinalar üzerinde cluster yapabilir miyim?<br...
Cluster Validate<br /><ul><li>Ürün içerisinde konumlanmıştır
Gereksinimlerin karşılanmaması durumunda uyarı verir
Clusterı oluşturan servers vestorage ile ilgili tüm kontrolleri yapar
Her değişiklik sonrası çalıştırılması gerekir
Create a new cluster
Add a node, disk, or network
Update system software (drivers, firmware, service packs, </li></ul>MPIO)<br /><ul><li>Configure hardware (HBA, MPIO, Netw...
Change any component in your solution
It’s the very first thing you do!</li></ul>http://technet.microsoft.com/en-us/library/cc732035(WS.10).aspx#BKMK_understand...
Quorum ve Majority Node Set<br /><ul><li>Quorum cluster konfigürasyonu ve durum bilgisinin  olduğu database.
Windows Server 2008 ile yeni bir Quorum modeli mevcut (Node and Disk Majority), bu sefer Quorum diskin kullanımı biraz far...
Majority Node Set MNS demokratik bir sistemdir. Quorum da sadece bir oy var ise ve buna sahiplenen cluster a sahiplenebili...
2003 Cluster ortamında yaşanılan bir split brain senaryosunda hangi node quorum diskinin sahibi ise uygulamalar onun üzeri...
Upcoming SlideShare
Loading in …5
×

Webcast - Failover Cluster Troubleshooting

3,081
-1

Published on

Failover Cluster TroubleShooting

Published in: Technology, Health & Medicine
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,081
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
39
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • 1 dk
  • What is a quorum? To put it simply, a quorum is the cluster’s configuration database. The database resides in a file named \\MSCS\\quolog.log. The quorum is sometimes also referred to as the quorum log.it tells the cluster which node should be active
  • Webcast - Failover Cluster Troubleshooting

    1. 1. Failover Cluster Troubleshooting<br />10.08.2011<br />Hakan YÜKSEL<br />hakan.yuksel@turkiyefinans.com.tr<br />http://yukselis.wordpress.com<br />
    2. 2. Ajanda<br /><ul><li>Cluster
    3. 3. Kavramlar, Gereksinimler, Mimari, Log Yönetimi, ..
    4. 4. Quorum Modeli
    5. 5. Troubleshooting
    6. 6. Soru – Cevap</li></li></ul><li>Cluster Gereksinimleri<br />Review hardware and infrastructure requirements for a failover cluster.<br /><ul><li>Servers: Microsoft supports a failover cluster solution only if all the hardware components are marked as "Certified for Windows Server 2008 R2." In addition, the complete configuration (servers, network, and storage) must pass all tests in the Validate a Configuration Wizard, which is included in the Failover Cluster Manager snap-in
    7. 7. Storage: You must use shared storage that is compatible with Windows Server 2008 R2
    8. 8. Network adapters and cable (for network communication): The network hardware, like other components in the failover cluster solution, must be marked as "Certified for Windows Server 2008 R2." If you use iSCSI, your network adapters should be dedicated to either network communication or iSCSI, not both
    9. 9. Account for administering the cluster: When you first create a cluster or add servers to it, you must be logged on to the domain with an account that has administrator rights and permissions on all servers in that cluster. The account does not need to be a Domain Admins account—it can be a Domain Users account that is in the Administrators group on each clustered server. In addition, if the account is not a Domain Admins account, the account (or the group that the account is a member of) must be delegated Create Computer Objects and Read All Properties permissions in the domain
    10. 10. Standart Edition üzerindeki sunucular üzerinde cluster activate edilebilir
    11. 11. SCSI-3 CommandsPersistent Reservations (PRs) Required
    12. 12. Basic GPT and MBR disks supported
    13. 13. Multipath IO (MPIO) recommended</li></li></ul><li>Sık Sorulanlar<br />Sanal makinalar üzerinde cluster yapabilir miyim?<br />evet! <br />Fiziksel ve Sanal sunucular aynı cluster içerisinde olabilir mi?<br />evet!<br />Sunucular aynı donanımsal özelliklere sahip olmalı mı ?<br />hayır<br />Validation testinden geçiyorsanız, destekleniyordur. <br />
    14. 14. Cluster Validate<br /><ul><li>Ürün içerisinde konumlanmıştır
    15. 15. Gereksinimlerin karşılanmaması durumunda uyarı verir
    16. 16. Clusterı oluşturan servers vestorage ile ilgili tüm kontrolleri yapar
    17. 17. Her değişiklik sonrası çalıştırılması gerekir
    18. 18. Create a new cluster
    19. 19. Add a node, disk, or network
    20. 20. Update system software (drivers, firmware, service packs, </li></ul>MPIO)<br /><ul><li>Configure hardware (HBA, MPIO, Network Adapter, etc)
    21. 21. Change any component in your solution
    22. 22. It’s the very first thing you do!</li></ul>http://technet.microsoft.com/en-us/library/cc732035(WS.10).aspx#BKMK_understanding_tests<br />
    23. 23. Quorum ve Majority Node Set<br /><ul><li>Quorum cluster konfigürasyonu ve durum bilgisinin olduğu database.
    24. 24. Windows Server 2008 ile yeni bir Quorum modeli mevcut (Node and Disk Majority), bu sefer Quorum diskin kullanımı biraz farklı oluyor: Quorumu node sayısı ile beraber bir oy hakkı olarak kullanıyoruz..
    25. 25. Majority Node Set MNS demokratik bir sistemdir. Quorum da sadece bir oy var ise ve buna sahiplenen cluster a sahiplenebiliyorsa, MNS de çoğunluk clustera sahiplenir. Mesela 5 nodelu cluster da split brain senaryosu yaşanırsa her node toplam kaç node ila haberleşebildiğine bakar. Bir node iki node ile haberleşebiliyorsa, 3 node 5 nodedan çoğunluğu oluşturur ve cluster sahiplenir. Diğer iki node azınlıkta olduklarını anlar ve diğer 3 node un haberleşebildiğini varsayarlar. 
    26. 26. 2003 Cluster ortamında yaşanılan bir split brain senaryosunda hangi node quorum diskinin sahibi ise uygulamalar onun üzerinde aktif olarak çalışmakta, clientların erişip erişememesinin bir önemi bulunmamaktaydı. </li></li></ul><li>Quoruma Bakış<br /><ul><li>Majority is greater than 50%
    27. 27. Possible Voters:
    28. 28. Nodes (1 each), Disk Witness (1 max), File Share Witness (1 max)
    29. 29. 4 Quorum Types</li></ul>Node majority<br />Node and File Share majority<br />Disk only (not recommended)<br />Node and Disk majority<br />Vote<br />Vote<br />Vote<br />Vote<br />Vote<br />
    30. 30. Quorum Modelini Seçme<br />Considerations for choosing a quorum mode include:<br /><ul><li> By default, failover clustering chooses:</li></ul> - Node Majority if there are an odd number of nodes in the cluster<br /> - Node and Disk Majority if there are an even number of nodes in the cluster<br /><ul><li> Node and File Share Majority is recommended for geographically dispersed clusters
    31. 31. No Majority: Disk Only is not recommended, because of the disk subsystem’s single point of failure
    32. 32. Plan changes to the quorum mode carefully to avoid a mode that may result in loss of quorum</li></li></ul><li>Failover Cluster Mimari<br />Microsoft Cluster Service (MSCS) sharing nothing modelini kullanır. Bunun anlamı sadece bir server kaynakların sahibi olabilir bunlar disk,virtual server, IP vb..<br />Classdb file HKLMCluster registry hive üzerinden download eder. Nodelar üzerinde ve quorum üzerinde durur. Son güncelleme bilgisini içerir<br /><ul><li>Birbirlerine 3343 üzerinden register replikasyonu yapmakta.
    33. 33. File Share Witness içerisine de clusdb kopyalanmaktadır. </li></ul>When the computer is started, the Cluster Disk Driver (Clusdisk.sys) reads the following local registry key to obtain a list of the signatures of the shared disks under cluster management:HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServicesClusDiskParameters Signatures<br />Recommandation private only hb public mix olmalı <br />
    34. 34. .. mimari<br /><ul><li>Heartbeat 5 sn.de bilgi gelmez ise Host manager devreye girerek public üzerinde kontrollere devam ediyor
    35. 35. Preffered Owner listeside hangi node gideceğini karar verecek,
    36. 36. Possible ownerda hangi node gidip gidemeyeceğine karar verecek.
    37. 37. Tüm resourcesların aynı ownerlara sahip olması gerekmektedir.
    38. 38. Affecti group resource fail olursa group failover yapsın.
    39. 39. Diskteki efekti group seçili gelmekte.
    40. 40. Pause Node
    41. 41. When you pause a node, existing groups and resources stay online, but additional groups and resources cannot be brought online on the node. Pausing a node is usually done when applying software updates to the node</li></li></ul><li>Scsi Bus Reset, SCSI3 Persistent Reservarion<br />Split Brain Senaryosu: İki node birbirleri arasındaki network iletişimi kaybetme durumu. Bu durumda Cluster servisi (clusdisk.sys) Challande/Defense protokolu ile SCSI reserver komutları vasıtasıyla önce reset komutu gönderir bundan sonra reserve komutu ile quorum diskini reserve eder online getirir akabinde ownershipliği alarak tüm resourceları online duruma çeker. <br />Windows Server 2008 ile birlikte artık scsi bus resetleri kullanılmıyor. Scsi 3 serial persistent reservation kullanılmaktadır. Scsi bus reset den sadece o disk değil aynı bus üzerindeki bütün diskler etkilenmekte, konfigürasyona bağlı olarak her disk için her node dan bir bus reset gönderilebilmekte bu durumda cluster kendisini online etme süreleri uzamakta ve offline kalabilmekteler bu durumda manuel online çekilmesi gerekebiliyor idi. <br />
    42. 42. Resource Monitor<br /><ul><li>Cluster üzerinde resource groupların doğru çalışıp çalışmadığını kontrol eden resource monitorler mevcuttur. Resource monitor clsusvc altinda çalişan dll lerden oluşmaktadır. belli servisler (exchange,SQL,vb..) için özel dll’ler mevcut.2008 ‘de bunun adi RHS.exe
    43. 43. Disk üzerinde Turn On maintanence for this disk işaretlersek is alive ve looks alive işlemleri yapılmayacaktır yani diskin statusunu kontrol etmeyecek, diske erişim yapmayacak (içerisine dir çekme) cluster servisi devamli online oldugunu farzeder. </li></ul>The Resource Hosting Subsystem (RHS) conducts periodic health checks of all cluster resources to ensure they are functioning properly. This is accomplished by executing IsAlive and LooksAliveprocesses which are specific to the type of resource<br />
    44. 44. Failover Süreci<br /> 2 node birbirine ulaşamadiği durumda quarum diskine erişmeye çalışır bu duruma arbitration process denilir. Clusdisk.sys dosyası nodeların ikisininde disklere erişimin engellemek için yönetimi yapar. MNS mimarisi ile birlikte quarum bilgisi register replikasyonu ile sağlanmaktadır. Bu dosyalara %windowssystem32config altından erişilebilinir. Cluster açılması esnasında clusdb dosyasını registryden download edilerek cluster işletimi çalışmaya başlar. Bu konfigürasyon dosyasında hangi disklere erişebileceğinin bilgisi yer almaktadır..<br />
    45. 45. Cluster Komponentleri<br />OBJECT MANAGER (clussvc.exe) (OM)<br />Şu anki configurasyonu tutar<br />HOST MANAGER (HM)<br />Host ekleme çıkarma, node faile görme, modüller ile birlikte çalışıyor, cluster ayağa kalktı,kim cevap verirse 3343 üzeridnen onunla konuşuyor <br />MEMBERSİP MANAGER (MM)<br />Hklm clussvc altına lokalde yazar sonrada gider object managere ilertir OM bunu ram üzerine alır, <br />Join oldu, evict oldu, MM bunu kayıt altına alır, bilgi paylaşımını sağlar <br />GLOBAL UPDATE MANAGER (GUM)<br />Bütün değişikilklerin replikasyonundan sorumludur<br />Backup – VSS çalışıyor bilgisini diğer nodelar üzerine bildiri böylelikle diğer nodelar üzerinde değişklik yapmanın önüne geçer <br />Tüm updatelerden sorumlu <br />RESOURCE CONTROL MANAGER (RCM)<br />Rsh.exe ile çalışır <br />Dependencilerden bu sorumlu <br />En baba modül :P<br />TOPOLOGY MANAGER<br />NETWORK MANAGER (nm) / INTERFACE MANGER (im)<br />Nic up / fail <br />DATABASE MANAGER <br />Replikasyondan sorumlu<br />Gup.mang. üzerinden yapıyor<br />Logu tutan dm yapmaktadır<br />Registry. Clusdb yüklenmektedir. <br />QUORUM MANAGER<br />Quorum oluştumu, oluşmadımı <br />Hangi quorum modeli olmakta ona bakar <br />Doğru replikeyi seçmekten o sorumlu<br />RCM ile konuşabilir, quoarum oluşruramıyoruz rcm devreye sokup diyoruz ki nerede ise quorum oluşturacaz bize bir vote verebilir misin, 1 eksik miyiz. <br />SECURİTY MANAGER<br />Encryption, kerberos ilişkileri <br />
    46. 46. Microsoft Failover Cluster Virtual Adapter<br />Microsoft Cluster ortamlarda “Microsoft Failover Cluster Virtual Adapter” adında bir interface oluşturur, hidden bir interface’dir NetFT (Network Faut Tolerant) dosyasını simüle eder, clusterlar arası iletişimi yürütür, heartbeat için bir redundancy sağlar. Bu interface mevcut interface üzerine bind olur smb’den SAN’e olan trafik bu kart üzerinde utilize edilir. NetFT, ipconfig /All üzerinden görülür kendisine APIPA adresi tahsis (169.254.1.2) eder, bu ip üzerinden aslında data transferi yapılmaz bu IP fiziksel kart üzerine bind olduğunda TM üzerinden utilizasyon görülmektedir.<br />
    47. 47. Failover Cluster Kurulum Adımları<br />Failover Cluster Prerequisites<br />Establish a Network Naming Convention <br />TCP/IP Network Configuration <br />Public Network<br />Storage Network<br />Heartbeat Network <br />Procedures<br />Prepare the Failover Cluster<br />Create a Domain User Account<br />Add Nodes to an Active Directory Domain<br />Expose Storage to Cluster Nodes<br />Install the Failover Cluster Feature<br />Run Cluster Validation<br />Create and Configure the Failover Cluster<br />Create a Cluster<br />Set Cluster Network Properties and Apply Naming Convention<br />Create a Highly Available Services<br />-> Create a Highly Available iSCSI Target<br />Configuring Windows Firewall for Microsoft iSCSI Software Target<br />Installing the Microsoft iSCSI Software Target<br />Create the Failover iSCSI Target Resource Group<br />Create an iSCSI Target in the Microsoft iSCSI Target MMC<br />Create and Configure Virtual Disks<br />Connect Initiators<br />Testing Your Failover Cluster Configuration<br />Server Core Installation Option of Windows Server 2008 Step-by-Step Guide: <br />http://technet2.microsoft.com/windowsserver2008/en/library/47a23a74-e13c-46de-8d30-ad0afb1eaffc1033.mspx?mfr=true<br />
    48. 48. Troubleshooting<br /> Reviewing cluster events <br /> Reviewing hardware events <br /> Using the Validate a Configuration Wizard <br /> Reviewing storage/SAN events<br />Troubleshooting methodologies for cluster issues, whether in Windows 2003 or Windows 2008, are fairly similar. Most of the typical support issues in the cluster category fall under the following categories:<br />· Cluster Service fails to start.<br />· Cluster resources in a failed state or fail to come online.<br />· Determine root cause of cluster failure.<br />· Initial configuration of the cluster<br />The Win 2003 legacy CLUSTER.LOG text file no longer exists. In Win 2008 the cluster log is handled by the Windows Event Tracing (ETW) process. This is the same logging infrastructure that handles events for other aspects you are already well familiar with, such as the System or Application Event logs you view in Event Viewer.<br />Command Line<br />c:>cluster log /gen<br />Powershell<br />C:PS> Get-ClusterLog<br />ForceQuorum<br />net start clussvc /forcequorum (or /fq)<br />
    49. 49. Troubleshooting Tips <br /><ul><li>When you encounter a problem, always,always,always start with Cluster Events</li></ul>Look at a Cluster wide view of the Cluster events<br />Dig into all events in the System Event log<br />Check the Application Event log<br /><ul><li>Don’t be distracted by symptoms - focus on root cause</li></ul>For example, if you see Cluster IP Address failures, don’t waste lots of time looking at Cluster events<br /><ul><li>Instead look for other networking related errors</li></ul>There may be multiple retries after a failure, producing more events. Look for what caused the first failure<br />You don’t always need to run a FULL validate<br />http://technet.microsoft.com/en-us/library/cc732035(WS.10).aspx<br />Don’t “assume” the cluster will work and skip Validate<br />
    50. 50. Cluster Eventları<br />Cluster Events<br />Recent Cluster Events üzerinde son 24 saate ait eventlar görünmektedir. <br />Monitoring Cluster Events<br />Fully featured Failover Cluster Management Packs<br />Cluster logging level<br />Set-ClusterLog –level 3<br />
    51. 51. Configuring Debug Logging<br />Logging enabled by default<br />Log files stored as .ETL in:<br />%WinDir%System32winevtlogsMicrosoft-Windows-FailoverClustering<br />Default log size is 100 MB<br />Set-Clusterlog –Size 100<br />Default log level is 3<br />Set-Clusterlog –Level 3<br />Up to three log files<br />This means log history can be kept for up to three reboots<br />The number of logs can be modified via the registry:<br />HKLMSoftwareMicrosoftWindowsCurrentVersionWINEVTChannelsMicrosoft-Windows-FailoverClustering/DiagnosticFileMax<br />Default<br />Can have performance impact<br />
    52. 52. Genişletilmiş PowerShell Konutları<br />http://blogs.technet.com/b/josebda/archive/2010/09/19/mapping-cluster-exe-commands-to-windows-powershell-cmdlets-for-failover-clusters-extended-edition.aspx<br />
    53. 53. Cluster Nodlara bağlanmada yaşanan problemler<br />‘Create Cluster Wizard’, ‘Validate a Configuration Wizard’, and ‘Add Node Wizard’, so any of the following messages and warnings we list could be due to WMI issues:<br />· "RPC Server Unavailable" error.<br />·         Access is Denied.<br />·         The computer ‘Node1’ could not be reached.<br />·         Failed to retrieve the maximum number of nodes for ‘{0}’.<br />·         The computer ‘Node1.contoso.com’ does not have the Failover Clustering feature installed.  Use Server Manager to install the feature on this computer.<br />o   Note: first confirm you have installed the Failover Clustering feature on this node<br />Troubleshooting Steps<br />1) Ensure it is not a DNS Issue<br />2) Check your that WMI is Running on the Node (wbemtest)<br />3) Check your Firewall Settings<br />4) Reboot the Node<br />5) Rebuild a Corrupt WMI Repository<br />·         In the Services console, manually stop the WMI service to ensure that dependent services are stopped<br />·         Start WMI service again<br />·         Launch and elevated CMD or PowerShell<br />·         CMD/PS > winmgmt /salvagerepository<br />6) Patch WMI for Performance Improvements (974930)<br />
    54. 54. Antivirus Exclusion<br />Antivirus Yazılımınız Cluster Aware bir yazılım mı ? <br />Antivirus software that is not cluster-aware may cause unexpected problems on a server that is running Cluster Services. For example, you may experience resource failures or problems when you try to move a group to a different node.<br />If you are troubleshooting failover issues or general problems with a Cluster services and antivirus software is installed, temporarily uninstall the antivirus software or check with the manufacturer of the software to determine whether the antivirus software works with Cluster services. Just disabling the antivirus software is insufficient in most cases. Even if you disable the antivirus software, the filter driver is still loaded when you restart the computer.<br />Antivirüsü sistemden nasıl disable edebilirim ; <br />Exclusion List<br /><ul><li>Q: (quorum) discfrom virus scanning.
    55. 55. The %Systemroot%Cluster folder.
    56. 56. The temp folder for the Cluster Service account. For example, exclude the clusterserviceaccountLocal SettingsTemp folder from virus scanning. w2k3</li></ul>http://support.microsoft.com/kb/250355#appliesto<br />
    57. 57. Cluster Log Error Anlamları<br />status 170 - Which means "The requested resource is in use." This could be related to Persistent Reservation problems, it can also be MPIO, fibre/HBA drivers and/or some type of lower level file system driver or software such as anti-virus, quota management, open file agent for backup software, etc, etc,: <br />00000c94.000008d4::<date and time>.585 INFO Physical Disk <Disk Q:>: [DiskArb] Issuing Reserve on signature 33af636f. 00000c94.000008d4::<date and time>.616 ERR Physical Disk <Disk Q:>: [DiskArb] Reserve completed, status 170. 00000c94.000008d4::<date and time>.616 INFO Physical Disk <Disk Q:>: [DiskArb] Arbitrate returned status 170.<br />status 5 - Is usually a permissions related problem, in this case it was a problem with either Cluster Service Account (CSA) username/password were not synchronized between the nodes. This can also happen if the cluster looses it's Secure Channel connection to the DC in order for the CSA to get authenticated. Another situation in which this can occur, is when one of the domain Group Policy Objects (GPO) or one of the Local Policy Objects is missing a User Rights Assignment needed for the CSA to funtion properly.<br />000014a0.00001460::::<date and time>.629 WARN [JOIN] JoinVersion data for sponsor <Cluster Name> is invalid, status 5.000014a0.000017d0::::<date and time>.629 WARN [JOIN] Unable to get join version data from sponsor 10.7.47.100 using NTLM package, status 5.<br />status 1117 - Which means an ERROR_IO_DEVICE (The request could not be performed because of an I/O device error) when Event ID 1123 occurs<br />000015a0.000014a8::<date and time>.511 WARN IP Address <IP Address resource name>: IP Interface 4 (address 10.101.160.65) failed LooksAlive check, status 1117, address 0x10119e0, instance 0xf74d6fb8.<br />
    58. 58. Cluster Nedir, Niçin Kullanıyoruz<br />Cluster Blog<br />http://blogs.msdn.com/b/clustering/<br />Technet Failover Cluster<br />http://technet.microsoft.com/en-us/library/cc754482.aspx<br />Configuring Auditing for a Windows Server 2008 Failover Cluster<br />http://blogs.technet.com/b/askcore/archive/2009/01/19/configuring-auditing-for-a-windows-server-2008-failover-cluster.aspx<br />Top Issues for Microsoft Support for Windows 2008 Failover Clusters<br />http://blogs.technet.com/b/askcore/archive/2008/10/13/top-issues-for-microsoft-support-for-windows-2008-failover-clusters.aspx<br />Checklist: Create a Clustered Virtual Machine<br />http://technet.microsoft.com/en-us/library/dd759220.aspx<br />Top Issues for Microsoft Support for Windows 2008 Failover Clusters<br />http://blogs.technet.com/b/askcore/archive/2008/10/13/top-issues-for-microsoft-support-for-windows-2008-failover-clusters.aspx<br />Failover Clusters in Windows Server 2008 R2<br />http://technet.microsoft.com/en-us/library/ff182338(WS.10).aspx<br /><ul><li>Trouble Connecting to Cluster Nodes? Check WMI</li></ul>http://blogs.msdn.com/b/clustering/archive/2010/11/23/10095621.aspx<br />
    59. 59. Sorular & Teşekkürler<br />

    ×