Cluster suse  bueno
Upcoming SlideShare
Loading in...5
×
 

Cluster suse bueno

on

  • 1,237 views

 

Statistics

Views

Total Views
1,237
Views on SlideShare
1,233
Embed Views
4

Actions

Likes
0
Downloads
44
Comments
0

1 Embed 4

http://semablogger.blogspot.com 4

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Cluster suse  bueno Cluster suse bueno Document Transcript

  • Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 AMEInfra FRAMEWORK AME Guía de Operaciones con HeartBeat Dashboard > AMEInfra > ... > Manual de Operaciones > Guía de Operaciones con HeartBeat Home Log In View Added by Fernando Parrilla, last edited by Fernando Parrilla on Dec 11, 2007 (view change) Labels: (None) Introducción Ésta guía presupone que se dispone de un Cluster HeartBeat configurado con dos Nodos y formado por un Servicio Activo - Pasivo. Si dispone de otra configuración y no está seguro de que estos procedimientos sean compatibles con ella consúltenos y le asesoraremos para adaptar estos procedimientos a su escenario. Todos los comandos se podrán ejecutar desde un terminal remoto y se tendrá que estar logado como root Arranque de HeartBeat en ambos nodos simultáneamente después de una parada no controlada Situación: HeartBeat debe pararse siempre de forma controlada, pero si por cualquier motivo no se hubiera realizado así, este es el procedimiento que se debe seguir para volver a arrancar el Cluster Si HeartBeat está parado en ambos nodos y queremos levantarlo en los dos junto con su servicio tendremos que hacer lo siguiente: Desde el nodo Master ejecutaremos el script de arranque de HeartBeat: mdvha1:~ # rcheartbeat start Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on heartbeat[14959]: 2007/12/10_18:07:34 info: ************************** heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha1:~ # Una vez nos devuelva el promt ejecutaremos el script de monitorización del Cluster para ver el progreso de arranque: mdvha1:~ # crm_mon -i5 Esto nos actualizará el estado del Cluster cada 5 segundos, de modo que iremos viendo las siguientes pantallas Refresh in 3s... no connect Refresh in 2s... ============ Last updated: Mon Dec 10 18:10:10 2007 Current DC: 2 Nodes configured. 1 Resources configured. ============ Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): offline Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): offline Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): offline Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Una vez que veamos que los recursos se han levantado correctamente en el Nodo Master podemos ejecutar el script de arranque de HeartBeat en el nodo Esclavo mdvha2:~ # rcheartbeat start Starting High-Availability services2007/12/10_18:07:33 INFO: Resource is stopped heartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: on heartbeat[14959]: 2007/12/10_18:07:34 info: ************************** heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha2:~ # Y volvemos al terminal donde se está ejecutando el script de monitorización hasta que veamos que el Nodo Esclavo aparece como online: Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============1 de 5 20/11/2009 11:22
  • Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Para salir de esta pantalla basta con pulsar Ctrl+c Parada controlada de HeartBeat ambos Nodos Situación: Labores de mantemiento en ambos nodos simultaneamente, incidencia que obligue a la parada de HeartBeat, etc Para realizar una parada controlada de HeartBeat en ambos nodos se tendrán que ralizar los siguientes pasos: Primero habrá que ver el estado en que se encuentra el cluster antes de realizar la parada. Para ello ejecutaremos el script de monitorización de HeartBeat mdvha1:~ # crm_mon -i5 que nos mostrará lo siguiente Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Si no tenemos claro cuántos servicios están configurados en el Cluster prodemos ejecutar esto: mdvha2:~ # crm_resource -L | grep Group Resource Group: group_1 Una vez comprobados que el servicio está activo en el nodo Master y los servidores están online pararemos el servicio ejecutando lo siguiente desde cualquiera de los dos nodos: mdvha2:~ # crm_resource -r group_1 -t group -p target_role -v stopped Después volveremos a ejecutar crm_mon para comprobar que el servicio ya no se está ejecutando: Refresh in 3s... ============ Last updated: Mon Dec 10 18:24:45 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): online También se podría ejecutar este otro comando para asegurarnos de que el servicio está en estado de parada: mdvha2:~ # crm_resource -W -r group_1 -t group resource group_1 is NOT running Una vez que el servicio está parado ya podemos ejecutar los script de parada de heartbeat en ambos nodos: mdvha1:~ # rcheartbeat stop Stopping High-Availability services done mdvha2:~ # rcheartbeat stop Stopping High-Availability services done Arranque de HeartBeat en ambos nodos simultáneamente después de una parada controlada Situación: Reanudación del servicio después de alguna situación que obligue una parada controlada. Arranqueremos en ambos nodos HeartBeat con su script de arranque: mdvha1:~ # rcheartbeat start2 de 5 20/11/2009 11:22
  • Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 Starting High-Availability services2007/12/10_18:45:45 INFO: Resource is stopped heartbeat15939: 2007/12/10_18:07:33 info: Version 2 support: on heartbeat15939: 2007/12/10_18:07:34 info: ************************** heartbeat15939: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha1:~ # mdvha2:~ # rcheartbeat start Starting High-Availability services2007/12/10_18:53:45 INFO: Resource is stopped heartbeat14322: 2007/12/10_18:46:53 info: Version 2 support: on heartbeat14322: 2007/12/10_18:46:54 info: ************************** heartbeat14322: 2007/12/10_18:46:54 info: Configuration validated. Starting heartbeat 2.0.8 done mdvha2:~ # Monitorizar con crm_mon hasta que el aparezcan los dos nodos online mdvha1:~ # crm_mon -i5 Refresh in 5s... ============ Last updated: Mon Dec 10 18:47:44 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Una vez verificado que los nodos están online arrancar el servicio con el siguiente comando: mdvha2:~ # crm_resource -r group_1-t group -p target_role -v started Después comprobar con crm_mon y crm_resource que el servició arranco correctamente: Refresh in 5s... ============ Last updated: Mon Dec 10 18:11:36 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 mdvha1:/ # crm_resource -W -r group_1 -t group resource group_1 is running on: mdvha1 Intervención en los Nodos que forman el cluster de forma secuencial Situación: Tareas de mantemiento en uno de los nodos que impliquen la parada del mismos o alguna situación en la que no pueden mantener un Servicio activo Primero deberemos comprobar qué servicios forman el Cluster y dónde están levantados actualmente: mdvha2:~ # crm_resource -L | grep Group Resource Group: group_1 mdvha1:~ # crm_mon -i5 Refresh in 5s... ============3 de 5 20/11/2009 11:22
  • Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 Last updated: Mon Dec 10 18:47:44 2007 Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1 Si el nodo donde vamos a intervenir es dónde está ubicado el Servicio (Nodo Master) deberemos migrar el servicio al otro nodo ejecutando esto: mdvha1:/ # crm_resource -M -r group_1 -t group -H mdvha2 Comprobamos que el servicio se ha migrado al nodo esclavo ejecutando: mdvha1:/ # crm_resource -W -r group_1 -t group resource group_1 is running on: mdvha2 Por último dejaremos el HeartBeat del Nodo en estado standby para aseguranos que un posible reboot de la máquina no hace que el servicio vuelva situarse en esto nodo crm_standby -U mdvha1 -v on Si el nodo donde queramos intervenir no fuera donde están situado el servicio podemos saltarnos el paso de migrar este a otro nodo y ejecutar directamente el comando de stanby. Para verificar que el nodo ha cambiado su estado a stadby ejecutaremos crm_mon: Refresh in 13s... ============ Last updated: Tue Dec 11 09:04:27 2007 Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): standby Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2 aplicAME_5 (lsb:aplicAME): Started mdvha2 vsftpd_6 (lsb:vsftpd): Started mdvha2 Una vez que el Nodo pueda volver a estar operativo simplemente lo tendremos que poner es estado online ejecutando este comando: mdvha2:~ # crm_standby -U mdvha1 -v off Y comprobar su estado actual con crm_mon Refresh in 13s... ============ Last updated: Tue Dec 11 09:06:57 2007 Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771) 2 Nodes configured. 1 Resources configured. ============ Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_14 de 5 20/11/2009 11:22
  • Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2 aplicAME_5 (lsb:aplicAME): Started mdvha2 vsftpd_6 (lsb:vsftpd): Started mdvha2 Y por último para volver a pasar el servicio al Nodo primario (si es ese sobre el que hemos intervenido) ejecutar este comando: mdvha2:~ # crm_resource -U -r group_1 -t group Y comprobar que el cambio se ha producido satisfactoriamente: mdvha1:/ # crm_resource -W -r group_1 -t group resource group_1 is running on: mdvha1 DETERMINAR LA CAUSA DE UN FAILOVER O PARADA DEL SERVICIO Las causas más comunes de un failover o de que un servicio se llegue a parar en todos los Nodos que forman el Cluster es la propia parada o reboot del Nodo donde se está ejecutando el Servicio, un fallo en la red o un fallo a la hora de levantar uno de los recursos del Servicio. Por ello cuando se detecte un failover se deberá seguir el siguiente procedimiento: Comprobar que el Nodo Master está arriba, si lo está comprobar cuándo fue la última vez que se reinició con el comando: mdvha1:~ # who -r run-level 3 Oct 29 09:16 last=S mdvha1:~ # Si el reboot se ha producido hace poco monitorizar el Cluster con crm_mon para ver si el Servicio se está migrando en esos momento al Nodo Master. Si no se migrará o la máquina no se hubiera reiniciado recientemente buscar en el log de HeartBeat si ha habido algún fallo de conectividad con el Nodo: mdvha1:~ # grep dead /var/log/heartbeat/ha-log crmd[6015]: 2007/12/10_16:56:02 info: crmd_ha_status_callback: Ping node 172.29.87.1 is dead Si se ha producido un error de conectividad recientemente comprobar que este error ha desaparecido y monitorizar el Cluster para verificar que el Servicio vuelve a realocarse en el Nodo Master. Si no es así o no se ha producido un error de conectividad recientemente habrá que comprobar que ninguno de los recursos del Servicio han fallado al iniciarse. Para ello ejecutar lo siguiente: mdvha1:~ # grep FAILED /var/log/heartbeat/ha-log pengine[25459]: 2007/11/09_09:08:39 info: native_print: aplicAME_5 (lsb:aplicAME): Started mdvha1 FAILED Si se hubiera producido algún error comprobar en los logs de ese agente, si los hubiera, cuál ha sido el fallo y verificar que vuelve a funcionar correctamente. Una vez solucionado reiniciar HeartBeat y monitorizar el Cluster para comprobar que el Servicio vuelve a realocarse en el Nodo Master. Powered by Atlassian Confluence, the Enterprise Wiki. (Version: 2.2 Build:#512 Apr 26, 2006) - Bug/feature request - Contact Administrators5 de 5 20/11/2009 11:22