SlideShare a Scribd company logo
1 of 28
Download to read offline
Server
ausfallsicher
betreiben
Werner Fischer, Technology Specialist Thomas-Krenn.AG

Thomas Krenn Roadshow 2010

11.10. Berlin
12.10. Hamburg
14.10. Köln
19.10. Frankfurt
20.10. Stuttgart
21.10. Zürich
05.11. Wien
Agenda

 1) Serverzweck bestimmen

 2) Serverauswahl

 3) Inbetriebnahme

 4) Betrieb

 5) Reaktion auf Fehler

 6) Erweiterung und Umbau

 7) Außerbetriebnahme und Entsorgung

                                       Folie 2/28
Agenda

 1) Serverzweck bestimmen
     ●    Anforderungen aus der Betriebsumgebung
     ●    Anforderungen aus dem Einsatzzweck

 2) Serverauswahl

 3) Inbetriebnahme

 4) Betrieb

 5) ...



                                                   Folie 3/28
1) Serverzweck bestimmen

  • Anforderung aus der Betriebsumgebung
    –   rechtliche Anforderungen
    –   benötigte Servicelevel zur Einhaltung von SLAs
    –   Sensoren für die spätere Überwachung (z.B. IPMI)
    –   USV / Klimatisierung
    –   Serverrack




                                                           Folie 4/28
1) Serverzweck bestimmen

  • Anforderung aus dem Einsatzzweck
    – benötigte Leistung
    – speziell zertifizierte Hardware
    – Schnittstellen zur Einbindung in bestehende Netze
      (LAN, SAN, ...)




                                                          Folie 5/28
Agenda

 2) Serverauswahl
    ●   Entscheidungskriterien
    ●   Komponentenauswahl

 3) Inbetriebnahme

 4) Betrieb

 5) Reaktion auf Fehler

 6) Erweiterung und Umbau

 7) Außerbetriebnahme und Entsorgung

                                       Folie 6/28
2) Serverauswahl

  • Entscheidungskriterien
    – standardisierte Server-Landschaft
    – Hersteller-Support
  • Komponentenauswahl
    –   Netzteile und Stromversorgung
    –   CPU
    –   Arbeitsspeicher
    –   Speicherarchitektur (DAS, SAN, NAS)
         • RAID-Controller, Festplatten, RAID-Level
         • SAN Schnittstellen (iSCSI, FC)




                                                      Folie 7/28
Agenda

 2) ...

 3) Inbetriebnahme
     ●    Prüfung Vollständigkeit der Komponenten
     ●    Testen der Komponenten auf Fehler

 4) Betrieb

 5) Reaktion auf Fehler

 6) Erweiterung und Umbau

 7) Außerbetriebnahme und Entsorgung

                                                    Folie 8/28
3) Inbetriebnahme

  • Prüfung Vollständigkeit der Komponenten
    – Sichtprüfung
    – Technische Prüfungen (BIOS-Anzeigen, etc.)
  • Testen der Komponenten auf Fehler
    – CPU-Stresstest
    – Arbeitsspeicher-Test
    – Festplatten-Test




                                                   Folie 9/28
3) Inbetriebnahme

  • Einrichtung und Konfiguration
    –   Firmware Updates
    –   BIOS Einstellungen
    –   RAID Konfiguration
    –   OS-unabhängige Remote-Überwachung (IPMI/Nagios)
    –   Installation Betriebssystem, ggf. mit weiteren Tests




                                                         Folie 10/28
Agenda

 3) ...

 4) Betrieb
     ●    Auswahl der Überwachungsmechanismen
     ●    Einrichtung der Überwachung der einzelnen
          Komponenten
     ●    Backup-Strategie
     ●    Detailbeispiel IPMI-Überwachung
     ●    Detailbeispiel RAID-Überwachung

 5) Reaktion auf Fehler

 6) ...

                                                      Folie 11/28
4) Betrieb

  • Auswahl der Überwachungsmechanismen
    – Integrierte Fehlermeldemechanismen
       • E-Mail Benachrichtigungen
       • Logs
       • akustische Signale
    – Softwaretools
       • Herstellertools
       • weitere (Open Source) Softwaretools
             –   Nagios/Icinga
             –   Zenoss
             –   Schinken
             –   ...




                                               Folie 12/28
4) Betrieb

  • Einrichtung der Überwachung der einzelnen
    Komponenten
    – Hardware überwachen
       • IPMI deckt weite Bereiche ab
       • RAID überwachen
             – auch BBU berücksichtigen → Akku regelmäßig erneuern
    – Software überwachen
       • zahlreiche vorgefertigte Überwachungstools (Plugins für
         Nagios/Icinga)
    – (Logs überwachen)




                                                                Folie 13/28
4) Betrieb

  • Backup-Strategie
    – Einbindung in vorhandene Backup-Infrastruktur
    – Neuauslegung der Backup-Infrastruktur
    – Testen von
       • Backup
       • Restore (regelmäßige Wiederherstellungs-Tests)




                                                          Folie 14/28
4) Betrieb

  • Detailbeispiel IPMI-Überwachung (1/5): Aufbau
                                                                 Remote Mmgt. Card
                                                                                                      ICMB
                                                                  (KVM over IP, ...)

      LAN           Serial                                            Auxillary          ICMB
    Connector     Connector                                        IPMB Connector        bridge

                                                                                                                     Chassis
                                       PCI mgmt. bus                                    IPMB                          mgmt.
                                                                               NVS Storage                           (Satellite
                                                                                  SDR
                                                                                                                    Controller)
     Network
                             LAN                                                  SEL
      (LAN)
                          interface                                               FRU
     Controller
                                               Baseboard                                                          FRU      Temp.
                                                                            Sensors & Controls
                                              Management                                                                   sensor
                                                                               Fan sensor                                    …
                                               Controller                     Temp. sensor
                                                 (BMC)                        Power control                        Chassis board
                                                                              Reset control
                                                                                    …
                    Serial                      BMC
                               Serial/Modem
                     Port                      Serial                       private mgmt. busses                  FRU
                                 interface
                   Sharing                    Controller
                                                                               FRU             FRU
                                                                                                                 Redundant Power
                    M/B                                                                                               board
                                                                             Temp. s.
                   Serial                                  System
                  Controller                               interface         Memory       Processor
                                                                              board         board
                                          System bus
    Motherboard

                                                                                                             Folie 15/28
4) Betrieb

   • Detailbeispiel IPMI-Überwachung (2/5): sensor classes
Discrete                                     Threshold
multiple states possible:                    changes event status on analog
● up to 15 states                            reading comparison to threshold
● each state is reflected by a bit           values
● multiple state bits can active at a time


can provide:                                 provides:
● generic states (Table 42-2) or             ● analog reading of the sensor and

● sensor-specific states (Table 42-3)        ● discr. threshold comparison status

                                               bit (generic state, Table 42-2)
other classes similar to discrete:
● Digital: term often used for discrete

  sensors with two possible states
● OEM: discrete sensor where the

  meaning of the states (offsets) are
  OEM defined

                                                                     Folie 16/28
4) Betrieb

   • Detailbeispiel IPMI-Überwachung (3/5): sensor classes
Discrete                                            Threshold
 [root@test ~]# ipmitool sdr get "PS2 Status"        [root@test ~]# ipmitool sdr get "Fan 1"
  [root@test ~]# ipmitool sdr get "PS2 Status"        [root@test ~]# ipmitool sdr get "Fan 1"
 Sensor ID              : PS2 Status (0x71)          Sensor ID              : Fan 1 (0x50)
  Sensor ID              : PS2 Status (0x71)          Sensor ID              : Fan 1 (0x50)
  Entity ID             : 10.2 (Power Supply)         Entity ID             : 29.1 (Fan Device)
   Entity ID             : 10.2 (Power Supply)         Entity ID             : 29.1 (Fan Device)
  Sensor Type (Discrete): Power Supply                Sensor Type (Analog)  : Fan
   Sensor Type (Discrete): Power Supply                Sensor Type (Analog)  : Fan
  States Asserted       : Power Supply                Sensor Reading        : 5719 (+/­ 0) RPM
   States Asserted       : Power Supply                Sensor Reading        : 5719 (+/­ 0) RPM
                          [Presence detected]         Status                : ok
                           [Presence detected]         Status                : ok
                          [Power Supply AC lost]      Nominal Reading       : 6708.000
                           [Power Supply AC lost]      Nominal Reading       : 6708.000
  Assertion Events      : Power Supply                Normal Minimum        : 2451.000
   Assertion Events      : Power Supply                Normal Minimum        : 2451.000
                          [Presence detected]         Normal Maximum        : 10965.000
                           [Presence detected]         Normal Maximum        : 10965.000
                          [Power Supply AC lost]      Lower critical        : 1720.000
                           [Power Supply AC lost]      Lower critical        : 1720.000
  Assertions Enabled    : Power Supply                Lower non­critical    : 1978.000
   Assertions Enabled    : Power Supply                Lower non­critical    : 1978.000
                          [Presence detected]         Positive Hysteresis   : 86.000
                           [Presence detected]         Positive Hysteresis   : 86.000
                          [Failure detected]          Negative Hysteresis   : 86.000
                           [Failure detected]          Negative Hysteresis   : 86.000
                          [Predictive failure]        Minimum sensor range  : Unspecified
                           [Predictive failure]        Minimum sensor range  : Unspecified
                          [Power Supply AC lost]      Maximum sensor range  : Unspecified
                           [Power Supply AC lost]      Maximum sensor range  : Unspecified
 [...]                                                Event Message Control : Per­threshold
  [...]                                                Event Message Control : Per­threshold
  Deassertions Enabled  : Power Supply                Readable Thresholds   : lcr lnc 
   Deassertions Enabled  : Power Supply                Readable Thresholds   : lcr lnc 
 [...]                                                Settable Thresholds   : lcr lnc 
  [...]                                                Settable Thresholds   : lcr lnc 
                                                      Threshold Read Mask   : lcr lnc 
                                                       Threshold Read Mask   : lcr lnc 
                                                      Assertion Events      : 
                                                       Assertion Events      : 
                                                      Assertions Enabled    : lnc­ lcr­ 
                                                       Assertions Enabled    : lnc­ lcr­ 
                                                      Deassertions Enabled  : lnc­ lcr­ 
                                                       Deassertions Enabled  : lnc­ lcr­ 


                                                                                Folie 17/28
4) Betrieb

   • Detailbeispiel IPMI-Überwachung (4/5): freeipmi
 test­server:~$ cat /etc/ipmi_monitoring_sensors.conf 
  test­server:~$ cat /etc/ipmi_monitoring_sensors.conf 
 # [...]
  # [...]
 # The possible values for all states/thresholds below are:
  # The possible values for all states/thresholds below are:
 # Nominal ­ Signal Nominal reading if state/threshold tripped
  # Nominal ­ Signal Nominal reading if state/threshold tripped
 # Warning ­ Signal Warning reading if state/treshold tripped
  # Warning ­ Signal Warning reading if state/treshold tripped
 # Critical ­ Signal Critical reading if state/threshold tripped
  # Critical ­ Signal Critical reading if state/threshold tripped
 # 
  # 
 # If you configure different values, remember to uncomment the line :­)
  # If you configure different values, remember to uncomment the line :­)
 # 
  # 
 ###############################################################################################
  ###############################################################################################
 # [...]
  # [...]
 # IPMI_Power_Supply
  # IPMI_Power_Supply
 #
  #
 # IPMI_Power_Supply_Presence_Detected                           Nominal
  # IPMI_Power_Supply_Presence_Detected                           Nominal
 # IPMI_Power_Supply_Power_Supply_Failure_Detected               Critical
  # IPMI_Power_Supply_Power_Supply_Failure_Detected               Critical
 # IPMI_Power_Supply_Predictive_Failure                          Critical
  # IPMI_Power_Supply_Predictive_Failure                          Critical
 # IPMI_Power_Supply_Power_Supply_Input_Lost_AC_DC               Critical
  # IPMI_Power_Supply_Power_Supply_Input_Lost_AC_DC               Critical
 # [...]
  # [...]
 ###############################################################################################
  ###############################################################################################
 # [...]
  # [...]
 # IPMI_Memory
  # IPMI_Memory
 #
  #
 # IPMI_Memory_Correctable_ECC_Memory_Error                       Warning
  # IPMI_Memory_Correctable_ECC_Memory_Error                       Warning
 # IPMI_Memory_Uncorrectable_ECC_Memory_Error                     Critical
  # IPMI_Memory_Uncorrectable_ECC_Memory_Error                     Critical
 # [...]
  # [...]
 ###############################################################################################
  ###############################################################################################

                                                                                Folie 18/28
4) Betrieb

  • Detailbeispiel IPMI-Überwachung (5/5)
    – neue Version des IPMI Plugins
      für Nagios/Icinga geplant
       • nutzt freeipmi statt ipmitool
       • Discrete Sensors können
         damit richtig überwacht
         werden
    – „Alles über IPMI“ auf
      www.linuxtechnicalreview.de




                                            Folie 19/28
4) Betrieb

  • Detailbeispiel RAID-Überwachung
    – RAID Volume Status
    – Consistency Checks
        • regelmäßig per Background
          Consistency Check
    – Temperaturen
    – Akku bei BBUs
    – SMART Status der
      einzelnen Festplatten
      und SSDs
    – Whitepaper von Adaptec:
      http://download.adaptec.com/pdfs/miscellaneous_support/Adaptec_RAID_Maintenance_Best_Practices_v2b.pdf




                                                                                           Folie 20/28
Agenda

 3) ...

 4) Betrieb

 5) Reaktion auf Fehler

 6) Erweiterung und Umbau

 7) Außerbetriebnahme und Entsorgung




                                       Folie 21/28
5) Reaktion auf Fehler

  • Arbeiten mit Server-Logs
    – IPMI System Event LOG (SEL)
       [...]
        [...]
        289 | 02/18/2010 | 12:27:30 | Memory #0x02 | Uncorrectable ECC | Asserted
         289 | 02/18/2010 | 12:27:30 | Memory #0x02 | Uncorrectable ECC | Asserted
       [...]
        [...]

    – Logs des Betriebssystems
  • Verwenden von Diagnoseprogrammen




                                                                     Folie 22/28
5) Reaktion auf Fehler

  • defekter RAM
  • defekte CPU
  • defektes Mainboard
  • defekte Festplatte
    – direkt angeschlossen (z.B. Linux Software RAID)
    – am RAID Controller
  • defekter RAID Controller




                                                        Folie 23/28
Agenda

 3) ...

 4) Betrieb

 5) Reaktion auf Fehler

 6) Erweiterung und Umbau

 7) Außerbetriebnahme und Entsorgung




                                       Folie 24/28
6) Erweiterung und Umbau

  • Erweiterung eines vorhandenen Servers
    –   Umbau der CPU
    –   Erweiterung bzw. Austausch des Arbeitsspeichers
    –   Umbau des Mainboards
    –   Austausch der Festplatten
    –   Änderung des RAID Levels
    –   Wechsel von DAS auf NAS oder SAN Storage-Anbindung




                                                    Folie 25/28
Agenda

 3) ...

 4) Betrieb

 5) Reaktion auf Fehler

 6) Erweiterung und Umbau

 7) Außerbetriebnahme und Entsorgung




                                       Folie 26/28
7) Außerbetriebnahme und Entsorgung

  • Vorbereitung der Außerbetriebnahme
    – Auswirkungen abklären
    – Entfernen des Servers aus der Überwachungssoftware
  • Entsorgung der Daten und Hardware
    – Erheben welche Hardware ggf. weiter verwendet werden kann
      (z.B. für RAM-Erweiterung von anderen Systemen)
    – Sichere Festplattenlöschung
    – Umweltgerechte Entsorgung oder ggf. Weiterverkauf (beim
      Weiterverkauf ggf. rechtliche Aspekte abklären)




                                                     Folie 27/28
Fazit


   Sie können die Verfügbarkeit Ihrer Server durch viele
         einfache Maßnahmen deutlich erhöhen.


        RAID und Cluster alleine reichen nicht für einen
                   ausfallsicheren Betrieb.


    Die Überwachung von Software und Hardware im
  laufenden Betrieb ist ein zentraler Bestandteil für eine
                  hohe Verfügbarkeit.



                                                     Folie 28/28

More Related Content

Viewers also liked (20)

quäntchen + glück sucht Frontend Web Developer
quäntchen + glück sucht Frontend Web Developerquäntchen + glück sucht Frontend Web Developer
quäntchen + glück sucht Frontend Web Developer
 
Ahv rapport 04
Ahv rapport 04Ahv rapport 04
Ahv rapport 04
 
Repaso de word
Repaso de wordRepaso de word
Repaso de word
 
Dibuix 4rt eso
Dibuix 4rt esoDibuix 4rt eso
Dibuix 4rt eso
 
Anguloscircunferencia 111111222052-phpapp02
Anguloscircunferencia 111111222052-phpapp02Anguloscircunferencia 111111222052-phpapp02
Anguloscircunferencia 111111222052-phpapp02
 
O2t
O2tO2t
O2t
 
Karen .. manu rosi y lupi expo de sistema
Karen .. manu rosi y lupi expo de sistemaKaren .. manu rosi y lupi expo de sistema
Karen .. manu rosi y lupi expo de sistema
 
productos corregidos 1/6
productos corregidos 1/6productos corregidos 1/6
productos corregidos 1/6
 
Ficha de relevamiento de....
Ficha de relevamiento de....Ficha de relevamiento de....
Ficha de relevamiento de....
 
Estudio-discografico
Estudio-discograficoEstudio-discografico
Estudio-discografico
 
Tarea de redacción
Tarea de redacciónTarea de redacción
Tarea de redacción
 
Aines tto periodontal
Aines tto periodontalAines tto periodontal
Aines tto periodontal
 
La Entrega Final de Taller
La Entrega Final de TallerLa Entrega Final de Taller
La Entrega Final de Taller
 
Breitbandinitiative Niedersachsen
Breitbandinitiative NiedersachsenBreitbandinitiative Niedersachsen
Breitbandinitiative Niedersachsen
 
Las drogas
Las drogasLas drogas
Las drogas
 
Hereandnow
HereandnowHereandnow
Hereandnow
 
Presentation1
Presentation1Presentation1
Presentation1
 
Sozialpädagogik Infos
Sozialpädagogik InfosSozialpädagogik Infos
Sozialpädagogik Infos
 
Jahresrückblick 2010
Jahresrückblick 2010Jahresrückblick 2010
Jahresrückblick 2010
 
Redes tercera parte
Redes tercera parteRedes tercera parte
Redes tercera parte
 

20101011 roadshow-2010-server-ausfallsicher-betreiben

  • 1. Server ausfallsicher betreiben Werner Fischer, Technology Specialist Thomas-Krenn.AG Thomas Krenn Roadshow 2010 11.10. Berlin 12.10. Hamburg 14.10. Köln 19.10. Frankfurt 20.10. Stuttgart 21.10. Zürich 05.11. Wien
  • 2. Agenda 1) Serverzweck bestimmen 2) Serverauswahl 3) Inbetriebnahme 4) Betrieb 5) Reaktion auf Fehler 6) Erweiterung und Umbau 7) Außerbetriebnahme und Entsorgung Folie 2/28
  • 3. Agenda 1) Serverzweck bestimmen ● Anforderungen aus der Betriebsumgebung ● Anforderungen aus dem Einsatzzweck 2) Serverauswahl 3) Inbetriebnahme 4) Betrieb 5) ... Folie 3/28
  • 4. 1) Serverzweck bestimmen • Anforderung aus der Betriebsumgebung – rechtliche Anforderungen – benötigte Servicelevel zur Einhaltung von SLAs – Sensoren für die spätere Überwachung (z.B. IPMI) – USV / Klimatisierung – Serverrack Folie 4/28
  • 5. 1) Serverzweck bestimmen • Anforderung aus dem Einsatzzweck – benötigte Leistung – speziell zertifizierte Hardware – Schnittstellen zur Einbindung in bestehende Netze (LAN, SAN, ...) Folie 5/28
  • 6. Agenda 2) Serverauswahl ● Entscheidungskriterien ● Komponentenauswahl 3) Inbetriebnahme 4) Betrieb 5) Reaktion auf Fehler 6) Erweiterung und Umbau 7) Außerbetriebnahme und Entsorgung Folie 6/28
  • 7. 2) Serverauswahl • Entscheidungskriterien – standardisierte Server-Landschaft – Hersteller-Support • Komponentenauswahl – Netzteile und Stromversorgung – CPU – Arbeitsspeicher – Speicherarchitektur (DAS, SAN, NAS) • RAID-Controller, Festplatten, RAID-Level • SAN Schnittstellen (iSCSI, FC) Folie 7/28
  • 8. Agenda 2) ... 3) Inbetriebnahme ● Prüfung Vollständigkeit der Komponenten ● Testen der Komponenten auf Fehler 4) Betrieb 5) Reaktion auf Fehler 6) Erweiterung und Umbau 7) Außerbetriebnahme und Entsorgung Folie 8/28
  • 9. 3) Inbetriebnahme • Prüfung Vollständigkeit der Komponenten – Sichtprüfung – Technische Prüfungen (BIOS-Anzeigen, etc.) • Testen der Komponenten auf Fehler – CPU-Stresstest – Arbeitsspeicher-Test – Festplatten-Test Folie 9/28
  • 10. 3) Inbetriebnahme • Einrichtung und Konfiguration – Firmware Updates – BIOS Einstellungen – RAID Konfiguration – OS-unabhängige Remote-Überwachung (IPMI/Nagios) – Installation Betriebssystem, ggf. mit weiteren Tests Folie 10/28
  • 11. Agenda 3) ... 4) Betrieb ● Auswahl der Überwachungsmechanismen ● Einrichtung der Überwachung der einzelnen Komponenten ● Backup-Strategie ● Detailbeispiel IPMI-Überwachung ● Detailbeispiel RAID-Überwachung 5) Reaktion auf Fehler 6) ... Folie 11/28
  • 12. 4) Betrieb • Auswahl der Überwachungsmechanismen – Integrierte Fehlermeldemechanismen • E-Mail Benachrichtigungen • Logs • akustische Signale – Softwaretools • Herstellertools • weitere (Open Source) Softwaretools – Nagios/Icinga – Zenoss – Schinken – ... Folie 12/28
  • 13. 4) Betrieb • Einrichtung der Überwachung der einzelnen Komponenten – Hardware überwachen • IPMI deckt weite Bereiche ab • RAID überwachen – auch BBU berücksichtigen → Akku regelmäßig erneuern – Software überwachen • zahlreiche vorgefertigte Überwachungstools (Plugins für Nagios/Icinga) – (Logs überwachen) Folie 13/28
  • 14. 4) Betrieb • Backup-Strategie – Einbindung in vorhandene Backup-Infrastruktur – Neuauslegung der Backup-Infrastruktur – Testen von • Backup • Restore (regelmäßige Wiederherstellungs-Tests) Folie 14/28
  • 15. 4) Betrieb • Detailbeispiel IPMI-Überwachung (1/5): Aufbau Remote Mmgt. Card ICMB (KVM over IP, ...) LAN Serial Auxillary ICMB Connector Connector IPMB Connector bridge Chassis PCI mgmt. bus IPMB mgmt. NVS Storage (Satellite SDR Controller) Network LAN SEL (LAN) interface FRU Controller Baseboard FRU Temp. Sensors & Controls Management sensor Fan sensor … Controller Temp. sensor (BMC) Power control Chassis board Reset control … Serial BMC Serial/Modem Port Serial private mgmt. busses FRU interface Sharing Controller FRU FRU Redundant Power M/B board Temp. s. Serial System Controller interface Memory Processor board board System bus Motherboard Folie 15/28
  • 16. 4) Betrieb • Detailbeispiel IPMI-Überwachung (2/5): sensor classes Discrete Threshold multiple states possible: changes event status on analog ● up to 15 states reading comparison to threshold ● each state is reflected by a bit values ● multiple state bits can active at a time can provide: provides: ● generic states (Table 42-2) or ● analog reading of the sensor and ● sensor-specific states (Table 42-3) ● discr. threshold comparison status bit (generic state, Table 42-2) other classes similar to discrete: ● Digital: term often used for discrete sensors with two possible states ● OEM: discrete sensor where the meaning of the states (offsets) are OEM defined Folie 16/28
  • 17. 4) Betrieb • Detailbeispiel IPMI-Überwachung (3/5): sensor classes Discrete Threshold [root@test ~]# ipmitool sdr get "PS2 Status" [root@test ~]# ipmitool sdr get "Fan 1" [root@test ~]# ipmitool sdr get "PS2 Status" [root@test ~]# ipmitool sdr get "Fan 1" Sensor ID              : PS2 Status (0x71) Sensor ID              : Fan 1 (0x50) Sensor ID              : PS2 Status (0x71) Sensor ID              : Fan 1 (0x50)  Entity ID             : 10.2 (Power Supply)  Entity ID             : 29.1 (Fan Device)  Entity ID             : 10.2 (Power Supply)  Entity ID             : 29.1 (Fan Device)  Sensor Type (Discrete): Power Supply  Sensor Type (Analog)  : Fan  Sensor Type (Discrete): Power Supply  Sensor Type (Analog)  : Fan  States Asserted       : Power Supply  Sensor Reading        : 5719 (+/­ 0) RPM  States Asserted       : Power Supply  Sensor Reading        : 5719 (+/­ 0) RPM                          [Presence detected]  Status                : ok                          [Presence detected]  Status                : ok                          [Power Supply AC lost]  Nominal Reading       : 6708.000                          [Power Supply AC lost]  Nominal Reading       : 6708.000  Assertion Events      : Power Supply  Normal Minimum        : 2451.000  Assertion Events      : Power Supply  Normal Minimum        : 2451.000                          [Presence detected]  Normal Maximum        : 10965.000                          [Presence detected]  Normal Maximum        : 10965.000                          [Power Supply AC lost]  Lower critical        : 1720.000                          [Power Supply AC lost]  Lower critical        : 1720.000  Assertions Enabled    : Power Supply  Lower non­critical    : 1978.000  Assertions Enabled    : Power Supply  Lower non­critical    : 1978.000                          [Presence detected]  Positive Hysteresis   : 86.000                          [Presence detected]  Positive Hysteresis   : 86.000                          [Failure detected]  Negative Hysteresis   : 86.000                          [Failure detected]  Negative Hysteresis   : 86.000                          [Predictive failure]  Minimum sensor range  : Unspecified                          [Predictive failure]  Minimum sensor range  : Unspecified                          [Power Supply AC lost]  Maximum sensor range  : Unspecified                          [Power Supply AC lost]  Maximum sensor range  : Unspecified [...]  Event Message Control : Per­threshold [...]  Event Message Control : Per­threshold  Deassertions Enabled  : Power Supply  Readable Thresholds   : lcr lnc   Deassertions Enabled  : Power Supply  Readable Thresholds   : lcr lnc  [...]  Settable Thresholds   : lcr lnc  [...]  Settable Thresholds   : lcr lnc   Threshold Read Mask   : lcr lnc   Threshold Read Mask   : lcr lnc   Assertion Events      :   Assertion Events      :   Assertions Enabled    : lnc­ lcr­   Assertions Enabled    : lnc­ lcr­   Deassertions Enabled  : lnc­ lcr­   Deassertions Enabled  : lnc­ lcr­  Folie 17/28
  • 18. 4) Betrieb • Detailbeispiel IPMI-Überwachung (4/5): freeipmi test­server:~$ cat /etc/ipmi_monitoring_sensors.conf  test­server:~$ cat /etc/ipmi_monitoring_sensors.conf  # [...] # [...] # The possible values for all states/thresholds below are: # The possible values for all states/thresholds below are: # Nominal ­ Signal Nominal reading if state/threshold tripped # Nominal ­ Signal Nominal reading if state/threshold tripped # Warning ­ Signal Warning reading if state/treshold tripped # Warning ­ Signal Warning reading if state/treshold tripped # Critical ­ Signal Critical reading if state/threshold tripped # Critical ­ Signal Critical reading if state/threshold tripped #  #  # If you configure different values, remember to uncomment the line :­) # If you configure different values, remember to uncomment the line :­) #  #  ############################################################################################### ############################################################################################### # [...] # [...] # IPMI_Power_Supply # IPMI_Power_Supply # # # IPMI_Power_Supply_Presence_Detected                           Nominal # IPMI_Power_Supply_Presence_Detected                           Nominal # IPMI_Power_Supply_Power_Supply_Failure_Detected               Critical # IPMI_Power_Supply_Power_Supply_Failure_Detected               Critical # IPMI_Power_Supply_Predictive_Failure                          Critical # IPMI_Power_Supply_Predictive_Failure                          Critical # IPMI_Power_Supply_Power_Supply_Input_Lost_AC_DC               Critical # IPMI_Power_Supply_Power_Supply_Input_Lost_AC_DC               Critical # [...] # [...] ############################################################################################### ############################################################################################### # [...] # [...] # IPMI_Memory # IPMI_Memory # # # IPMI_Memory_Correctable_ECC_Memory_Error                       Warning # IPMI_Memory_Correctable_ECC_Memory_Error                       Warning # IPMI_Memory_Uncorrectable_ECC_Memory_Error                     Critical # IPMI_Memory_Uncorrectable_ECC_Memory_Error                     Critical # [...] # [...] ############################################################################################### ############################################################################################### Folie 18/28
  • 19. 4) Betrieb • Detailbeispiel IPMI-Überwachung (5/5) – neue Version des IPMI Plugins für Nagios/Icinga geplant • nutzt freeipmi statt ipmitool • Discrete Sensors können damit richtig überwacht werden – „Alles über IPMI“ auf www.linuxtechnicalreview.de Folie 19/28
  • 20. 4) Betrieb • Detailbeispiel RAID-Überwachung – RAID Volume Status – Consistency Checks • regelmäßig per Background Consistency Check – Temperaturen – Akku bei BBUs – SMART Status der einzelnen Festplatten und SSDs – Whitepaper von Adaptec: http://download.adaptec.com/pdfs/miscellaneous_support/Adaptec_RAID_Maintenance_Best_Practices_v2b.pdf Folie 20/28
  • 21. Agenda 3) ... 4) Betrieb 5) Reaktion auf Fehler 6) Erweiterung und Umbau 7) Außerbetriebnahme und Entsorgung Folie 21/28
  • 22. 5) Reaktion auf Fehler • Arbeiten mit Server-Logs – IPMI System Event LOG (SEL) [...] [...]  289 | 02/18/2010 | 12:27:30 | Memory #0x02 | Uncorrectable ECC | Asserted  289 | 02/18/2010 | 12:27:30 | Memory #0x02 | Uncorrectable ECC | Asserted [...] [...] – Logs des Betriebssystems • Verwenden von Diagnoseprogrammen Folie 22/28
  • 23. 5) Reaktion auf Fehler • defekter RAM • defekte CPU • defektes Mainboard • defekte Festplatte – direkt angeschlossen (z.B. Linux Software RAID) – am RAID Controller • defekter RAID Controller Folie 23/28
  • 24. Agenda 3) ... 4) Betrieb 5) Reaktion auf Fehler 6) Erweiterung und Umbau 7) Außerbetriebnahme und Entsorgung Folie 24/28
  • 25. 6) Erweiterung und Umbau • Erweiterung eines vorhandenen Servers – Umbau der CPU – Erweiterung bzw. Austausch des Arbeitsspeichers – Umbau des Mainboards – Austausch der Festplatten – Änderung des RAID Levels – Wechsel von DAS auf NAS oder SAN Storage-Anbindung Folie 25/28
  • 26. Agenda 3) ... 4) Betrieb 5) Reaktion auf Fehler 6) Erweiterung und Umbau 7) Außerbetriebnahme und Entsorgung Folie 26/28
  • 27. 7) Außerbetriebnahme und Entsorgung • Vorbereitung der Außerbetriebnahme – Auswirkungen abklären – Entfernen des Servers aus der Überwachungssoftware • Entsorgung der Daten und Hardware – Erheben welche Hardware ggf. weiter verwendet werden kann (z.B. für RAM-Erweiterung von anderen Systemen) – Sichere Festplattenlöschung – Umweltgerechte Entsorgung oder ggf. Weiterverkauf (beim Weiterverkauf ggf. rechtliche Aspekte abklären) Folie 27/28
  • 28. Fazit Sie können die Verfügbarkeit Ihrer Server durch viele einfache Maßnahmen deutlich erhöhen. RAID und Cluster alleine reichen nicht für einen ausfallsicheren Betrieb. Die Überwachung von Software und Hardware im laufenden Betrieb ist ein zentraler Bestandteil für eine hohe Verfügbarkeit. Folie 28/28