Lösungen und Tipps von den mpex Profis

mpex Techblog

21.07.2020

Pacemaker – Problem: Nodes sehen sich nicht mehr, beide haben alle Ressourcen aktiv (ggf. Split Brain)

Es erscheint eine Fehlermeldung, dass sich die Nodes nicht mehr sehen – sie werden gegenseitig als "offline" angezeigt – obwohl bei beiden ggf. alle Ressourcen aktiviert sind (ggf. Split Brain).

Problem

Die Nodes sehen sich nicht mehr, die jeweils andere Node wird als OFFLINE markiert; ggf. haben beide Nodes alle Ressourcen aktiviert.
crm status node1: ... Online: [ node1 ] OFFLINE: [ node2 ] ... ---------------------- crm status node2: ... Online: [ node2 ] OFFLINE: [ node1 ] ...

Diagnose 1

Logfiles prüfen
  • Im Log erscheint evtl.
    Apr 16 22:28:46 node1 heartbeat: [2646]: CRIT: Cluster node node2 returning after partition. Apr 16 22:28:46 node1 heartbeat: [2646]: info: For information on cluster partitions, See URL: http://linux-ha.org/wiki/Split_Brain Apr 16 22:28:46 node1 heartbeat: [2646]: WARN: Deadtime value may be too small. Apr 16 22:28:46 node1 heartbeat: [2646]: info: See FAQ for information on tuning deadtime. Apr 16 22:28:46 node1 heartbeat: [2646]: info: URL: http://linux-ha.org/wiki/FAQ#Heavy_Load Apr 16 22:28:46 node1 heartbeat: [2646]: WARN: Late heartbeat: Node node2: interval 32010 ms Apr 16 22:28:46 node1 heartbeat: [2646]: info: Status update for node node2: status active

Diagnose 2

Die Verbindung prüfen, über die Pacemaker auf beiden Seiten miteinander kommuniziert.
  • Auf beiden Systemen ausführen, um festzustellen, wie die Verbindung aufgebaut ist:
    cat /etc/ha.d/ha.cf | grep mcast
  • Wenn DRBD im Einsatz ist, feststellen, ob DRBD im Split-Brain ist:
    cat /proc/drbd ; drbd-overview
  • Ist das Interface in /etc/heartbeat/ha.cf bzw. /etc/corosync/corosync.conf auf beiden Seiten noch korrekt?
  • Wird auf beiden Interfaces Traffic korrekt übertragen?
    • Wurde evtl. (aus Versehen) auf dem Switch die VLAN Zuordnung geändert?
    • Ist eine der Netzwerkkarten der Nodes kaputt?
    • Ist das Kabel defekt?
  • Blockt eine dazwischenliegende Firewall evtl. Traffic?
  • Sind dazwischenliegende Switches evtl. ausgefallen? (Hinweis: Diesen Zustand wollen wir eigentlich nicht. Wir wollen direkte Kabelverbindungen für Pacemaker!)
    • Auch wenn die Switches wieder da sind, können sie Pacemaker im Split-Brain zurücklassen!
  • Bei anhaltendem Problem auf geteiltem Interface: Eine direkte Verbindung mit Crossoverkabel versuchen.

Diagnose 3

Hält der Split-Brain Zustand noch an oder sehen sich die Nodes schon wieder?
  • Ping zwischen den beiden Instanzen durchführen, auf dem Interface, das für Pacemaker zuständig ist, wie bereits in Punkt 2 herausgefunden wurde.

Lösung

  • <!> Achtung: Wenn DRBD im Einsatz ist, dann wird höchstwahrscheinlich DRBD danach weiterhin im Split-Brain Zustand sein. Dann zunächst diesen Zustand in DRBD auflösen.
    • Hierfür am besten einen Node in Standby versetzen und als DRBD-Secondary aufbauen.
  • Zum Auflösen von Split-Brain Zustand, wenn sich die Nodes wieder erreichen: Pacemaker bzw. Heartbeat auf inaktivem Knoten durchstarten.
    /etc/init.d/heartbeat restart # - oder mit corosync! - /etc/init.d/pacemaker restart

Kann mpex weiterhelfen?

Mit über 20 Jahren Erfahrung im Bereich Managed Hosting haben wir ein umfangreiches Repertoire an Problemlösungen angesammelt, die uns beim Betrieb von Serverumgebungen auf höchstem technischen Niveau geholfen haben. Unsere Systeme bauen komplett auf Open-Source-Technologien auf. Damit sind wir flexibel und können bei technischen Schwierigkeiten direkt selbst eingreifen. Analog zur Open-Source-Idee haben wir uns für diesen Techblog entschieden, um unsere Expertise und Problemlösungen mit dir zu teilen. Dazu zählen Technologien wie Bacula, Debian, Pacemaker, Puppet, diverse allgemeine Serverprobleme und noch vieles darüber hinaus. Wenn du mehr über unsere individuellen Business-Lösungen erfahren und dich als Admin auf deine Kernkompetenzen konzentrieren möchtest, sprich uns einfach an. Wir realisieren das Managed Hosting deiner Anwendung und kümmern uns in Zukunft um all solche Probleme.

Zum Kontaktformular
mpex GmbH
Weitere Blog Artikel
12.08.2020

Pacemaker – Problem: Fehlermeldung bei Ausführung von resize2fs gegen ein kürzlich vergrößertes Dateisystem

Fehlermeldung z.B. "Das Dateisystem ist schon xxxx Blöcke groß. Nichts zu tun!" bzw. "The filesystem is already xxxx blocks long. Nothing to do!"

Artikel lesen
05.08.2020

Pacemaker – Problem: Dienst lässt sich nicht stoppen

Pacemaker Dienst lässt sich nicht stoppen und hängt scheinbar ewig fest. Gibt es weitere aktive Ressourcen oder ist die Node noch aktiv?

Artikel lesen

Kontaktformular - Sprechen Sie uns an!

Sprechen Sie uns an!

Sie wollen mehr über uns und unsere Leistungen erfahren? Lernen Sie uns im persönlichen Gespräch kennen!

Telefon: +49 30 780 97 180
E-Mail: info@mpex.de