Hallo Zusammen,
in unregelmäßigen Abständen, erhalte ich eine Meldung ( über vCenter ) "Host nicht verbunden". Die Maschinen auf diesen Host laufen aber weiter. Erst bei Neustart kommen sie nicht hoch .
Es wäre Klasse einen Tip zu erhalten über
- warum sich der Host verabschiedet
- und wie kann ich die daruf regiesoierten Maschinen auf andern Host verschieben.
Meine Konfigration:
2 Host mit VMWare 5.0 und 1 vCenter 2 SANs
Ich würde mich freuen etwas von Euch zu hören.
Gruß
Barto
Willkommen im Forum,
ohne Details ist es schwierig die Ursache herauszufinden.
André
Hallo Andre,
vielen Dank für Deine Antwort.
Die Netzwerkkarten sind entsprechend. Auch DNS -Auflösung scheint gut zu laufen.
Der "Restart management Agents" nutzt insofern nicht, da der Host auf kaum Eingabe reagiert. Es erscheint mir dass es gleiches Verhalten ist, wie bei einem Windows -Server der ständigt auf 100% Auslastung läuft.
Es nutzt nur noch die Maschimen per RDP runterfahren. Anschliessend wird der Host ausgeschaltet.
Gruß
Barto
Es ist schwer ohne weitere Details die genaue Fehlerursache zu bestimmen.
Zum Zeitpunkt des Disconnects solltest Du in den vpxd.logs sehen, dass der Host den Status entweder zu NOT RESPONDING oder DISCONNECTED ändert. Damit hast Du schon einmal einen Zeitstempel wann genau vpxa nicht mehr mit vpxd kommunizieren konnte. Heartbeats ist bei soetwas auch noch ein guter Suchbegriff im vpxd.log
Zeitstempel -2 Stunden auf den Hostlogs sind dann vor allen Dingen das vpxa.log, vmkernel.log, vmkwarning.log und hostd.log die üblichen Verdächtigen, wenn eine Scratchpartition eingerichtet war, um der Fehlerursache näher zu kommen.
NMP Meldungen und SCSI Meldungen im vmkernel.log und vmkwarning.log deuten auf Storageprobleme und damit sich verabschiedende Management Agents hin.
Wenn der Host bereits in einem Disconnected Zustand ist, ist es mit dem Verschieben meist schon vorbei. Da hilft fast ausschliesslich RDP und Herunterfahren der VMs + Boot und anschliessende Fehleranalyse.
Wenn eine Remotekarte im Host ist, kommst Du über die Kombination ALT + F12 live ins vmkernel.log und mit ALT + F11 in einen Screen der auf den neuen Buildnummern auch bestimmte kritische Fehler anzeigt.
Das sind die allgemeinen Ratschläge um der Fehlerursache auf die Spur zu kommen, Du kannst ja gerne einmal einen Auszug aus den hostd und vmkernel Logs zum Fehlerzeitpunkt hier posten, dann kann man bestimmte Sachen einfach ausschliessen und Dir sicher weitere Hinweise geben.
Hallo Frank,
danke für Deine Antwort.
Besteht die Möglichkeit, von einen "nicht verbundenden" Host, die Maschinen auf einen anderem Host zu starten? Anscheinend werden die Vmdks gelockt
Gruß
Barto
Ohne dass die VMs heruntergefahren worden? Unter 5.0? Eher nicht. Selbst wenn ein Shutdown erfolgreich war, kann es sein, dass der Host die vmdk immer noch lockt, das einzige was zuverlässig hilft ist ein Reboot des betroffenen Hosts.
Hallo Frank,
ich hoffe Du hast ein schönes Wochenende gehabt.
Wie ist es dann aber, wenn ein kompletter Host abraucht. Wie kann mann dann die "verweisten" VMs wieder starten?
Gruß
Wenn die VMs auf einem SAN liegen ist es eigentlich kein Problem, wenn der fehlerhafte Host durchgestartet bzw. ausgeschaltet worden ist. Einfach per Datastore Browser in das Verzeichnis der vmx gehen (Doku ist alles) und die VM auf einem anderen Host neu registrieren.
Wenn die VMs auf lokalem Storage liegen hat man ein größeres Problem, Restore from Backup sollte da wohl der schnellste Weg sein.
In diesen KB-Artikeln sind generische Troubleshooting-Steps gelistet:
http://kb.vmware.com/kb/1019082
http://kb.vmware.com/kb/1003409
Vielleicht ist da was passendes dabei?!
- Andreas