VMware Global Community
simone_scr
Contributor
Contributor

Quando HA non interviene

Ciao a tutti, ecco il problema che mi è capitato su un'installazione vsphere 4.1 update1:

in un cluster HA con 3 esx, uno degli esx si è perso l'accesso ai dischi in san (si è disabilitata la sched qlogic, problema poi risolto con il supporto), a quel punto HA non interviene perché l'esx continua a comunicare via rete, ma le macchine virtuali di questo host risultano inutilizzabili (caso vuole le più critiche).

Risultato: incazzatura del cliente e vaghe giustificazioni nostre per dirgli che questo caso non era coperto da HA.

Ho visto che sul HA a versione 5 hanno aggiunto l'heartbeat sui datastore, ma da quanto ho capito solo se non c'è comunicazione con la management network, quindi neanche questo mi avrebbe salvato...

Qualche idea o suggerimento?

Reply
0 Kudos
12 Replies
delbinos
Contributor
Contributor

il DNS e' su un server virtuale?

se si facile ce in caso a schinatare sia prorio la VM con a bordo il servizio, HA non funzioni( prerequisito per HA il DNS)

se cosi fosse ti consiglio un DNS fisico

Stefano

Reply
0 Kudos
ldelloca
Virtuoso
Virtuoso

Su 5.0 però questo discorso decade, dato che i vari nodi ESXi si salvano l'elenco dei nodi partner del cluster di appartenenza e i loro indirizzi di management, un pò in stile /etc/hosts, e quindi dns non diventa più un problema.

Vorrei però capire meglio quanto è successo: se il datastore è stato perso dal nodo, le VM avrebbero dovuto andare in errore ed essere riavviate.

La policy di default di HA su cosa è impostata?

Luca.

Luca Dell'Oca | vExpert 2011-2012-2013-2014-2015-2016-2017, VCAP-DCD, CISSP #58353 | http://www.virtualtothecore.com | @dellock6 | http://www.linkedin.com/in/lucadelloca | If you find this post useful, please consider awarding points for "Correct" or "Helpful"
Reply
0 Kudos
delbinos
Contributor
Contributor

verissimo Luca, pero se nn ho capito male il problema lo ha sulla 4.1

mi sbaglio?

Stefano

Reply
0 Kudos
ldelloca
Virtuoso
Virtuoso

Corretto, ma visto che l'OP parlava di upgrade alla 5...

Luca.

Luca Dell'Oca | vExpert 2011-2012-2013-2014-2015-2016-2017, VCAP-DCD, CISSP #58353 | http://www.virtualtothecore.com | @dellock6 | http://www.linkedin.com/in/lucadelloca | If you find this post useful, please consider awarding points for "Correct" or "Helpful"
Reply
0 Kudos
delbinos
Contributor
Contributor

si, in effetti ci vorrebbero piu informazioni. il problema cosi non è chiaro

stefano

Reply
0 Kudos
simone_scr
Contributor
Contributor

Aggiungo qualche informazione:

l'installazione è tutta a 4.1 update1

Gli esx hanno disco di boot interno e datastore su san connessa via fibra

HA è configurato con:

-admission control disabilitato

-Host isolation response: leave powered on

- VM Monitoring: disabled

HA non ha dato nessun errore, i DNS sono a psto (ce n'è uno fisico).

Nel caso specifico la situazione è stata risolta spegnedo fisicamente l'esx, a quel punto è intervenuto HA per il riavvio delle vm

Per ricreare il problema "basterebbe" staccare le fibre da un esx evedere cosa succede, le vm tra l'altro continuano a rispondere al ping anche senza dischi sotto

Quello che mi servirebbe capire è come evitare questa situazione di "stallo".

Simone

Reply
0 Kudos
ldelloca
Virtuoso
Virtuoso

-Host isolation response: leave powered on

- VM Monitoring: disabled

Anche se continua a tornarmi strano il fatto che le VM senza dischi continuassero a funzionare (a meno che non eseguissero tutto in ram e quindi non avessero bisogno dei dischi, ma pare strano se non per brevi periodi di tempo), se per ESXi le VM erano ancora funzionanti è il motivo per cui non le riavviava, sommando il "leave powered on" al monitoring disabled (che poi vuol dire che controlla se i vmware tools rispondono ai controlli di heartbeat).

Se tutte le VM hanno i tools installati, puoi attivare il VM monitoring per iniziare.

Ciao,

Luca.

Luca Dell'Oca | vExpert 2011-2012-2013-2014-2015-2016-2017, VCAP-DCD, CISSP #58353 | http://www.virtualtothecore.com | @dellock6 | http://www.linkedin.com/in/lucadelloca | If you find this post useful, please consider awarding points for "Correct" or "Helpful"
delbinos
Contributor
Contributor

buondi,

direi che miglior risposta nn poteva darti, concordo con cio che ti ha scritto Luca,

stefano

Reply
0 Kudos
simone_scr
Contributor
Contributor

Ciao, grazie intanto per le risposte.

Ho visto che le VM continuano per un po' di tempo a rispondere al ping anche senza dischi, poi quando cominciano a fare I/O prima o poi vanno in crash.

Se attivo il VM Monitoring, potrebbe succedere che vengano riavviate nel caso i vmware tools non rispondano, giusto?

Questo potrebbe darmi disservizi nel caso le applicazioni siano funzionanti e i vm tools spenti per qualche motivo, non sapendo a priori le probabilità di tale evento preferirei evitare questa situazione, questo è il motivo per cui di norma tengo il VM monitoring in disabled.

Reply
0 Kudos
ldelloca
Virtuoso
Virtuoso

Il timeout è tra i 30 e i 60 secondi, quindi potrebbe corrispondere al comportamento che hai osservato.

La scelta se attivare o disattivare i VMware tools "purtroppo" pone delle scelte progettuali di fondo: se vuoi prediligere la ripartenza rapida delle vm confidando che l'infrastruttura sia molto stabile e che quindi i pochi errori siano tali, oppure lasciare che le VM girino il più possibile... come immaginerai ci sono pro e contro ad emtrambe le scelte.

Ciao,

Luca.

Luca Dell'Oca | vExpert 2011-2012-2013-2014-2015-2016-2017, VCAP-DCD, CISSP #58353 | http://www.virtualtothecore.com | @dellock6 | http://www.linkedin.com/in/lucadelloca | If you find this post useful, please consider awarding points for "Correct" or "Helpful"
Reply
0 Kudos
Fab75
Enthusiast
Enthusiast

Una precisazione: se attivi il VM Monitoring ed i vmware tools smettono di rispondere, allo scadere del timeout che determina il failover il sistema va a  controllare anche se la VM ha fatto I/O negli ultimi 120 secondi.

Questo serve proprio ad evitare il caso che indichi tu, vmware tools che momentaneamente non rispondono (e non è raro), ma la VM non ha nessun problema.

AndreTheGiant
Immortal
Immortal

Chiariamo un punto: VMware HA non è in grado di gestire il failure dello storage... neppure nella 5.

Lo storage heartbeat server solo per capire lo stato di isolation quando manca la rete, non per capire quando manca lo storage.

Andrew | http://about.me/amauro | http://vinfrastructure.it/ | @Andrea_Mauro
Reply
0 Kudos