HA agent on host cluster has an error

mig50saez · ‎10-13-2008

Hola tengo 2 hosts en cluster y cada 1 hora en un de los hosts máa que en el otro aparece el mensaje de error HA agent on litre cluster Clinica_Alemana in Datacenter_Alemana has an error:

He revisado los siguientes puntos:

Verify that there are enough Licenses to configure VMware HA. For more information, see Verifying that the feature is licensed (1003692).
Verify that name resolution is correctly configured on the ESX Server. For more information, see Identifying issues with and setting up name resolution on ESX Server (1003735).
Verify that name resolution is correctly configured on the VMware VirtualCenter Server. For more information, see Configuring name resolution for VMware VirtualCenter (1003713).
Verify that network connectivity exists from the VirtualCenter Server to the ESX Server. For more information, see Testing network connectivity with the Ping command (1003486).
Verify that network connectivity exists from the ESX Server to the isolation response address. For more information, see Testing network connectivity with the Ping command (1003486).

6. Verify that required network ports are open. For more information, see Testing port connectivity with the Telnet command (1003487)

7. Verify that the time is correct on the ESX Server's with the date command. For more information on setting up time syncrohnization with ESX Server, see Installing and Configuring NTP on VMware ESX Server (1339).

8. Verify that the correct version of the VirtualCenter agent service is installed. For more information, see Verifying and reinstalling the correct version of VMware VirtualCenter Server agent (1003714).

9.Verify that VMware HA is only attempting to configure on one Service Console. For more information, see iSCSI Service Console port on the same network as VMware High Availability may break configuration o....

Y todas se cumplen correctamente, no se que más puedo revisar para solucionar el problema y lo más importante saber porque se produce.

fmateo · ‎10-13-2008

Hola,

Podrias indicar que versión tienes instalada, número de tarjetas, virtual switches tienes configurados y como? Nos iria bien algo mas de información.

De todas formas revisa que tanto la VC como los ESX se puedan resolver por nombre (aunque segun pones ya lo has hecho). Prueba a forzarles en el fichero hosts de cada servidor.

Otra cosa que puedes probar es esto: "Prueba a resetear el servicio hostd del servidor, 'service mgmt-vmware restart' y el servicio del agente de la virtualcenter, 'service vmware-vpxa restart'.

También puedes intentar un "reconfigure for HA", en click derecho encima del server ESX.

Otra opción seria a sacar al ESX del cluster y a volverlo a agregar (aunque supongo que también lo has intentado).

Gracias

mig50saez · ‎10-14-2008

La versión actual de ESX es la 3.5 Update1 y VC versión 2.5 Update1.

Ayer reconfigure el HA en cada uno de los nodos y en las dos horas siguientes no se manifestó el problema, de todas maneras hoy veré como sigue.

Lo importante es saber porque se produjo.

El dia viernes estuve realizando backups de las máquinas virtuales con el VCB , el script (o archivo BAT) el parámetro -h apuntaba al virtual center, pero con algunas máquinas virtuales el VCB no realizó los backups enviando el siguiente mensaje de error not well-formed (invalid token), esto lo solucione apuntando el parámetro -h al host ESX correspondiente. (Si alguien conoce porque el mensaje de arriba, espero que me ayude a entenderlo).

Los backups se comenzaron a realizar a partir del mediodia (12 hrs) y el problema de la HA comenzo a manifestarse a partir de las 17 hrs.

Cada Host (ESX Server) tiene 6 tarjetas, formando 5 switch virtuales (uno de ellos con 2 tarjetas)

fmateo · ‎10-14-2008

Entiendo que anteriormente no habias hecho copias a traves del VCB. Buscando por ahi en el foro de vmware he encontrado este link donde aparece un problema similar con el vcbmounter: http://communities.vmware.com/message/829314#829314 El problema eran caracteres especiales introducidos en la VM, ya sea como nombre, comenarios, etc....

La red por donde realizas las copias de seguridad de las VMs es la misma que por donde se comunican el agente del ESX con la VC? Si es asi, es posible que, debido a la gran cantidad de tráfico haya perdido la comunicación con los ESX.

A mi me paso algo similar, pero al actualizar la VC. En el momento de levantar la VC despues de actualizarla, todos los ESX me dieron error de HA. Uno a uno fui reconfigurandolos y me fueron entrando en el Cluster, porque? Abrí un caso con vmware, y no me supieron decir porque, ya habia restaurado el estado de los servidores.

Si el error solo te aparecio un poco mas tarde de realizar los backups es posible que venga todo por lo mismo. Se han vuelto a poner en error de HA los servidores?

Ya me diras

Un saludo

PD: échale un ojo a este link, puede servirte de algo: http://communities.vmware.com/message/617884#617884

TurinTurambar · ‎10-14-2008

Hola a todos, completamente de acuerdo a lo que dice fmateo, yo he vivido un problema similar y la raíz de todo era una congestión en tráfico de red. Muchas veces damos poca importáncia a las VLANs donde tenemos las consolas de los ESX accesibles. Cuando se levanta el agente de HA en el ESX se producen varios tipos de tráfico, uno de los más importantes es un Heartbeat de seguimiento que se poduce entre los servidores (puedes identificar este tráfico buscando en la red paquetes que tengan como origen o destino los hosts ESX y los protocolos/puertos TCP/UDP 8042-8045 y TCP/UDP 2050-2250).

Bien, el problema radica en inundar esos segmentos de red e impedir el trafico de monitorización. De entrada se produce cada 1 segundo, y si su perdida es extrema (timeout por más de 15 segundos) las VMs del host son rearrancadas en otro ESX.

¿Cómo tienes configurada la acción de "host aislado" lo que VMware llama el "split-brain"? ¿Mantener las VMs en marcha, o apagarlas?

Puedes hacer un troubleshooting fuera de horas de producción : inundar tráfico en la VLAN de consola y observar que pasa.

Cuando se produzca el error en un host buscar en los logs del SC del servidor problemas relacionados con el hostd o con el vpx ... y a ver si hay suerte.

Por cierto, también me he encontrado el caso de problemas de este tipo tras hacer un upgrade del ViC, por ejemplo de 2.0 a 2.5, en este caso me ha hecho falta "destruir" completamente el cluster HA y volverlo a configurar de cero (espero que no sea tu caso).

Tambien puedes probar con utilizar más de una consola, defines una nueva en una red aislada entre los ESX y el ViC, y utilizando el parámetro avanzado das.allowNetwork les indicas a los ESX que este tipo de trafico debe ir solo por la consola aislada (utiliza este parametro con precaución, y documentate bien antes de cambiarlo, mira el PDF de resource_mgmt antes de tocarlo).

Bueno, espero que esto te sirva de algo.

Salu2.

Elias

All

HA agent on host cluster has an error