fmateo
Hot Shot
Hot Shot

Incidencias iSCSI - Qlogic HBA

Hola compañeros,

Antes de pasar una incidencia a vmware, prefiero preguntaros a vosotros, a ver si me podeis echar un cable. Inicialmente los servidores estaban en 3.5 update2

Mi situación es la siguiente: dispongo de un cluster de dos servidores ESX (modelo Dell PE2600), que estaban funcionando sin ningún problema con su volumen NFS. A raíz de tener una mejora en el storage, se decidió poner, mediante iSCSI 2 servidores de disco, que tienen la opción de réplica en caliente de manera síncrona y asíncrona (sanmelody). Para ello es necesario hacer una migración del servidor NFS actual a otro, ya que este será reutilizado como uno de los nodos del cluster de storage.

Primero de todo, intento configurar iSCSI por software. Después de configurarlo todo, presentarle las LUNs pertinentes a cada ESX, me decido a pasar alguna máquina. Para mi sorpresa que, al pasarla, el disco ha quedado corrupto. El sistema operativo no arranca, fallo al iniciar el sistema operativo, etc..... Intento modificar el fichero vmx, pero sin éxito. También probé a instalar de cero un sistema operativo pero ocurria lo mismo. Después de Nmil pruebas, ninguna ha sido exitosa. Después de haber revisado la configuración muchas veces, decido probar una tarjeta iSCSI por hardware (Qlogic modelo 4050C, como la que tengo en otros muchos servidores y me funciona de perlas). Después de pinchar la tarjeta, me dispongo a configurar el servidor ESX. Desconfiguro toda la parte de iSCSI por software dejando aparentemente limpio el sistema, y configuro la Qlogic.

Una vez configurada la tarjeta presento las LUNs al servidor ESX, las formateo y me dedico a instalar una VM nueva. Mientras la VM (un windows), se instala, de repente veo que la comunicación entre los servidores de disco y el ESX se pierde, perdiendo también la LUN donde instalaba la VM. Revisé todo el cableado, switches y conectividad, pero no veo el problema por ningún lado.

En una de esas fuí al servidor ESX, y me dí cuenta que, cuando esto ocurre la tarjeta Qlogic está como "apagada". Las luces de la tarjeta están todas apagadas. Pensando que podia ser un problema de versión de ESX, actualizo a versión 3.5 update 3. Vulevo a hacer la prueba y al cabo del rato me ocurre lo mismo. Ahora mismo estoy actualizando todos los parches de la version 3.5 update 3.

Decir que esta qlogic la he tenido funcionando en otro servidor sin ningun problema.

Si me podeis dar alguna pista por donde tirar.

Un saludo

Francesc

Tags (4)
0 Kudos
17 Replies
jose_maria_gonz
Virtuoso
Virtuoso

Hola Francesc

Quizás sea una pregunta tonta y ya lo habras chequeado pero has quequelado los log siguientes para tener mas pistas:

El log de la MV que falla al hacer la migracion:

vmware.log

Log del Service Console:

/var/log/messages

Mesajes VMkernel:

/var/log/vmkernel

/var/log/vmkwarning

Has visto algo raro en los logs anteriores?

Tiene pinta de ser un problema con la cabina de almacenamiento y time outs.!!!???

Puedes adjuntar los logs para echarles un vistazo?

Saludos,

Jose Maria Gonzalez,

El blog de Virtualizacion en Español

-


http://www.josemariagonzalez.es

http://www.josemariagonzalez.es/feed

http://twitter.com/jose_m_gonzalez

VMware vExpert 2009

-


If you find this or any other answer useful please consider awarding points by marking the answer helpful or correct.

0 Kudos
fmateo
Hot Shot
Hot Shot

Gracias por la respuesta, es lo que pensé en un prinicipio, por parte del fabricante me dicen que está bien hecha la instalación. Los switches en todo momento están bien, además son exclusivos para iSCSI.

Adjunto los logs.

Ya me daras tu opinion

Un saludo

Francesc

0 Kudos
jlmedina1
Enthusiast
Enthusiast

Preguntas del millón, socio:

¿Cómo pasaste las VM? ¿SVmotion?

SAN Melody es una capa software.... ¿qué hardware de almacenamiento tienes debajo?

¿electrónica de red subyacente?

Quedo a la espera de tu respuesta.

Un abrazo.

J. L. Medina - vExpert'09

http://bevirtual.blogspot.com

---- J.L. Medina - vExpert'09 http://bevirtual.blogspot.com
0 Kudos
jlmedina1
Enthusiast
Enthusiast

F.

Acabo de echar un ojo a los logs. Pinta a problema con la SAN. Cosas bastante raras:

- ESX no reconoce la ID de la LUN, indicándote no es capaz de obtener el LUN ID

- Parece que las reservas SCSI no van del todo bien.

No tengo experiencia con SANMelody... pero me dá en la nariz que algo tiene que ver en este entuerto.

Mi consejo:

- Montate un Openfiler (www.openfiler.com) y prueba a hacer lo mismo.

- Si no falla.... El problema está en la SAN.

Pregunta stúpida..... ¿No estarás usando Jumbo Frames?

Keep me informed!!

J. L. Medina - vExpert'09

http://bevirtual.blogspot.com

---- J.L. Medina - vExpert'09 http://bevirtual.blogspot.com
0 Kudos
fmateo
Hot Shot
Hot Shot

La máquina la pase en frio. La paré y hice un migrate. Solo hice una viendo el resultado. La pude restaurar gracias a las copias. El resto de pruebas han sido maquinas instaladas de cero con el windows o el linux a pelo. Nunca se me ha llegado a instalar ninguna bien, o si lo ha hecho al reiniciar nunca han arrancado. En todos los casos se han perdido la LUN.

El hardware que tengo por debajo de sanmelody son P4 a 3 GHz con 2,5GB de RAM (Serie 750 de Dell). Todos los discos son SCSI de 73GB y de 300GB hasta un total de 1 TB. Soy consciente de la que la maquina no es una pasada, pero he hecho pruebas con maquinas peores y no me han dado ningun problema. Como tarjetas de red estoy utilizando intel pro 1000 MT (una quad), en uno de los servidores, y en el otro una Intel pro 1000 MT , intel pro 1000 CT y una intel pro 1000 MT dual port

El switch usado para servir iSCSI es un dell 2716 a GB. Es exclusivo para ese trafico.

Los servidores son PE2600 Dual Intel Xeon a 2,4 Ghz (Suficientes para las maquinas que van a estar funcionando), con 6 GB de RAM. Hay un total de 2 servidores ESX.

Tengo incidencia abierta con Datacore por este tema, pero veo que se va a alargar mas de la cuenta.

Hay que decir que uno de los servidores SANmelody antes estaba funcionando como servidor NFS y no me estaba dando ningún problema. Mismo equipo, mismas tarjetas, mismo switches, lo que por NFS. Lo que no puedo entender que la qlogic "se le apaguen" las lucecitas de la tarjeta y se apague el puerto del switch. Ya he cambiado el cable de red y de puerto de switch. Solo me falta cambiar el switch. La tarjeta la he tenido funcionando en otro servidor durante 1 mes (mas o menos) y tampoco me ha dado problemas.

No estoy usando Jumbo Frames

Un saludo

0 Kudos
fmateo
Hot Shot
Hot Shot

Por si os puede servir de utilidad, he hecho un seguimiento del log del vmkernel y vmkwarning , ademas de hacer los respectivos pings entre las maquinas, os lo hepasado a fichero y os lo he adjuntado.

Esto es lo que me ha dado "tiempo" a hacer en la VM, hasta que se han perdido las LUNs:

rescaneo luns

agreo lun y formateo

creo maquina virtual

edito la VM

arranco la VM

instalando windows

creo particion

formateo particion

se copian los ficheros

se reinicia windows

entorno grafico y despues de unos minutos hace CRASH!!!!!

Mientras tanto he dejado haciendo unos pings: Por un lado, pings entre los dos servidores de storage (estan replicados): son los ficheros llamados iscsismcav1_sm2.txt y iscsismcav2_sm1.txt. Luego estan los pings hechos entre cada uno de los servidores de disco y los servidores de aplicaciones (ESX y se llaman iesxcav1 y iesxcav2), y son estos: iesxcav1_sm1.txt, iesxcav1_sm2.txt, y iesxcav2_sm1.txt y iesxcav2_sm2.txt.

Como se puede ver solo se pierde la comunicación con el servidor que estoy haciendo las pruebas con la qlogic.

En los switches no aparecen errores de red.

Aqui os lo adjunto todos los ficheros,

Un saludo y GRACIAS!!

0 Kudos
empezando
Contributor
Contributor

Buenas , perdonar que me meta pero la única vez que me paso algo parecido con el tema de ISCSI y el switch es que en el servidor se obligaba a trabajar a la tarjeta de red a una velocidad en concreto y el switch no era capaz de negociar con dicha configuración (tanto la tarjeta del servidor DL380G5 HP como el switch 2810 aparecían apagadas) la solución fue colocarlas en automático.

Saludos.

0 Kudos
jose_maria_gonz
Virtuoso
Virtuoso

Hola fmateo,

Perdona por el retraso en contestar y la pregunta tonta:

  • Has chequeado con el proveedor de las qlogic que tienes el ultimo firmware de la qlogic?

  • También has chequeado ellos si tienes los parámetros correctos de la BIOS de la qlogc?

Te lo pregunto porque muchos de los errores que he visto en el pasado con SANs es que las HBAs o tienen mal los settings de la BIOS o no tienen el ultimo firmware instalado.

Saludos,

Jose Maria Gonzalez,

El blog de Virtualizacion en Español

-


VMware vExpert 2009

-


If you find this or any other answer useful please consider awarding points by marking the answer helpful or correct.

0 Kudos
fmateo
Hot Shot
Hot Shot

Buenas,

He revisado la configuración de la tarjeta qlogic y la del switch. Ambos trabajan en modo automatico. No he probado a forzar la velocidad.

"La pregunta tonta", no es tan tonta, me fijé en el hardware soportado por vmware, y en efecto la tarjeta qlogic está soportada, pero, para versión 3.5 u3 de vmware lo está a partir de cierto firmware. Estoy pendiente de revisarlo, seguramente lo haga el miercoles, que iré al centro en cuestión.

También comentar que esta tarjeta la he tenido funcionando en un ESX 3i u3 i no me había dado ninguno de estos problemas. Es más, para descartar la cabina de discos, me he bajado el servidor con 3i, que tenía en mi centro (era de test), y lo probaré el mismo miércoles.

Ya os contaré que tal.

Un saludo y Gracias!!

Francesc

0 Kudos
fmateo
Hot Shot
Hot Shot

Hola a todos,

Bueno, ya hecho bastantes pruebas ya y creo que he llegado a la conclusión que la tarjeta qlogic está "rota". Tal y como os comenté, la tarjeta se apagaba aleatoriamente (bueno, las luces se apagaban), dejando así al ESX un poco descolocado. Probé la tarjeta en otro servidor y pasó exactamente lo mismo. Hice la misma prueba en ese servidor con una tarjeta ethernet y no hubo ningún problema, tanto la configuración iSCSI como el storage me están funcinando bien desde hace un par de dias. De todas formas ahora no estan configurados los servidores con los que ha de trabajar ese storage, así que procederé a configurarlos y os comentaré que tal ha ido.

Un saludo

0 Kudos
jose_maria_gonz
Virtuoso
Virtuoso

Hola

Has probado a actualizar el firmware de la HBA? De esta forma también podrías descartar que el problema no está en el firmware de la HBA.

Te lo pregunto porque hace tiempo tuve un problema similar. Buen este problema era algo mas aleatorio. Todo funcionaba fenomenalmente bien y de repente , la SAN se nos caía una vez al mes!!!!.

Al final conseguimos descubrir que era un bug en las tarjetas HBAs de qlogic (2360 - si no recuerdo mal). Después de reportar el error al proveedor y de actualizar el firmware todo se arreglo.

Saludos,

Jose Maria Gonzalez,

El blog de Virtualizacion en Español

-


http://www.josemariagonzalez.es

VMware vExpert 2009

-


If you find this or any other answer useful please consider awarding points by marking the answer helpful or correct.

0 Kudos
fmateo
Hot Shot
Hot Shot

Hola,

No lo he probado. Miraré de actualizarlo. Miré las HCL de vmware y el firmware que requería la tarjeta era correcto. De todas formas cuando tenga la tarjeta en mi oficina probaré a hacer la actualización del firmware.

Un saludo

0 Kudos
fmateo
Hot Shot
Hot Shot

Hola otra vez,

Ahora me encuentro configurando los servidores en producción. Estos van a ir con iSCSI por software. Para ello he creado otro virtual switch con el vmkernel y la consola de servicio que ESX necesita para poder establecer la conexión al storage. No sé si es suerte o desgracia, pero este es el primero que configuro por software en un ESX 3.5.

Actualmente las pruebas que hice con el ESXi fueron tb con iSCSI por software y, a parte que no llevan SC adicional, me funcionan correctamente. Creé un par de volumenes con dos máquinas, una en cada volumen. Estas son windows, y estan para probar. Las tengo funcionando en el ESXi, y todo va bien.

He mapeado estos dos volumenes al servidor en producción (el procedimiento ha sido correcto). El servidor tiene las dos LUNs. En el servidor ESXi he parado una de ellas, la he quitado del inventario y he intentado añadir la VM al servidor en producción (No los tengo en cluster ni en la misma VC, el ESXi esta en modo standalone). En ese momento me aparece un mensaje de error: "Unable to access the virtual machine configuration: Invalid datastore path: 'sanfs://vmfs_uuid:numero uuid/wintest24/wintest24.vmx'". He vuelto a mapear la VM en el ESXi y todo bien.

A que puede ser debido este error?

La configuración del servidor es esta:

1 tarjeta Service Console (ip 10.0.0.X/255.255.255.0)

1 tarjeta para trafico VM

1 tarjeta para vmotion (ip 10.0.1.X/255.255.255.248)

1 tarjeta para vmkernel nfs (ip 10.0.2.X/255.255.255.248)

1 tarjeta para vmkernel iSCSI y Service Console iSCSI (ip 10.0.2.X/255.255.255.248)

El vmkernel iSCSI y la SC iSCSI tienen ips de diferente rango que la SC inicial. Esta configuracion es posible en ESX 3.5?

Este es el problema que me encontré inicialmente, por eso intenté poner la qlogic por hardware.

Gracias por vuestra ayuda

0 Kudos
jose_maria_gonz
Virtuoso
Virtuoso

Hola fmateo,

Efectivamente. ESXi no necesita un Service console port group adicional como en ESX

En referencia al error que comentas, lo he visto anteriormente.

Yo solucione el problema registrando la maquina virtual desde el service consle con el siguiente comando:

vmware-cmd -s register /path/maquina_virtual.vmx

Saludos,

Jose Maria Gonzalez,

El blog de Virtualizacion en Español

-


http://www.josemariagonzalez.es

VMware vExpert 2009

-


If you find this or any other answer useful please consider awarding points by marking the answer helpful or correct.

fmateo
Hot Shot
Hot Shot

Hola,

Disculpad el retraso pero he estado algo liado con otros temas. Bueno hemos conseguido resolver el problema. Por un lado la tarjeta Qlogic no estaba funcionando bien. Como a priori no iba a ir con tarjetas HBA, sino por iSCSI por software, se cambiaron las NICs dedicadas a ello. Después de diversas pruebas con los volúmenes de la SAN y estas nuevas NICs, parece que ahora todo va correcto.

Muchas Gracias por vuestra ayuda.

Un saludo

0 Kudos
jose_maria_gonz
Virtuoso
Virtuoso

Enhorabuena, me alegro que todo te funcione ahora perfectamente.

Al final por lo que comentas Mateo, parece que fue un fallo de hardware de la HBA, si no me equivoco, verdad?

Saludos,

Jose Maria Gonzalez,

El blog de Virtualizacion en Español

-


VMware vExpert 2009

-


If you find this or any other answer useful please consider awarding points by marking the answer helpful or correct.

[http://twitter.com/jose_m_gonzalez|http://feedproxy.google.com/ElBlogDeVirtualizacionEnEspanol]

0 Kudos
fmateo
Hot Shot
Hot Shot

En efecto, en un primer momento había en el servidor una tarjeta ethernet que no se correspondia con el driver que vmware le habia asociado, con lo que me hacía demasiadas "cosas raras". El uuid de la LUN cambiaba sin motivo, no funcionaba el vmotion, en fin un desastre. Por ese motivo decidí probar con una HBA que tenia en otro servidor funcionando pero con la mala suerte de que "se estropeo" en el traslado Smiley Sad A raíz de ahi y de hacer diversas pruebas llegué a la conlusión que se había estropeado, y no dudé en comprar otra NIC, esta vez soportada por vmware (una intel 1000 de toda la vida), y todo fué sobre ruedas. Al final el storage no ha dado ningún problema.

La verdad que mi compañero y yo hemos tenido demasiados dolores de cabeza con este tema y hemos perdido mucho tiempo haciendo pruebas. En fin, menos mal que se ha solucionado el problema.

Un saludo

0 Kudos