Erro "Lost Conectivity..." no ESX 4.1 U1

MarcosMadeira · ‎05-23-2011

Bom dia a todos, é meu primeiro post no fórum.

Estamos iniciando a utilização de VM's e estamos com problema ao qual ainda não encontramos solução:

Nos eventos do VSphere Client aparece a seguinte mensagem de erro pro Host:

"Lost conectivity to storage device naa.xxx. Path vmhba2:C0:T0:L0 is down. Affected datastores: "datastore1".

Normalmente 1 segundo depois aparece a seguinte mensagem:

"Conectivity do storage device naa.xxx (Datastores: "datastore1") restored. Path vmhba2:C0:T0:L0 is active again."

O que percebemos foi que depois deste erro as VM's começaram a apresentar lentidão intermitente, este erro ocorre várias vezes ao dia.

Nosso ambiente:

- HP Proliant ML150 G6

- 2 Processadores Xeon Quad E5504

- Controladora de discos HP P410

- 4 discos SATA II 250 GB em RAID 1+0

- Um dos discos foi trocado após a instalação. O disco foi trocado a frio e não em hot-swap.

- Temos duas VM's, uma com WinServer2003 STD - com TS e uma com CentOS 5.6 com Zimbra Mail 7.1.

Espero contar com a ajuda dos colegas.

PS: Já contatamos a HP que não encontrou defeito de Hardware.

Marcos Madeira

dquintana · ‎05-23-2011

Hello MarcosMadeira,

Do you check in the vmware HCL if this server is supported?

I dont see this in

http://www.vmware.com/resources/compatibility/search.php?action=search&deviceCategory=server&product...[]=-1&datePosted=-1&partnerId[]=41&formFactorId[]=-1&filterByEVC=0&filterByFT=0&min_sockets=&min_cores=&min_memory=&rorre=0

Diego Quintana

Ing. Diego Quintana - VMware Communities Moderator - Co Founder & CEO at Wetcom Group - vEXPERT From 2010 to 2020- VCP, VSP, VTSP, VAC - Twitter: @daquintana - Blog: http://www.wetcom.com-blog & http://www.diegoquintana.net - Enjoy the vmware communities !!!

MarcosMadeira · ‎05-23-2011

Hello Diego, thank you for your reply.

Yes, I did.

In the url wich do you refer, this server is the first result:

Partner Name	Model	CPU Series	Supported Releases
HP	ProLiant ML150 G6	Intel Xeon 55xx Series	ESX 4.1 U1, ESX 4.1, ESX 4.0 U3, ESX 4.0 U2, ESX 4.0 U1, ESX 4.0

Kind regards.

Marcos Madeira

mister669 · ‎05-23-2011

Olá colega, estou com as mesmas msgs aqui no ambiente, estou usando o RoundRobin como método de acesso ao storage (EVA4xxx), e vc?

Tem um FAQ da VMWARE aqui: http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=100955...

Cheque também a latência dos seus datastores e compartilhe conosco.

Com certeza é relacionado à infra-estrutura de SAN.

Abrs.

MarcosMadeira · ‎05-24-2011

Bom dia Mister669,

Não é nosso caso, aqui estamos usando discos locais, com uma controladora Smart Array HP P410 e discos SATA.

Também tem um FAQ no KB que fala sobre isto, talvez possa te ajudar: http://kb.vmware.com/selfservice/microsites/search.do?cmd=displayKC&externalId=1009553

Nos momentos em que ocorrem o erro a latência chega a 3000 milisegundos e as VM's ficam muito lentas, o tempo de resposta é perceptivel, pois, um simples comando ls no Linux demora a responder.

Estou ficando sem opções e preciso migrar um servidor de e-mail, espero que alguém tenha uma luz pra nos dar.

Abs.

Marcos

mister669 · ‎05-24-2011

Colega, o método de acesso ao Path é RoundRobin mesmo? Aqui o tempo não chega a ser tão alto, mas com absoluta certeza essa sua Smart Array está sobrecarregada.... Ela tem cache? Bateria ok?

Monitore o Average de Write e Read nestas suas duas VM's... nos passe suas taxas médias para compararmos, tenho essa controladora aqui também...

Att

MarcosMadeira · ‎05-27-2011

Olá Mister669, o metódo de acesso estava Fixed, mudei para RoundRobin e a latência diminuiu, mas continuou dando erro, hoje instalamos um módulo de memória cache na controladora P410 (não tinha cache) e as mensagens de erro terminaram.

Agradeço pela ajuda.

Atte,

Marcos Madeira

All

Erro "Lost Conectivity..." no ESX 4.1 U1