VMware Global Community
Chimbida
Contributor
Contributor

Perca de comunicação das VMs com a Rede.

Pessoal...

Tenho um blade da Dell (M1000e) com 2 laminas. Estava rodando o ESXi 5.1 e fiz a atualização em um dos HOSTS para o 5.5 e minhas VMs (mesmo as recém criadas) perdem a comunicação com a rede, ficam limitadas as VM que estão no vSwitch do HOST em questão.

Se migrar as VMs para o 5.1 começam a funcionar, se volto da o problema novamente, consigo fazer a rede funcionar só quando mudo a VM para outro Port Group e volto ( as vezes tenho que fazer 2 ou 3 vezes para começar a funcionar )!

Recentemente apliquei o Update 1 do 5.5 e todos os patchs com o Update Manager.

obs.: VMs já na versão 10, VMware Tools atualizado, problema ocorre tanto com o adaptador E1000 como o VMEXNET 3

Alguém sabe como posso resolver?

15 Replies
rcporto
Leadership
Leadership

A única mudança que ocorreu foi a atualização dos hosts para a versão 5.5 ?

Se você estiver utilizando VLAN, um dos provaveis problemas pode ser erros de configuração nos switches físicos, ou seja, uma dar interfaces físicas onde se conecta a lâmina permitir o trafego de determinada VLAN e a outra não... e quando você muda de Port Group e volta, talvez a VM utilize uma das interfaces que onde a VLAN é permitida.

Me fala mais detalhes da sua infraestrutura de rede, como por exemplo, quais port groups você possui, se estão com diferentes VLANs e diferentes subnets... e qual o switch do blade.

---

Richardson Porto
Senior Infrastructure Specialist
LinkedIn: http://linkedin.com/in/richardsonporto
Chimbida
Contributor
Contributor

O problema surgiu quando atualizei para a 5.5, cheguei até a fazer um instalação limpa para ver se resolvia!

Os switchs do blade são Force10 MXL 10/40GbE ( o switch core também esta em Stack )

Capture2.PNG

Tenho 4 interfaces nesse vSwitch e acabei de dar uma olhada, para desencargo consciência, e não tenho nenhuma VLANs configurada!

Capture.PNG

As configurações dos switchs, vSwitchs, port group, vlans esta exatamente iguais nos 2 HOSTS! Só tenho VLAN para o vMotion e outra para o iSCSI e estão OK.

Reply
0 Kudos
Chimbida
Contributor
Contributor

Bem, como já tinha algumas VM na versão 10, precisei atualizar o outro HOST 5.1 ( que não tinha o problema ) para a 5.5 Update 1.

Depois de 1 dia trabalhando normal tive 3 VMs que perderam a comunicação com a rede, reboot da VM não resolve, desabilitar e habilitar a conexão também não, o que resolve é trocar algumas vezes as interfaces da VM de port groups!

Alguém tem alguma ideia do que pode ser?

Reply
0 Kudos
rcporto
Leadership
Leadership

Cara,

Muito estranho o comportamento das VMs, principalmente pelo fato da única mudança "conhecida" ter sido apenas a atualização da versão 5.1 para 5.5... de qualquer forma, você poderia me confirmar as seguintes configurações:

1. qual a politica de load balancing que você está usando no Port Group das VMs ? Port ID, IP Hash ?

2. os switches do blade estão em stack ?

3. você falou que o switch core LAN estava em stack, mas na figura mostra stack apenas no switches 6224 (da rede iSCSI) ?

4. sabe informar se o Spanning Tree está habilitado nos switches do blade e no core ?

5. qual a chance de você postar as configuração dos switches do blade e do core em formato TXT ?

---

Richardson Porto
Senior Infrastructure Specialist
LinkedIn: http://linkedin.com/in/richardsonporto
MauroBonder
VMware Employee
VMware Employee

Chegou a validar se o hardware é compatível com 5.5 ?

Verifique no site abaixo se há alguma restrição.

http://www.vmware.com/resources/compatibility/search.php

*Please, don't forget the awarding points for "helpful" and/or "correct" answers. *Por favor, não esqueça de atribuir os pontos se a resposta foi útil ou resolveu o problema.* Thank you/Obrigado
Chimbida
Contributor
Contributor

Também acho muito estranho, pior que atualizei não por necessidade, pois o 5.1 esta 100% para mim!

1. qual a politica de load balancing que você está usando no Port Group das VMs ? Port ID, IP Hash ?

  • Tinha o Load Balance em 2 port groups neste vSwitch, mas acabei desabilitando todos para ver se meu problema parava, não adiantou!
  • O vSwitch1 ( o que ocorre o problema ) tem 4 placas de rede, Security esta "accept" para todos e as configurações de Teaming e Failover são:

                                                  Capture3.PNG

2. os switches do blade estão em stack ?

  • Sim!


3. você falou que o switch core LAN estava em stack, mas na figura mostra stack apenas no switches 6224 (da rede iSCSI) ?

  • O core LAN também esta em stack, eu que esqueci de colocar na imagem!

4. sabe informar se o Spanning Tree está habilitado nos switches do blade e no core ?

  • Sim, esta habilitado e é o mesmo para o core e para os do blade


5. qual a chance de você postar as configuração dos switches do blade e do core em formato TXT ?

  • Posso, posto assim que tiver acesso.


E Richardson, muito obrigado por tentar me ajudar!

Reply
0 Kudos
Chimbida
Contributor
Contributor

Mauro,

Já verifiquei antes de fazer o update e o hardware é compatível!

Também tentei com a ISO do ESXi 5.5 U1 que a própria Dell disponibiliza para meu hardware.

Obrigado!

Reply
0 Kudos
Chimbida
Contributor
Contributor

Richardson...

Segue em anexo a configuração do MXL-Force10 do Blade.

Reply
0 Kudos
Chimbida
Contributor
Contributor

Também criei Port Groups forçando o uso de somente uma interface de rede por vez.

No primeiro teste falhou a vmnic4 e vmnic7 e depois de alternar entre as outras elas começaram a funcionar normalmente!

Smiley Sad

Reply
0 Kudos
rcporto
Leadership
Leadership

Cara, o firmware dos componentes (incluindo placas de rede) das lâminas estão atualizados ?

---

Richardson Porto
Senior Infrastructure Specialist
LinkedIn: http://linkedin.com/in/richardsonporto
Chimbida
Contributor
Contributor

Logo que atualizei o primeiro host para a 5.5 e o problema começou fiz uma atualização geral das laminas, blade, storage e todos os switchs da rede!

O ESXI e o vCenter também estão atualizados!

Coisa que não comentei mas não acho que seja problema é o fato destes 2 hosts ESXi estarem rodando em um SD Card.

Fiz testes desta forma: Troubleshooting Network Teaming Problems in ESX/ESXi | VMware Support Insider - VMware Blogs

E também com os comandos:

esxcli network nic down -n vmnicX

esxcli network nic up -n vmnicX

O problema ocorre, mas de cada 8 tentativas de forçar o uso de uma interface 1 da problema.

O problema também ocorreu quando estava criando novos Port Groups neste vSwitch.

E em geral, são 1 ou 2 VMs que perdem a rede por vez... as mais recorrentes são as que rodam o W2K12R2 ( chegou a 7 vezes em um dia ), mas ocorre no GNU/Linux, FreeBSD e OpenBSD também!

Também já tentei alterar o tipo ( VMXNET3 e E1000 ) das interfaces de rede das VMs mas não resolveu.

Reply
0 Kudos
rcporto
Leadership
Leadership

Realmente um problema bem estranho... e dei uma verificada na configuração dos switches do blade e parecem consistentes... por isso, se não já fez, recomendo abrir chamado junto a VMware e se possivel envolver a Dell também.

---

Richardson Porto
Senior Infrastructure Specialist
LinkedIn: http://linkedin.com/in/richardsonporto
Chimbida
Contributor
Contributor

Richardson...

É estranho mesmo, mas vou fazer isso pois os meus outros 2 clusters já estão no limite e preciso colocar algumas VMs em produção nestes hosts.

Obrigado pela ajuda, novidades posto aqui!

Reply
0 Kudos
ncaio
Enthusiast
Enthusiast

Chimbida, tú chegou a habilitar o network I/O control no vds ? Se sim, verifica, faz um teste habilitando ou desabilitando. Já que este seu problema tá bem estranho =]

Outra, talvez os drivers sejam diferentes nas versões. esxcli network vswitch dvs vmware list

Faz um comparativo

Reply
0 Kudos
admin
Immortal
Immortal

Chimbida, voce possívelmente já resolveu esse problema, mas caso não, meu palpite é que isso é configuração do loadbalancer.

Eu desmancharia o team, deixaria só com uma placa de rede de uplink o vDS e ai testaria o comportamento. Se parar a perda de conexão, bingo.

Ai então reconfiguraria o TEAM.

BTW, a polícia de load balance recomendada para vDS é Route based on Physical NIC load.

Aqui uma explicação de como elas funcionam: http://www.vmwarearena.com/2014/02/vsphere-distributed-switch-part-19.html

E aqui as recomendações: http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=100193...

E por favor informe caso tenha resolvido o problema!

Reply
0 Kudos