Pessoal...
Tenho um blade da Dell (M1000e) com 2 laminas. Estava rodando o ESXi 5.1 e fiz a atualização em um dos HOSTS para o 5.5 e minhas VMs (mesmo as recém criadas) perdem a comunicação com a rede, ficam limitadas as VM que estão no vSwitch do HOST em questão.
Se migrar as VMs para o 5.1 começam a funcionar, se volto da o problema novamente, consigo fazer a rede funcionar só quando mudo a VM para outro Port Group e volto ( as vezes tenho que fazer 2 ou 3 vezes para começar a funcionar )!
Recentemente apliquei o Update 1 do 5.5 e todos os patchs com o Update Manager.
obs.: VMs já na versão 10, VMware Tools atualizado, problema ocorre tanto com o adaptador E1000 como o VMEXNET 3
Alguém sabe como posso resolver?
A única mudança que ocorreu foi a atualização dos hosts para a versão 5.5 ?
Se você estiver utilizando VLAN, um dos provaveis problemas pode ser erros de configuração nos switches físicos, ou seja, uma dar interfaces físicas onde se conecta a lâmina permitir o trafego de determinada VLAN e a outra não... e quando você muda de Port Group e volta, talvez a VM utilize uma das interfaces que onde a VLAN é permitida.
Me fala mais detalhes da sua infraestrutura de rede, como por exemplo, quais port groups você possui, se estão com diferentes VLANs e diferentes subnets... e qual o switch do blade.
O problema surgiu quando atualizei para a 5.5, cheguei até a fazer um instalação limpa para ver se resolvia!
Os switchs do blade são Force10 MXL 10/40GbE ( o switch core também esta em Stack )
Tenho 4 interfaces nesse vSwitch e acabei de dar uma olhada, para desencargo consciência, e não tenho nenhuma VLANs configurada!
As configurações dos switchs, vSwitchs, port group, vlans esta exatamente iguais nos 2 HOSTS! Só tenho VLAN para o vMotion e outra para o iSCSI e estão OK.
Bem, como já tinha algumas VM na versão 10, precisei atualizar o outro HOST 5.1 ( que não tinha o problema ) para a 5.5 Update 1.
Depois de 1 dia trabalhando normal tive 3 VMs que perderam a comunicação com a rede, reboot da VM não resolve, desabilitar e habilitar a conexão também não, o que resolve é trocar algumas vezes as interfaces da VM de port groups!
Alguém tem alguma ideia do que pode ser?
Cara,
Muito estranho o comportamento das VMs, principalmente pelo fato da única mudança "conhecida" ter sido apenas a atualização da versão 5.1 para 5.5... de qualquer forma, você poderia me confirmar as seguintes configurações:
1. qual a politica de load balancing que você está usando no Port Group das VMs ? Port ID, IP Hash ?
2. os switches do blade estão em stack ?
3. você falou que o switch core LAN estava em stack, mas na figura mostra stack apenas no switches 6224 (da rede iSCSI) ?
4. sabe informar se o Spanning Tree está habilitado nos switches do blade e no core ?
5. qual a chance de você postar as configuração dos switches do blade e do core em formato TXT ?
Chegou a validar se o hardware é compatível com 5.5 ?
Verifique no site abaixo se há alguma restrição.
http://www.vmware.com/resources/compatibility/search.php
Também acho muito estranho, pior que atualizei não por necessidade, pois o 5.1 esta 100% para mim!
1. qual a politica de load balancing que você está usando no Port Group das VMs ? Port ID, IP Hash ?
2. os switches do blade estão em stack ?
3. você falou que o switch core LAN estava em stack, mas na figura mostra stack apenas no switches 6224 (da rede iSCSI) ?
4. sabe informar se o Spanning Tree está habilitado nos switches do blade e no core ?
5. qual a chance de você postar as configuração dos switches do blade e do core em formato TXT ?
E Richardson, muito obrigado por tentar me ajudar!
Mauro,
Já verifiquei antes de fazer o update e o hardware é compatível!
Também tentei com a ISO do ESXi 5.5 U1 que a própria Dell disponibiliza para meu hardware.
Obrigado!
Também criei Port Groups forçando o uso de somente uma interface de rede por vez.
No primeiro teste falhou a vmnic4 e vmnic7 e depois de alternar entre as outras elas começaram a funcionar normalmente!
Cara, o firmware dos componentes (incluindo placas de rede) das lâminas estão atualizados ?
Logo que atualizei o primeiro host para a 5.5 e o problema começou fiz uma atualização geral das laminas, blade, storage e todos os switchs da rede!
O ESXI e o vCenter também estão atualizados!
Coisa que não comentei mas não acho que seja problema é o fato destes 2 hosts ESXi estarem rodando em um SD Card.
Fiz testes desta forma: Troubleshooting Network Teaming Problems in ESX/ESXi | VMware Support Insider - VMware Blogs
E também com os comandos:
esxcli network nic down -n vmnicX
esxcli network nic up -n vmnicX
O problema ocorre, mas de cada 8 tentativas de forçar o uso de uma interface 1 da problema.
O problema também ocorreu quando estava criando novos Port Groups neste vSwitch.
E em geral, são 1 ou 2 VMs que perdem a rede por vez... as mais recorrentes são as que rodam o W2K12R2 ( chegou a 7 vezes em um dia ), mas ocorre no GNU/Linux, FreeBSD e OpenBSD também!
Também já tentei alterar o tipo ( VMXNET3 e E1000 ) das interfaces de rede das VMs mas não resolveu.
Realmente um problema bem estranho... e dei uma verificada na configuração dos switches do blade e parecem consistentes... por isso, se não já fez, recomendo abrir chamado junto a VMware e se possivel envolver a Dell também.
Richardson...
É estranho mesmo, mas vou fazer isso pois os meus outros 2 clusters já estão no limite e preciso colocar algumas VMs em produção nestes hosts.
Obrigado pela ajuda, novidades posto aqui!
Chimbida, tú chegou a habilitar o network I/O control no vds ? Se sim, verifica, faz um teste habilitando ou desabilitando. Já que este seu problema tá bem estranho =]
Outra, talvez os drivers sejam diferentes nas versões. esxcli network vswitch dvs vmware list
Faz um comparativo
Chimbida, voce possívelmente já resolveu esse problema, mas caso não, meu palpite é que isso é configuração do loadbalancer.
Eu desmancharia o team, deixaria só com uma placa de rede de uplink o vDS e ai testaria o comportamento. Se parar a perda de conexão, bingo.
Ai então reconfiguraria o TEAM.
BTW, a polícia de load balance recomendada para vDS é Route based on Physical NIC load.
Aqui uma explicação de como elas funcionam: http://www.vmwarearena.com/2014/02/vsphere-distributed-switch-part-19.html
E aqui as recomendações: http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=100193...
E por favor informe caso tenha resolvido o problema!