Lost Storage Connectivity

aribeiroba · ‎07-14-2014

Bom dia!

Estou com duvidas do que seja esse alarme que recebo:

Target: guaibim

Stateless event alarm

Alarm Definition:

([Event alarm expression: Lost Storage Connectivity] OR [Event alarm expression: Lost Storage Path Redundancy] OR [Event alarm expression: Degraded Storage Path Redundancy])

Event details:

Lost connectivity to storage device naa.500143801603fad9. Path vmhba2:C0:T2:L0 is down. Affected datastores: Unknown.

rcporto · ‎07-14-2014

A mensagem está informando que o seu host perdeu acesso ao disco naa.500143801603fad9 através do caminho vmhba2:C0:T2:L0, já o motivo deve ser investigado.

Você tem como fornecer mais detalhes de sua infraestutura, principalmente da parte de armazenamento ?

---

Richardson Porto
Senior Infrastructure Specialist
LinkedIn: http://linkedin.com/in/richardsonporto

aribeiroba · ‎07-16-2014

Estou com 3 Host Vmware HP, ligado ao Switch San via fibra, e esse erro acontece nos três hosts ao mesmo tempo.

ncaio · ‎07-16-2014

Tudo aponta para um erro físico de comunicação com sua SAN. Não tem como adivinhar como é sua estrutura, mas geralmente existem mais de uma HBA no storage. Seria interessante você ir nos storages e coletar avisos que possam te levar até o erro. Em paralelo, você pode ativar o round-robin para ter mas de um canal de I/O ativo. Existem várias bases de conhecimento Vmware sobre como ativar o round-robin. Em outra linha de frente, fazer um diagnostico nas conexões físicas nas interfaces, pigtails e fibras. Essa perda de comunicação pode impactar em hosts com FS mais sensíveis, que entram em modo proteção (read only). Seria uma boa você auditar e verificar o impacto nas VMs. Via acesso ssh aos hosts, roda o comando dmesg e procure por informações referentes ao teu problema.

Att

Noilson Caio

rcporto · ‎07-16-2014

O problema pode ser ocasionado tanto por mau funcionamento de algum componente físico como também pode ser devido a problemas de desempenho.

Para facilitar no troubleshooting, primeiro verifique se os erros acontecem sempre em um mesmo horário, e tente coletar eventos no mesmo horário dos seguintes componentes:

1. switch SAN;

2. storage;

Logicamente, para ter uma maior precisão é importante que os hosts, switches e storage possuam sincronia com o mesmo NTP server, se eles já não estão, faça o quanto antes, pois isso vai facilitar sua vida depois, no que diz respeito a correlacionar eventos.

Além de verificar os componentes físicos, conforme recomendado no post anterior, tente extrair relatórios de performance dos switches SAN e do storage, ou até mesmo monitorar em tempo real para ver como está a taxa de utilização das portas do switches SAN e das controladoras do storage, pois se as portas estiverem com alta utilização e o storage com o I/O muito elevado, talvez isso impacte no tempo de resposta do storage para os hosts e consequentemente os mesmos irão reportar perda de acesso ao volumes.

Sobre mudar o algoritmo de acesso ao storage nos hosts, eu recomendo primeiro você verificar a documentação do seu storage e quais são as recomendações para o ambiente VMware, pois nem todo storage suporta o Round Robin.

Por fim, você pode verificar o seguinte artigo, onde existem mais algumas dicas de como realizar o troubleshooting para o seu problema: Lost or degraded connectivity to storage device (1009553)

---

Richardson Porto
Senior Infrastructure Specialist
LinkedIn: http://linkedin.com/in/richardsonporto

All

Lost Storage Connectivity