SergOO
Enthusiast
Enthusiast

Пропала сеть на ESX 4.1 и VM

Приветствую!

На хосте, где установлен ESX 4.1, пропала сетевая доступность как на управляющий так и на VMs, спустя 5 минут ESX и VMs стали доступны по сети. Сервера не перезагружались, гипервизор не перезагружался (uptime 19:54:27 up 91 days) Схема сетевых адаптеров такая: на vmnic1Service console, на  vmnic3 - vmotion и на 2-х vmnic0, vmnic2 висят все остальные виртуалки.Настроен distributed switch.В данный момент, насколько мне известно, никто ничего не настраивал на гипервизоре.

Подскажите, на что нужно в первую очередь обратить внимание на гипервизоре, чтоб исключить или выявить проблему самого ESX 4.1!

Со стороны сети на оборудовании, у меня нету возможности рассмотреть проблему, так она не в нашем управлении.

# esxcfg-nics -l

Name    PCI           Driver      Link Speed     Duplex MAC Address       MTU    Description

vmnic0  0000:02:00.00 bnx2x       Up   1000Mbps  Full   3c:4a:92:6f:d8:00 1500   Broadcom Corporation NetXtreme II 57711E/NC532i 10Gigabit Ethernet

vmnic1  0000:02:00.01 bnx2x       Up   1000Mbps  Full   3c:4a:92:6f:d8:04 1500   Broadcom Corporation NetXtreme II 57711E/NC532i 10Gigabit Ethernet

vmnic2  0000:07:04.00 tg3         Up   1000Mbps  Full   68:b5:99:bc:49:a0 1500   Broadcom Corporation NC326m PCIe Dual Port Adapter

vmnic3  0000:07:04.01 tg3         Up   1000Mbps  Full   68:b5:99:bc:49:a1 1500   Broadcom Corporation NC326m PCIe Dual Port Adapter

cat /var/log/messages

Oct 16 17:06:39 ESX-09 ftProcMon[17914]: Pinging isolation address 192.168.129.161: FAILURE

Oct 16 17:06:39 ESX-09 ftProcMon[17914]: This node is network isolated.

Oct 16 17:07:52 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-dns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: Stack Trace:

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]:  /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/domainjoin/libdomainjoin/src/djauthinfo.c:1005

Oct 16 17:09:27 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-dns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: Stack Trace:

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]:  /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/domainjoin/libdomainjoin/src/djauthinfo.c:1005

Oct 16 17:11:22 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-dns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: Stack Trace:

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]:  /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/domainjoin/libdomainjoin/src/djauthinfo.c:1005

Oct 16 17:11:42 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-dns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:11:42 ESX-09 lsassd[7381]: 0xf7d6ab90:Failed to sync system time [error code: 9502]

cat /var/log/vmkernel | grep vmnic

пусто

0 Kudos
7 Replies
VTsukanov
Virtuoso
Virtuoso

1) Я обычно начинаю с логов сетевого оборудования

2) Ну а на стороне ESXi для начала попробуйте локализовать время

cat /var/log/vmkernel.log | grep "NIC Link is Down"

&

cat /var/log/vmkernel.log | grep "NIC Link is Up"

И вытащите все логи начиная за 5 мин до того как

Дальше разбирайтесь были ли на стороне ESXi error или fail незадолго до того как пропал линк

:smileyplus:

Ну и коллеги подсказали что на 4.x c Broadcom было такое VMware KB: ESX/ESXi host loses network connectivity with a Broadcom bnx2 driver FTQ dump

0 Kudos
SergOO
Enthusiast
Enthusiast

Спасибо за отклик!

Сетевики говорят, что все в порядке и ошибок нету.

А что за "Oct 16 17:01:01 ESX-09 syslogd 1.4.1: restart." Это не повлияло?


Вот что есть:

Oct 16 16:58:56 ESX-09 last message repeated 2 times

Oct 16 17:00:56 ESX-09 last message repeated 2 times

Oct 16 17:01:01 ESX-09 syslogd 1.4.1: restart.

Oct 16 17:01:01 ESX-09 syslogd 1.4.1: restart.

Oct 16 17:01:57 ESX-09 nssquery: Group lookup failed for 'DOMAIN\ESX Admins'

Oct 16 17:02:57 ESX-09 nssquery: Group lookup failed for 'DOMAIN\ESX Admins'

Oct 16 17:04:57 ESX-09 last message repeated 2 times

Oct 16 17:05:57 ESX-09 nssquery: Group lookup failed for 'DOMAIN\ESX Admins'

Oct 16 17:06:39 ESX-09 ftProcMon[17914]: Pinging isolation address 172.17.129.161: FAILURE

Oct 16 17:06:39 ESX-09 ftProcMon[17914]: This node is network isolated.

Oct 16 17:07:52 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-d

ns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: Stack Trace:

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]:  /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/domainjoin/libdomainjoin/

src/djauthinfo.c:1005

Oct 16 17:09:27 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-d

ns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: Stack Trace:

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]:  /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/domainjoin/libdomainjoin/

src/djauthinfo.c:1005

Oct 16 17:11:22 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-d

ns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: Stack Trace:

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]:  /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/domainjoin/libdomainjoin/

src/djauthinfo.c:1005

Oct 16 17:11:42 ESX-09 netlogond[7419]: [LWNetDnsQueryWithBuffer() /build/mts/release/bora-427493/likewise/esxi-esxi/src/linux/netlogon/utils/lwnet-d

ns.c:1185] DNS lookup for '_ldap._tcp.dc._msdcs.my.domain' failed with errno 110, h_errno = 2

Oct 16 17:11:42 ESX-09 lsassd[7381]: 0xf7d6ab90:Failed to sync system time [error code: 9502]

Oct 16 17:13:09 ESX-09 nssquery: Group lookup failed for 'DOMAIN\ESX Admins'

Oct 16 17:14:09 ESX-09 nssquery: Group lookup failed for 'DOMAIN\ESX Admins'

Oct 16 17:16:09 ESX-09 last message repeated 2 times

Oct 16 17:18:09 ESX-09 last message repeated 2 times

Oct 16 17:20:09 ESX-09 last message repeated 2 times

Неизвестные ошибки с верхнего лога.

Oct 16 17:07:52 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:09:27 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Oct 16 17:11:22 ESX-09 /usr/lib/vmware/bin/vmware-hostd[8296]: QueryInformation: 0x80047: 0x251E - Unknown error

Это предупреждение, что лун не доступен. Не должно влиять. Правильно?

Oct 16 17:10:29 ESX-09 vmkernel: 91:00:40:02.456 cpu1:4226)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController: VPD(0xc9) response on vmhb

a1:C0:T5:L10 indicates LUN is not connected

Oct 16 17:10:29 ESX-09 vmkernel: 91:00:40:02.456 cpu5:4228)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController: VPD(0xc9) response on vmhb

a0:C0:T5:L39 indicates LUN is not connected

Oct 16 17:10:29 ESX-09 vmkernel: 91:00:40:02.456 cpu2:4223)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController: VPD(0xc9) response on vmhb

a0:C0:T4:L49 indicates LUN is not connected

Oct 16 17:10:29 ESX-09 vmkernel: 91:00:40:02.456 cpu1:4226)WARNING: VMW_SATP_LSI: satp_lsi_pathIsUsingPreferredController: VPD(0xc9) response on vmhb

a1:C0:T4:L10 indicates LUN is not connected

0 Kudos
VTsukanov
Virtuoso
Virtuoso

Основная масса приведеных вами сообщеий скорее всего связано с тем что нет сети (нет dns, нет LUN, etc)  Про syslogd не скажу - не помню что приводило к перезагрузке syslogd в 4.1 Сообщений аналогичных приведенным в статье в логах нет?

0 Kudos
SergOO
Enthusiast
Enthusiast

Нету ничего такого подобного по статьи. По vmnic вообще нигде ни слова в логах. По bnx2 - аналогично ничего нету.

период пропадания в events с VCenter


Oct 16 17:06:46 Host is not responding

..................................................

Oct 16 17:13:09 Configuring HA

остается понять, могло это повлиять или не могло.

Oct 16 17:01:01 ESX-09 syslogd 1.4.1: restart.


0 Kudos
VTsukanov
Virtuoso
Virtuoso

Никаких идей, кроме предложения приаттачить все логи за указанный промежуток времени (Oct 16 16:50:00 - Oct 17 17:15:00)

0 Kudos
EGarbuzov
VMware Employee
VMware Employee

А что это за LUN, который a1:C0:T4:L10? Случайно на нём не расположены разделы Service Console?

0 Kudos
SergOO
Enthusiast
Enthusiast

Это старый лун, который отцепили.

Загрузочный девайс - это naa.600a0b8000476c7200000be14d9ec060 и когда пропарсить логи, то последние изменения по ему были 2 года назад.

По загрузочному диску проблемы тут не наблюдаются.

[root@ESX-09 ~]# esxcfg-scsidevs -l | grep 600a0b8000476c7200000be14d9ec060

naa.600a0b8000476c7200000be14d9ec060

   Display Name: IBM Fibre Channel Disk (naa.600a0b8000476c7200000be14d9ec060)

   Devfs Path: /vmfs/devices/disks/naa.600a0b8000476c7200000be14d9ec060

      vml.0200090000600a0b8000476c7200000be14d9ec060313831352020


делал так:

[root@ESX-09 ~]# grep 600a0b8000476c7200000be14d9ec060 /var/log/*

0 Kudos