Shvedich
Contributor
Contributor

Фризы Win2012 R2

Jump to solution

Добрый день. Беспокоит проблема зависания одной виртуальной машины на esxi хосте. В какой-то момент сервер перестает отвечать, в том числе через консоль в vsphere, при попытке сделать жесткий shutdown, запускается процесс, но также зависает. Помогает только перезагрузка esxi хоста вместе с этой виртуалкой. Все другие виртуалки в это время продолжают нормально работать на этом же хосте.

Host esxi 6.5.0

Datastore HP MSA 2040 с доп полкой. На нем только один этот сервер, остальные на локальном хранилище хоста.

В логах операционки чисто. Антивирус выключил уже. Периодичность зависаний разная, закономерность не выявлена.

Создал небольшую виртуалку на том же сторе, проверю будет ли она зависать вместе с другой, пока больше ничего не придумал.

1 Solution

Accepted Solutions
Finikiez
Champion
Champion

В этом логе есть события только после перезагрузки. За более старыми вам тогда придется сходить в /var/run/log

Если конечно у вас настроено сохранение логов не в /tmp

По версии драйвера - он старый. Поставьте рекомендуемый на сегодняшний день драйвер Download VMware vSphere

Еще рекомендую проверить версию прошивки на массиве, какая она у вас?

View solution in original post

0 Kudos
7 Replies
Finikiez
Champion
Champion

Добрый день!

Это легко могут быть проблемы доступа ESXi хоста к MSA.

Как массив подключен - FC/SAS/iSCSI ?

Какие версии драйверов и прошивок используются для HBA?

Для траблшутинга нужно смотреть vmkernel.log и vobd.log в /var/log хоста на момент, когда у вас ВМ зависает.

А также посмотреть vmware.log, находящийся в директории с виртуальной машиной.

0 Kudos
Shvedich
Contributor
Contributor

Подключен по FC , напрямую два порта сервера в два порта СХД.

Логи (сбой был замечен в 10:18 примерно) . Имя зависающего сервера  - fileserver01 . Это большая файловая хранилка, никаких БД и супер нагрузок на него нет. Фризы бывают и ночью, когда к серверу практически нет никаких обращений.

Версия HBA , если я правильно сделал

Version: 2.1.30.0-11vmw.650.0.0.4564106

vobd.log

2017-12-17T01:04:21.494Z: [scsiCorrelator] 54912235657us: [vob.scsi.device.io.latency.improved] Device naa.600508b1001c76904bbb3bc70fa5c500 performance has improved. I/O latency reduced from 15645 microseconds to 5197 microseconds.

2017-12-17T01:04:21.495Z: [scsiCorrelator] 54911628322us: [esx.clear.scsi.device.io.latency.improved] Device naa.600508b1001c76904bbb3bc70fa5c500 performance has improved. I/O latency reduced from 15645 microseconds to 5197 microseconds.

2017-12-18T10:20:13.369Z: [GenericCorrelator] 174663502481us: [vob.user.host.stop.reboot] Host is rebooting.

2017-12-18T10:20:13.369Z: [UserLevelCorrelator] 174663502481us: [vob.user.host.stop.reboot] Host is rebooting.

2017-12-18T10:20:13.369Z: [UserLevelCorrelator] 174663503061us: [esx.audit.host.stop.reboot] Host is rebooting.

2017-12-18T10:26:28.028Z: [netCorrelator] 36167959us: [vob.net.vmnic.linkstate.down] vmnic vmnic0 linkstate down

2017-12-18T10:26:28.030Z: [netCorrelator] 36169363us: [vob.net.vmnic.linkstate.down] vmnic vmnic1 linkstate down

2017-12-18T10:26:28.031Z: [netCorrelator] 36170490us: [vob.net.vmnic.linkstate.down] vmnic vmnic2 linkstate down

2017-12-18T10:26:28.032Z: [netCorrelator] 36171439us: [vob.net.vmnic.linkstate.down] vmnic vmnic3 linkstate down

vmkernel.log

2017-12-18T08:52:45.991Z cpu5:69280)nhpsa: hpsa_vmkScsiCmdDone:5239: Sense data: error code: 0x70, key: 0x5, info:00 00 00 00 , cmdInfo:00 00 00 00 , CmdSN: 0x179, worldId: 0x10776, Cmd: 0x4d, ASC: 0x20, ASCQ: 0x0

2017-12-18T09:22:46.099Z cpu6:65951)nhpsa: hpsa_vmkScsiCmdDone:5239: Sense data: error code: 0x70, key: 0x5, info:00 00 00 00 , cmdInfo:00 00 00 00 , CmdSN: 0x17c, worldId: 0x10776, Cmd: 0x85, ASC: 0x20, ASCQ: 0x0

2017-12-18T09:22:46.099Z cpu6:65951)nhpsa: hpsa_vmkScsiCmdDone:5239: Sense data: error code: 0x70, key: 0x5, info:00 00 00 00 , cmdInfo:00 00 00 00 , CmdSN: 0x17d, worldId: 0x10776, Cmd: 0x4d, ASC: 0x20, ASCQ: 0x0

2017-12-18T09:52:46.206Z cpu1:66206)nhpsa: hpsa_vmkScsiCmdDone:5239: Sense data: error code: 0x70, key: 0x5, info:00 00 00 00 , cmdInfo:00 00 00 00 , CmdSN: 0x180, worldId: 0x10776, Cmd: 0x85, ASC: 0x20, ASCQ: 0x0

2017-12-18T09:52:46.206Z cpu1:66206)nhpsa: hpsa_vmkScsiCmdDone:5239: Sense data: error code: 0x70, key: 0x5, info:00 00 00 00 , cmdInfo:00 00 00 00 , CmdSN: 0x181, worldId: 0x10776, Cmd: 0x4d, ASC: 0x20, ASCQ: 0x0

2017-12-18T10:12:31.381Z cpu16:116956)VSCSI: 2611: handle 8227(vscsi0:1):Reset request on FSS handle 22283144 (48 outstanding commands) from (vmm0:fileserver01)

2017-12-18T10:12:31.381Z cpu14:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 0/0] from (vmm0:fileserver01)

2017-12-18T10:12:34.383Z cpu16:116956)WARNING: VSCSI: 3488: handle 8227(vscsi0:1):WaitForCIF: Issuing reset; number of CIF:25

2017-12-18T10:12:34.383Z cpu16:116956)WARNING: VSCSI: 2645: handle 8227(vscsi0:1):Ignoring double reset

2017-12-18T10:13:01.877Z cpu20:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 1/0] from (vmm0:fileserver01)

2017-12-18T10:13:32.876Z cpu20:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 2/0] from (vmm0:fileserver01)

2017-12-18T10:14:03.878Z cpu20:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 3/0] from (vmm0:fileserver01)

2017-12-18T10:14:34.876Z cpu20:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 4/0] from (vmm0:fileserver01)

2017-12-18T10:15:05.875Z cpu14:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 5/0] from (vmm0:fileserver01)

2017-12-18T10:15:36.875Z cpu14:65818)VSCSI: 2891: handle 8227(vscsi0:1):Reset [Retries: 6/0] from (vmm0:fileserver01)

2017-12-18T10:16:04.337Z cpu23:69371)VSCSI: 2611: handle 8201(vscsi0:0):Reset request on FSS handle 984125 (0 outstanding commands) from (vmm0:IT_Server)

2017-12-18T10:16:04.338Z cpu14:65818)VSCSI: 2891: handle 8201(vscsi0:0):Reset [Retries: 0/0] from (vmm0:IT_Server)

2017-12-18T10:16:04.338Z cpu14:65818)VSCSI: 2679: handle 8201(vscsi0:0):Completing reset (0 outstanding commands)

2017-12-18T10:16:05.537Z cpu22:69361)NetPort: 1879: disabled port 0x200000d

2017-12-18T10:16:05.537Z cpu22:69361)Net: 3732: disconnected client from port 0x200000d

2017-12-18T10:16:05.537Z cpu22:69361)VSCSI: 6532: handle 8201(vscsi0:0):Destroying Device for world 69362 (pendCom 0)

2017-12-18T10:16:27.148Z cpu23:68981)NetPort: 1879: disabled port 0x2000009

2017-12-18T10:16:27.302Z cpu1:68969)VSCSI: 6532: handle 8195(vscsi0:0):Destroying Device for world 68970 (pendCom 0)

2017-12-18T10:16:27.323Z cpu23:65635)Net: 3732: disconnected client from port 0x2000009

2017-12-18T10:16:46.734Z cpu14:69240)VSCSI: 2611: handle 8196(vscsi0:0):Reset request on FSS handle 1967047 (0 outstanding commands) from (vmm0:saBIMsrv)

2017-12-18T10:16:46.734Z cpu23:65818)VSCSI: 2679: handle 8196(vscsi0:0):Completing reset (0 outstanding commands)

2017-12-18T10:16:47.627Z cpu23:69235)NetPort: 1879: disabled port 0x200000a

2017-12-18T10:16:47.627Z cpu23:69235)Net: 3732: disconnected client from port 0x200000a

2017-12-18T10:16:47.628Z cpu23:69235)VSCSI: 6532: handle 8196(vscsi0:0):Destroying Device for world 69236 (pendCom 0)

2017-12-18T10:18:55.893Z cpu0:69278)VSCSI: 2611: handle 8228(vscsi0:0):Reset request on FSS handle 1049577 (0 outstanding commands) from (vmm0:kbsvr04_new_1c)

2017-12-18T10:18:55.893Z cpu0:69278)VSCSI: 2611: handle 8229(vscsi0:1):Reset request on FSS handle 852968 (0 outstanding commands) from (vmm0:kbsvr04_new_1c)

2017-12-18T10:18:55.893Z cpu23:65818)VSCSI: 2679: handle 8228(vscsi0:0):Completing reset (0 outstanding commands)

2017-12-18T10:18:55.893Z cpu23:65818)VSCSI: 2679: handle 8229(vscsi0:1):Completing reset (0 outstanding commands)

2017-12-18T10:18:56.699Z cpu3:69273)WARNING: udev_release_interface:283: udev release interface FAILED(0x4305257bada0) index(0): Bad parameter

2017-12-18T10:18:56.699Z cpu3:69273)WARNING: FreeBSDCharIoctl:1778: ioctl failed: dev = usb0204, cmd = 0x80045510, err = -22: Failure

2017-12-18T10:18:56.699Z cpu3:69273)WARNING: udev_release_interface:283: udev release interface FAILED(0x4305257bada0) index(0): Bad parameter

2017-12-18T10:18:56.699Z cpu3:69273)WARNING: udev_release_interface:283: udev release interface FAILED(0x4305257b5d70) index(0): Bad parameter

2017-12-18T10:18:56.699Z cpu3:69273)WARNING: FreeBSDCharIoctl:1778: ioctl failed: dev = usb0203, cmd = 0x80045510, err = -22: Failure

2017-12-18T10:18:56.699Z cpu3:69273)WARNING: udev_release_interface:283: udev release interface FAILED(0x4305257b5d70) index(0): Bad parameter

2017-12-18T10:18:56.703Z cpu3:69273)NetPort: 1879: disabled port 0x200000b

2017-12-18T10:18:56.703Z cpu3:69273)Net: 3732: disconnected client from port 0x200000b

2017-12-18T10:18:56.704Z cpu3:69273)VSCSI: 6532: handle 8228(vscsi0:0):Destroying Device for world 69274 (pendCom 0)

2017-12-18T10:18:56.704Z cpu3:69273)VSCSI: 6532: handle 8229(vscsi0:1):Destroying Device for world 69274 (pendCom 0)

2017-12-18T10:18:58.779Z cpu15:69334)VSCSI: 2611: handle 8224(vscsi0:0):Reset request on FSS handle 1573907 (0 outstanding commands) from (vmm0:kbsvr09_1C_OLD)

2017-12-18T10:18:58.779Z cpu15:69334)VSCSI: 2611: handle 8225(vscsi0:1):Reset request on FSS handle 1901586 (0 outstanding commands) from (vmm0:kbsvr09_1C_OLD)

2017-12-18T10:18:58.779Z cpu23:65818)VSCSI: 2679: handle 8224(vscsi0:0):Completing reset (0 outstanding commands)

2017-12-18T10:18:58.779Z cpu23:65818)VSCSI: 2679: handle 8225(vscsi0:1):Completing reset (0 outstanding commands)

2017-12-18T10:18:59.807Z cpu22:69329)NetPort: 1879: disabled port 0x200000c

2017-12-18T10:18:59.807Z cpu22:69329)Net: 3732: disconnected client from port 0x200000c

2017-12-18T10:18:59.808Z cpu22:69329)VSCSI: 6532: handle 8224(vscsi0:0):Destroying Device for world 69330 (pendCom 0)

2017-12-18T10:18:59.808Z cpu22:69329)VSCSI: 6532: handle 8225(vscsi0:1):Destroying Device for world 69330 (pendCom 0)

2017-12-18T10:19:26.401Z cpu5:69411)NetPort: 1879: disabled port 0x200000e

2017-12-18T10:19:26.406Z cpu5:69411)VSCSI: 6532: handle 8202(vscsi0:0):Destroying Device for world 69412 (pendCom 😎

2017-12-18T10:19:26.406Z cpu5:69411)WARNING: VSCSI: vm 69412: 6536: closing handle 8202 with 8 pending cmds, 1 ref count

2017-12-18T10:19:26.406Z cpu5:69411)VSCSI: 2611: handle 8202(vscsi0:0):Reset request on FSS handle 1049744 (8 outstanding commands) from (vmm0:Server_Appliance)

2017-12-18T10:19:26.406Z cpu23:65818)VSCSI: 2679: handle 8202(vscsi0:0):Completing reset (0 outstanding commands)

2017-12-18T10:19:26.908Z cpu5:69411)VSCSI: 6532: handle 8203(vscsi0:1):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:26.908Z cpu5:69411)VSCSI: 6532: handle 8204(vscsi0:2):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:26.908Z cpu5:69411)VSCSI: 6532: handle 8205(vscsi0:3):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:26.908Z cpu5:69411)VSCSI: 6532: handle 8206(vscsi0:4):Destroying Device for world 69412 (pendCom 1)

2017-12-18T10:19:26.908Z cpu5:69411)WARNING: VSCSI: vm 69412: 6536: closing handle 8206 with 1 pending cmds, 1 ref count

2017-12-18T10:19:26.908Z cpu23:65818)VSCSI: 2679: handle 8206(vscsi0:4):Completing reset (0 outstanding commands)

2017-12-18T10:19:27.398Z cpu1:65634)Net: 3732: disconnected client from port 0x200000e

2017-12-18T10:19:27.410Z cpu5:69411)VSCSI: 6532: handle 8207(vscsi0:5):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:27.410Z cpu5:69411)VSCSI: 6532: handle 8208(vscsi0:6):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:27.410Z cpu5:69411)VSCSI: 6532: handle 8209(vscsi0:8):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:27.410Z cpu5:69411)VSCSI: 6532: handle 8210(vscsi0:9):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:27.411Z cpu5:69411)VSCSI: 6532: handle 8211(vscsi0:10):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:27.411Z cpu5:69411)VSCSI: 6532: handle 8212(vscsi0:11):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:27.411Z cpu5:69411)VSCSI: 6532: handle 8213(vscsi0:12):Destroying Device for world 69412 (pendCom 0)

2017-12-18T10:19:48.372Z cpu11:116004)NetPort: 1879: disabled port 0x200000f

2017-12-18T10:19:48.372Z cpu11:116004)Net: 3732: disconnected client from port 0x200000f

2017-12-18T10:19:48.373Z cpu11:116004)VSCSI: 6532: handle 8231(vscsi0:0):Destroying Device for world 116005 (pendCom 0)

2017-12-18T10:20:13.960Z cpu15:237797)Deactivating Daemon xorg.

2017-12-18T10:20:14.164Z cpu15:237797)Daemon xorg deactivated.

2017-12-18T10:20:14.164Z cpu15:237797)Deactivating Daemon vmsyslogd.

2017-12-18T10:20:14.367Z cpu15:237797)Daemon vmsyslogd deactivated.

0 Kudos
Finikiez
Champion
Champion

Дата в логах ESXi фиксируется в формате UTC. Соответственно 10:18 по московскому времени - это 07:18 по UTC.

Можете показать весь vmkernel лог?

И что насчет драйверов FC HBA? посмотреть командой /usr/lib/vmware/vmkmgmt_keyval/vmkmgmt_keyval -a

0 Kudos
Shvedich
Contributor
Contributor

Спасибо за подсказку команды, оба результата я приложил в формате log . Время сбоя я указал уже в UTC, там даже видно, что я отправил хост в ребут, когда выключил все остальные виртуальные машины на нем.

0 Kudos
Finikiez
Champion
Champion

В этом логе есть события только после перезагрузки. За более старыми вам тогда придется сходить в /var/run/log

Если конечно у вас настроено сохранение логов не в /tmp

По версии драйвера - он старый. Поставьте рекомендуемый на сегодняшний день драйвер Download VMware vSphere

Еще рекомендую проверить версию прошивки на массиве, какая она у вас?

View solution in original post

0 Kudos
Shvedich
Contributor
Contributor

Вот уже два дня все работает, обновил драйвер HBA . Через апдейт менеджер устанавливаться никак не хотел, пришлось из командной строки сделать.

Думаю, пока можно считать тему закрытой.

Огромное спасибо за помощь!

Finikiez
Champion
Champion

Если сломается, напишите. И приложите vmkernel лог собранный до перезагрузки сервера.

0 Kudos