Coolvic
Contributor
Contributor

Отваливаются хранилища ESXi 6.7

Добрый день.

Куплен сервер Supermicro SYS-1029P-WTRT, мат. плата Super X11DDW-NT, 8 SSD по 4 в 2 raid массива через AOM-S3108M-H8. Также еще один NVMe диск.

ESXi 6.7U3 установлен на одном из raid. На каждом raid создано по хранилищу и внутри по одной виртуалке, nvme подключается к виртуалке через nvme контроллер. Raid контроллер обновлен до самой свежей прошивки, bios платы также.

Периодически (интервал определить невозможно, может через день, а может 2 недели проработать) отваливаются хранилища на рейдах и естественно недоступны виртуалки. NVMe при этом в порядке и продолжает работать. Немного похожая проблема здесь - намертво зависает виртуальная машина . У меня это также происходит ночью в периоды простоя. Но есть одно но. Далее перезагружаю сервер и при загрузке получаю сообщение, что драйвер Avago поврежден, перезагружаюсь в режим Legacy, получаю сообщение, что произошла ошибка батарейки или памяти по причине неожиданной потери мощности. В менеджере контроллера все диски в порядке, сам контроллер и батарейка в статусе оптимал. Снова перезагружаюсь и esxi успешно стартует до следующего повторения ситуации. Сервер подключен к 2 разным ибп, на которых висит другое оборудование и оно не перезагружается и не сбоит.

Подскажите это все таки проблема железа и нужно менять контроллер с батарейкой или же все таки esxi. Смущает, что у людей есть похожая ситуация с проблемами в периоды простоя (еще у одного с сетевыми картами похожее было здесь на форуме). Заранее большое спасибо за помощь.

На всякий случай лог vmkwarning.log:

0:00:00:00.000 cpu0:1)WARNING: Serial: 787: Serial port com1 failed during initialization: Failure

0:00:00:05.280 cpu0:2097152)WARNING: VMKAcpi: 318: \_SB_.PC00.LPC0.TMR_: skipping GSIV 0 conflict

0:00:00:05.320 cpu0:2097152)WARNING: Chipset: 396: Bus 4 (03) is already defined

2019-12-09T05:42:54.325Z cpu24:2097833)WARNING: etherswitch: PortCfg_ModInit:910: Skipped initializing etherswitch portcfg for VSS to use cswitch and portcfg module

2019-12-09T05:42:57.609Z cpu31:2097981)WARNING: FBFT not enabled

2019-12-09T05:43:07.942Z cpu2:2097692)WARNING: NFS: 1227: Invalid volume UUID 5dc9623b-9ae5e912-ca10-ac1f6bbbb078

2019-12-09T05:43:07.960Z cpu2:2097692)WARNING: NFS: 1227: Invalid volume UUID 5dc96560-c9036a00-9328-ac1f6bbbb078

2019-12-09T05:43:07.979Z cpu2:2097692)WARNING: NFS: 1227: Invalid volume UUID 5dc96792-2dc6da50-3785-ac1f6bbbb078

2019-12-09T05:43:08.792Z cpu0:2098473)WARNING: APEI: 319: Could not initialize EINJ

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 0

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 1

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 2

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 3

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 4

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 5

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 6

2019-12-09T05:43:57.258Z cpu11:2099853)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 7

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 0

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 1

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 2

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 3

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 4

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 5

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 6

2019-12-09T05:45:06.307Z cpu31:2100011)WARNING: MonLoader: 734: MonLoaderCallout_GetSharedHostPage: Invalid page offset 0 for region 8 vcpu 7

2019-12-09T05:45:07.730Z cpu30:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

2019-12-09T05:45:19.801Z cpu17:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

2019-12-09T05:45:20.183Z cpu17:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

2019-12-09T05:45:45.295Z cpu26:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

2019-12-09T05:45:46.340Z cpu26:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

2019-12-09T05:45:56.494Z cpu17:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

2019-12-09T05:45:56.873Z cpu17:2100027)WARNING: vmkusb: Failed to set interface 0.0 for usb0104: Bad parameter

0 Kudos
4 Replies
Finikiez
Champion
Champion

Здравствуйте!

Лучше прикрепите полный бандл логов (vm-support).

0 Kudos
Coolvic
Contributor
Contributor

На яд выложил - esx-esxi-2019-12-09--07.32-2101982.tgz — Yandex.Disk

Правда я как говорил сервер приходится перезагрузить, чтоб работоспособность восстановить. Наверно придется следующего раза подождать, чтоб бандл с информацией в текущем времени получить. Хотя он возможно будет недоступен. Vmware в оперативке хранит логи или только на диске?

0 Kudos
Coolvic
Contributor
Contributor

Произошло снова.

Бандл сделал.

esx-esxi-2019-12-09--11.23-2105529.tgz — Yandex.Disk

Но там видимо пусто, по крайней мере в онлайне мне показывал пустые логи. Видимо они все таки на диск только пишутся.

Думаю придется контроллер поменять.

0 Kudos
Finikiez
Champion
Champion

Вообще судя по сообщениям о контроллере, которые вы пишите, есть аппаратные проблемы с ним.

Возможно батарейка дохлая и из-за он не может штатно работать.

Рекомендую обратиться по гарантии к производителю с этими аппаратными ошибками.

Помимо этого убедитесь, что версия прошивки стоит последняя доступная на контроллере.