Pasha_Ufa
Contributor
Contributor

Esxi 6.7 сбой файловой системы виртуальной машиный

Добрый день, есть хост на ESXi 6.7 , установлен на флэшку.

создан raid массив 10 из 8 сата дисков, через raid контроллер LSI 9341-8i.

на хосте несколько виртуальных машин.

Raid контроллер выдал ошибку, что один из дисков рейд массива вышел из строя. Данный диск был опять введен в массив в online.

после этого на некоторых виртуальных машинах вышли ошибки файловой системы при перезагрузки и началась восстановление индексов и т.п. chkdsk.

В итоге после проверки файловых ошибок системы все равно не загрузились.

Но есть пару машин которые не были введены в работу, но были включены, на них все нормально. Еще один нюанс vmware tools там были установлены, а на машинах которые посыпались не было еще.

Вопрос заключается в том,  почему из-за выхода из строя одного диска из массива порушились виртуальные машины?

0 Kudos
6 Replies
Finikiez
Champion
Champion

Добрый день!

 

Эти события точно увязываются между друг другом по времени? Или вы предполагаете, что они взаимосвязаны?

В целом, для того чтобы диагностировать что-то, надо читать vmkernel.log хоста на предмет SCSI ошибок и соотносить события с логами гостевой ОС. Начинать нужно именно с этого. Смотрели в них? Есть какие-нибудь выдержки из логов?

Плюс:

1. Проверить на актуальности версии драйвера и прошивки RAID контроллера. Были ли нет vmware tools в припципе не важно, видимо у вас pvscsi контроллер не используется.

2. Уточнить билд самого ESXi, чтобы понимать, не могло бы это быть каким-нибудь багом, зафиксированным в release notes.

0 Kudos
e_espinel
Expert
Expert

Здравствуйте.
Если ваши диски были сконфигурированы в RAID 10, то это самый надежный и дорогой тип RAID.
Даже при выходе из строя одного диска в паре это не должно иметь никаких последствий.


Ваша проблема может быть связана с уровнем микропрограммного обеспечения (Firmware) контроллера и дисков.
Как правило, производители оборудования всегда рекомендуют обновить Firmware до последнего уровня всего серверного оборудования перед установкой операционной системы.


Если ваш сервер Lenovo, я буду рад помочь вам (бесплатно), чтобы проверить ваши уровни Firmware и как получить обновления и установить их.


Помните, что вы всегда должны иметь резервную копию данных перед любой работой на сервере.

 

Enrique Espinel
Senior Technical Consultant IBM, Lenovo and VMware.
VMware VSP-SV 2018, VTSP-SV 2018 VMware Technical Solutions Professional Hyper-Converged Infrastructure (VTSP-HCI 2018)
VMware Technical Solutions Professional (VTSP) 4 / 5.
Please mark my comment as the Correct Answer/Kudos if this solution resolved your problem Thank you.
Пожалуйста, отметьте мой комментарий как "Правильный ответ/Кудос", если это решение решило вашу проблему. Спасибо.
0 Kudos
Pasha_Ufa
Contributor
Contributor

На самом деле предыдстория еще более интересная)

Все началось на этом хосте со следующего

1. на нем работали несколько нагруженных машин (MS SQL, сервер 1с и еще несколько машин). было 2 массива 1 raid 10 из 4 ССД дисков, и еще один массив 10 из 4 сата дисков.

2. Версия ESXi была 6.5 , билд точно не помню, но вроде последний update. прошивки контроллера были уже старенькие, но все работало несколько лет.

3. в одну прекрасную ночь вылетел один из дисков raid массива 10 из 4 сата дисков. Остановили хост, переткнули диски физически. запустили хост, система загрузилась, машины поднялись и тоже загрузились. Оперативно были сделаны текущие резервные копии всего и перенесены на другой хост.  Но также было замечено, что файловые системы некоторых машин были испорчены, и при загрузке шло исправление файловой системы, но ничего не дало. машины не загружались.

4. Данный сервер был остановлен, диски все извлечены и были проверены каждый диск по смарту и  тесты поверхности. один диск точно была плохая поверхность, но смарт был в норме. Также обнаружили другой диск, у него поверхность была в норме, но в смарте были релокации кластеров.

5. было принято решение в данном хосте обновить до последнего релиза прошивку контроллера LSI 9341-8i, также был переделан raid массив вместо 4 ссд дисков, установили еще 4 сата диска, то есть всего 8 сата дисков по 2 Тб. но была ошибка сделана. один диск, который был с плохой поверхностью заменен, а другой с хорошей поверхностью но с плохим смартом оставлен (не было чем заменить).

6. установлен ESXi 6.7.0 Update 3 (Build 15160138) на флэшку. установлены последние драйвера на контроллер с сайта vmware. перенесли несколько не критичных машин на этот хост для теста.

7. все работало нормально, в контроллере настроили проверку consistency раз в неделю, и после данной проверки один диск был отключен контроллером.

контроллер выдал следующую ошибку

Controller ID: 0 Consistency Check started on an inconsistent VD: VD 0

Controller ID: 0 Consistency Check inconsistency logging disabled, too many inconsistencies on VD: 0

Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Command timeout; Additional Sense Info: No additional sense information. CDB: 0x2f 0x00 0x61 0xca 0x10 0x00 0x00 0x10 0x00 0x00

Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Reset. Type: 3, Path: 0x4433221107000000

вот такие warning ошибки вылезли на контроллере после проверки consistency

потом прошло пару дней и запустилась проверка patrol

и выдала такую ошибку

Controller ID: 0 VD is now DEGRADED VD 0

Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Patrol Read aborted

Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Diagnostics failed

Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : State change - Previous: Shield Configured; Current: Failed

потом ввели в online диск этот опять

Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : State change - Previous: Failed; Current: Online

Controller ID: 0 State change on VD: 0 Previous: Degraded; Current: Optimal;

ну наверное до следующей проверки патрол и констистенси.

vmkernel log такой 5 января

2021-01-05T22:31:17.333Z cpu7:2097455)WARNING: lsi_mr3: mfi_TaskMgmt:719: Abort not supported on C2:T0:L0 for SMID 7
2021-01-05T22:31:17.814Z cpu4:2097778)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600605b00aaf2e48277b7fb9067ad82b" state in doubt; requested fast path state update...
2021-01-05T22:31:19.430Z cpu10:2097778)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600605b00aaf2e48277b7fb9067ad82b" state in doubt; requested fast path state update...

а вот эти ошибки пошли похоже когда в онлайн диск опять ввели

2021-01-13T09:24:44.556Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T09:24:44.559Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T09:24:44.569Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T09:24:44.574Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.944Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.947Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.957Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.965Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.437Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.458Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.485Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.505Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T06:03:20.299Z cpu4:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2386 microseconds to 77524 microseconds.
2021-01-14T06:04:56.419Z cpu10:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2389 microseconds to 73901 microseconds.
2021-01-14T08:31:28.385Z cpu6:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2403 microseconds to 158010 microseconds.
2021-01-14T08:31:28.419Z cpu6:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2403 microseconds to 398103 microseconds.
2021-01-14T08:32:32.953Z cpu0:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2405 microseconds to 75761 microseconds.
2021-01-14T15:00:17.671Z cpu10:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.
2021-01-14T16:39:59.825Z cpu0:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.
2021-01-14T23:10:24.229Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.232Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.241Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.247Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.267Z cpu8:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.
2021-01-15T05:04:43.285Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.300Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.316Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.320Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.340Z cpu9:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.

 

 

 

 

0 Kudos
Finikiez
Champion
Champion

Так конечно сложно судить. Если это именно тот самый naa id устройства, на котором создан проблемный датастор и в vmkernel логе действительно нет каких-либо SCSI ошибок вида как вот в этой статье https://kb.vmware.com/s/article/1030381 , то надо смотреть в сторону драйвера и прошивки контроллера.

 

Покажите, какие версии у вас. Что за драйвер и какая версия прошивки, а потом стоит пристально посмотреть release notes к прошивкам.

 

Потому что вряд ли это проблема именно на уровне гипервизора.

0 Kudos
Pasha_Ufa
Contributor
Contributor

Драйвер в ESXi 6.7 версия 7.713.07.00-1OEM.670.0.0.8169922

Прошивка контроллера FW version - 4.680.01-8536

Package - 24.21.0-139

BIOS version - 6.36.00.3_4.19.08.00_0x06180204

Проблема в том, что предыдущий сбой был аналогичным. вот что очень сильно смущает. на старой прошивке и драйвере и версии ESXi 6.5u3.

Чисто логически, ну вышел диск из строя, он никак не должен влиять на работу ведь, заменили его или убрали, или ввели в строй. Всего один из всего массива 10.

 

0 Kudos
Finikiez
Champion
Champion

В целом по версиям выглядит ок. FW есть свежее, но в HCL vmware валидирована с такой версией драйвера наоборот версия FW чуть старее.

Думаю, что в первую очередь надо более пристально логи читать или открыть кейс в техподдержке, чтобы инженер их изучил.

Если привязывать хоть как-то к vmware tools, то о проблемах повреждения данных я уже очень давно не слышал. Если что - то надо смотреть, чтобы они также были актуальные.

Если это linux, то проверять апдейты на open-vm-tools, если microsoft то устанавливать последние обновления.

0 Kudos