m0ps
Enthusiast
Enthusiast

disk or disk bay 1 hdd status: rebuild aborted

Всем привет!

На одном их хостов vSAN-кластера появилась следующая ошибка:

5121337333121024.png

Поиск в интернетах не дал никакого вменяемого результата о причине этого аллерта. Пробовал сбрасывать состояние сенсора, перегружать хост, вытаскивать/вставлять диск - результатов ноль.

Сам диск вроде как в порядке, vSAN никаких ошибок не пишет, все данные консистентны.

Что за ерунда, никто не сталкивался?

ESXi - 6.0u2 со всеми последними апдейтами.

best regards, m0ps
Tags (3)
0 Kudos
17 Replies
RumataRus
Commander
Commander

Firmware разом недавно не обновляли?
Может ваш случай? https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=20889...

0 Kudos
m0ps
Enthusiast
Enthusiast

Сервера новые, приехали с последними версиями F/W. Сервера 3, но появилась эта ошибка только на одном из них.

Ну и там речь о том что проявляется на 5.X и уже вышел фикс, но у нас стоят 6.0U2 с последними апдейтами

best regards, m0ps
0 Kudos
RumataRus
Commander
Commander

Да, KB относится к версии 5.X, но "иногда они возвращаются". Проверено на практике. Smiley Happy

0 Kudos
e_espinel
Expert
Expert

Привет.

Это кажется недостатком Hardware,  Нужно вновь проверять firmware управляющей дисков и firmware дисков.

Если у Вас есть больше servers того же типа, эта ошибка смогла бы появляться также в других servers.

Если сервер IBM или Lenovo, я могу помочь вам с проверкой Firmware.

Enrique Espinel
Senior Technical Consultant IBM, Lenovo and VMware.
VMware VSP-SV 2018, VTSP-SV 2018 VMware Technical Solutions Professional Hyper-Converged Infrastructure (VTSP-HCI 2018)
VMware Technical Solutions Professional (VTSP) 4 / 5.
Please mark my comment as the Correct Answer/Kudos if this solution resolved your problem Thank you.
Пожалуйста, отметьте мой комментарий как "Правильный ответ/Кудос", если это решение решило вашу проблему. Спасибо.
0 Kudos
m0ps
Enthusiast
Enthusiast

Сервера - Supermicro. Проявилось пока только на одном из серверов. Всего таких 3 сервера. По-поводу версий firmware - я правильно понял что необходимо их сверить с HCL?

Фразу "недостатком Hardware" - не понял, возможно если напишите ее на английском то будет более понятен ее смысл Smiley Happy

best regards, m0ps
0 Kudos
RumataRus
Commander
Commander

необходимо их сверить с HCL

Кстати, да.

Какой RAID-контроллер? Может он не в списке совместимости.

Либо нужно у Supermicro скачать и установить VIB для него, если он есть.

0 Kudos
e_espinel
Expert
Expert

привет
это Hardware проблема.
Уровень Firmware должны быть проверены с производителем сервера или контроллера.

Вы также должны проверить Frimware дисков.

This is a hardware problem.
Firmware level must be checked with the manufacturer of the server or controller of disk.

you also have to verify the firmware of the disks.

Enrique Espinel
Senior Technical Consultant IBM, Lenovo and VMware.
VMware VSP-SV 2018, VTSP-SV 2018 VMware Technical Solutions Professional Hyper-Converged Infrastructure (VTSP-HCI 2018)
VMware Technical Solutions Professional (VTSP) 4 / 5.
Please mark my comment as the Correct Answer/Kudos if this solution resolved your problem Thank you.
Пожалуйста, отметьте мой комментарий как "Правильный ответ/Кудос", если это решение решило вашу проблему. Спасибо.
0 Kudos
m0ps
Enthusiast
Enthusiast

С драйверами на RAID там точно все ок (иначе мониторинг здоровья vSAN сразу бы об этом сообщил). Наверное стоит еще более пристально присмотреться к версии f/w как самого контролера так и дисков. Проверю сегодня и по результатам отпишусь.

Тут еще такой момент: во время тестовой эксплуатации (около двух недель) этой ошибки не было.  Появилась на прошедших выходных.

best regards, m0ps
0 Kudos
RumataRus
Commander
Commander

Тут еще такой момент: во время тестовой эксплуатации (около двух недель) этой ошибки не было.  Появилась на прошедших выходных.

Поэтому я и рекомендую установить VIBы от Supermicro, если они есть: если проблема действительно существует, они дадут более вразумительное сообщение об ошибке.

Возможно эта статья Вам будет полезна: https://habrahabr.ru/company/simnetworks/blog/241605/

0 Kudos
m0ps
Enthusiast
Enthusiast

А, теперь я понял о чем речь... о LSI SMIS Provider. Они конечно-же стоят, иначе состояние дисков я бы и не увидел. Кстати, выше был вопрос о версии контролера - на скрине его видно, это LSI 3108 (на материнской плате X10DRH-CT).

best regards, m0ps
0 Kudos
RumataRus
Commander
Commander

0 Kudos
m0ps
Enthusiast
Enthusiast

Только вчера сказал что на одном хосте проявилось, как сегодня появилось и на двух остальных. Притом ошибка один в один на всех трех серверах.

best regards, m0ps
0 Kudos
RumataRus
Commander
Commander

Притом ошибка один в один на всех трех серверах.

Значит это не аппаратная проблема, теперь это очевидно.

0 Kudos
m0ps
Enthusiast
Enthusiast

Да, ознакомился еще перед развертыванием vSAN. Меня должна не касаться, т.к.:

The values below are the default values for VSAN 6.2 in ESXI 6.0 patch ESXi600-201608001 and later. If you are running this patch or later, there is no need to change the VSAN IO timeout settings using esxcfg-advcfg

Разворачивали vSAN сразу 6.2 на VMware ESXi, 6.0.0, 4192238

best regards, m0ps
0 Kudos
m0ps
Enthusiast
Enthusiast

Глянул еще раз в vSAN HCL. По SMC3108:

Device Driver(s) - lsi_mr3 version 6.605.08.00-7vmw.600.1.17.3029758

Firmware Version - 4.290.00-4536

Вроде ж по HCL указывается минимальная версия. На всякий откатил на одном сервере f/w с 4.650.00-6422 до 4.290.00-4536.

Ничего не изменилось. Подожду денек/два. Возможно оно пройдет со временем (проявилось ведь тоже не сразу).

best regards, m0ps
0 Kudos
m0ps
Enthusiast
Enthusiast

Вот нагуглил аналогичную проблему на той-же материнской плате: Storage Sensor for SAS LSI 3108 RAID in ESX 5.5

best regards, m0ps
0 Kudos
m0ps
Enthusiast
Enthusiast

Получили подтверждение от локального h/w вендора что это известная проблема. Можно игнорировать, т.к. ни на что не влияет.

best regards, m0ps
0 Kudos