Коллеги нужна срочно помощь.
В процессе обновления массива 3par8200 упал один из хостов. Проблем от этого была куча - битые базы и т.п. но речь здесь не об этом.
Обновление массива остановили после перезагрузки первой ноды и оставили в не до конца обновлённом состоянии до сих пор.
Выяснили причину падения хоста - драйвер HBA на 2х из 3х хостах:
https://kb.vmware.com/s/article/77213
https://support.hpe.com/hpesc/public/docDisplay?docId=a00097611en_us&docLocale=en_US
Было принято решение в первую очередь обновить драйвера на двух хостах.
Начали с упавшего. Обновили пришивку и драйвер HBA до последних версий (проверили на совместимость и KB на возможные проблемы). после рестарта хоста обнаружили что он не подключил основное хранилище c 3par. Device видим, другое хранилище на 3par тоже видит, а хранилище с ВМ не видит. стальные хосты пока работают но их пока не трогали и не перезагружали т.к. есть вероятность то после перезагрузи и от них отвалится датастор. До обновления прошивки и драйвера на упавшем хосте не проверяли доступность датастора, не было мысли что с ним что то не так.
В логе хоста который упал и позже был обновлен при попытке подключить датастор:
2021-01-18T05:21:24.831Z cpu5:68486 opID=18a98a26)WARNING: Res3: 7319: '3PAR8200': [rt 1] Cluster harvesting resulted in an unrecoverable error: Invalid metadata
2021-01-18T05:21:24.883Z cpu5:68486 opID=18a98a26)WARNING: Res3: 7851: Invalid clusterNum: expected 38126, read 0
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)WARNING: FS3J: 1686: Failed to reserve space for journal on <DATASTOR ID> : Invalid metadata
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)Vol3: 3210: Failed to get object 28 type 1 uuid <DATASTOR ID> FD 0 gen 0 :Invalid metadata
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)WARNING: Fil3: 1389: Failed to reserve volume f530 28 1 57fd1913 d3866533 92f099fb 6006051c 0 0 0 0 0 0 0
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)Vol3: 3210: Failed to get object 28 type 2 uuid <DATASTOR ID> FD 4 gen 1 :Invalid metadata
2021-01-18T05:21:33.715Z cpu5:68486 opID=18a98a26)LVM: 16648: File system '[3PAR8200, <DATASTOR ID>]' (LV 57fd190d-5b5bae93-a39a-f0921c050660) un-mounted.
2021-01-18T05:23:07.945Z cpu23:68476 opID=1b4c29bf)WARNING: FS3J: 1686: Failed to reserve space for journal on <DATASTOR ID> : Invalid metadata
2021-01-18T05:23:07.965Z cpu23:68476 opID=1b4c29bf)FSS: 5763: No FS driver claimed device '57fd190d-5b5bae93-a39a-f0921c050660': No filesystem on the device
2021-01-18T05:23:07.965Z cpu23:68476 opID=1b4c29bf)LVM: 16637: File system '' (LV 57fd190d-5b5bae93-a39a-f0921c050660) mounted in 'rw' mode
В логе оставшихся в работе хостов:
До обновление по рекомендации HPE было выполнено следующее:
https://kb.vmware.com/s/article/2113956
Что делать непонятно. Датастор вернуть на третий хосту не получается.
Перезагружать остальные судя по логу тоже чревато.
Пока ищем куда смигриовать данные.
Параллельно ищем решение проблемы.
Здравствуйте!
Очень странно, что техподдержка не обратила ваше внимание на эти сообщения в логах.
Плохие новости - с вероятностью 99% это поврежденные метаданные VMFS, которые не лечатся или лечатся долго и дорого.
Чем скорее вы сделаете новый датастор и смигрируете работающие ВМ на него, тем лучше. В противном случае просто доступ потеряете к VMFS.
Поддержки vmware к сожалению уже с июля нет. Не продлили.
Так и предпологал что проблема с ФС и особо ничего не сделать.
Думал еще может как то связано с блокировкой метаданных vmfs.