temask88
Contributor
Contributor

Проблема с datastore: Cluster harvesting resulted in an unrecoverable error: Invalid metadata

Коллеги нужна срочно помощь.

В процессе обновления массива 3par8200 упал один из хостов. Проблем от этого была куча - битые базы и т.п. но речь здесь не об этом.

Обновление массива остановили после перезагрузки первой ноды и оставили в не до конца обновлённом состоянии до сих пор.

Выяснили причину падения хоста - драйвер HBA на 2х из 3х хостах:

https://kb.vmware.com/s/article/77213

https://support.hpe.com/hpesc/public/docDisplay?docId=a00097611en_us&docLocale=en_US

 

Было принято решение в первую очередь обновить драйвера на двух хостах.

Начали с упавшего. Обновили пришивку и драйвер HBA до последних версий (проверили на совместимость и KB на возможные проблемы). после рестарта хоста обнаружили что он не подключил основное хранилище c 3par. Device видим, другое хранилище на 3par тоже видит, а хранилище с ВМ не видит. стальные хосты пока работают но их пока не трогали и не перезагружали т.к. есть вероятность то после перезагрузи и от них отвалится датастор. До обновления прошивки и драйвера на упавшем хосте не проверяли доступность датастора, не было мысли что с ним что то не так.

 

В логе хоста который упал и позже был обновлен при попытке подключить датастор:

Spoiler

2021-01-18T05:21:24.831Z cpu5:68486 opID=18a98a26)WARNING: Res3: 7319: '3PAR8200': [rt 1] Cluster harvesting resulted in an unrecoverable error: Invalid metadata
2021-01-18T05:21:24.883Z cpu5:68486 opID=18a98a26)WARNING: Res3: 7851: Invalid clusterNum: expected 38126, read 0
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)WARNING: FS3J: 1686: Failed to reserve space for journal on <DATASTOR ID> : Invalid metadata
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)Vol3: 3210: Failed to get object 28 type 1 uuid <DATASTOR ID> FD 0 gen 0 :Invalid metadata
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)WARNING: Fil3: 1389: Failed to reserve volume f530 28 1 57fd1913 d3866533 92f099fb 6006051c 0 0 0 0 0 0 0
2021-01-18T05:21:24.935Z cpu5:68486 opID=18a98a26)Vol3: 3210: Failed to get object 28 type 2 uuid <DATASTOR ID> FD 4 gen 1 :Invalid metadata
2021-01-18T05:21:33.715Z cpu5:68486 opID=18a98a26)LVM: 16648: File system '[3PAR8200, <DATASTOR ID>]' (LV 57fd190d-5b5bae93-a39a-f0921c050660) un-mounted.
2021-01-18T05:23:07.945Z cpu23:68476 opID=1b4c29bf)WARNING: FS3J: 1686: Failed to reserve space for journal on <DATASTOR ID> : Invalid metadata
2021-01-18T05:23:07.965Z cpu23:68476 opID=1b4c29bf)FSS: 5763: No FS driver claimed device '57fd190d-5b5bae93-a39a-f0921c050660': No filesystem on the device
2021-01-18T05:23:07.965Z cpu23:68476 opID=1b4c29bf)LVM: 16637: File system '' (LV 57fd190d-5b5bae93-a39a-f0921c050660) mounted in 'rw' mode

В логе оставшихся в работе хостов:

Spoiler
2021-01-20T12:53:15.662Z cpu25:29955349)WARNING: Res3: 4232: Volume <DATASTOR ID> ("3PAR8200") might be damaged on the disk. Resource cluster metadata corruption has been detected.
2021-01-20T12:53:15.820Z cpu24:29955349)WARNING: Fil3: 7929: Found invalid object on <DATASTOR ID> <FD c540 r174> expected <FD c150 r2>
2021-01-20T12:53:15.820Z cpu24:29955349)Vol3: 3155: Failed to get object 28 type 3 uuid <DATASTOR ID> FD 802584 gen 3 :Not found
2021-01-20T12:53:15.820Z cpu24:29955349)WARNING: Fil3: 7929: Found invalid object on <DATASTOR ID> <FD c540 r174> expected <FD c150 r2>
2021-01-20T12:53:15.820Z cpu24:29955349)Vol3: 3155: Failed to get object 28 type 3 uuid <DATASTOR ID> FD 802584 gen 3 :Not found

 

До обновление по рекомендации HPE было выполнено следующее:

https://kb.vmware.com/s/article/2113956

 

Что делать непонятно. Датастор вернуть на третий хосту не получается.

Перезагружать остальные судя по логу тоже чревато.

Пока ищем куда смигриовать данные.

Параллельно ищем решение проблемы. 

 

 

0 Kudos
3 Replies
scott28tt
VMware Employee
VMware Employee

@temask88 

Модератор: перенесено в обсуждения на русском языке

 

0 Kudos
Finikiez
Champion
Champion

Здравствуйте!

 

Очень странно, что техподдержка не обратила ваше внимание на эти сообщения в логах.

 

Плохие новости - с вероятностью 99% это поврежденные метаданные VMFS, которые не лечатся или лечатся долго и дорого.

Чем скорее вы сделаете новый датастор и смигрируете работающие ВМ на него, тем лучше. В противном случае просто доступ потеряете к VMFS.

0 Kudos
temask88
Contributor
Contributor

Поддержки vmware к сожалению уже с июля нет. Не продлили.

Так  и предпологал что проблема с ФС и особо ничего не сделать.

Думал еще может как то связано с блокировкой метаданных vmfs.

0 Kudos