VMware Global Community
mensa84
Contributor
Contributor

Datenspeicher auf einmal verschwunden!?

Hallo,

in mienem ESXi 6.7 sind 2 SSDs mit 512 GB.

Ich habe diese als 2 Datenspeicher angelegt (als SSD1 und SSD2).

Seit gestern zeigt mein ESXi nur mehr SSD1 und dessen Dateien an. Der Datenspeicher SSD2 fehlt einfach auf einmal, obwohl ich selbst nichts gemacht habe. Ich bin mir nicht sicher ob ein Stromausfall war, glaube aber nicht.

Das Gerät wird noch angezeigt und (siehe Screenshots) mit gut 465 GB VMFS und nur 1 MB frei. Ist das richtig?

Kann ich meinen verschwundenen Datenspeicher wieder "einhängen" oder muss ich alles löschen und einen neuen Datenspeicher anlegen?

Screenshot000521.jpg

Screenshot000522.jpg

Screenshot000523.jpg

Screenshot000524.jpg

Screenshot000525.jpg

Im vCenter sehe ich SSD2 noch:

Screenshot000526.jpg

Am ESXi unter /vmfs/volumes leider nur SSD1. Was die ganzen anderen Einträge heir sind, weiß ich leider nicht:

Screenshot000527.jpg

Kann mir bitte jemand helfen?

Edit: Das Device sehe ich unter /dev/disks auch noch:

pastedImage_0.png

Aber wie kann ich es denn wieder einhängen als Datastore?

Reply
0 Kudos
6 Replies
a_p_
Leadership
Leadership

Schau mal ob die folgenden Punkte eine erwartete Ausgabe liefern, bzw. - im letzterem Fall - ob der Datenspeicher mauell wieder gemountet werden kann.

André

Reply
0 Kudos
mensa84
Contributor
Contributor

Hallo,

die Ausgabe aus dem 1. Link sieht so aus:

[root@ESXi:~] partedUtil getptbl /vmfs/devices/disks/t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500

gpt

60801 255 63 976773168

1 2048 976771072 AA31E02A400F11DB9590000C2911D1B8 vmfs 0

Was heißt das jetzt? Eine Partition hätte ich ja somit, oder?

Es handelt sich bei mir um 2 lokale SSDs (falls das eine Rolle spielt).

Der Befehl aus Link 2 bringt leider gar keine Ausgabe:

esxcli storage vmfs snapshot list

Reply
0 Kudos
a_p_
Leadership
Leadership

Mit Punkt 1 war eigentlich die Befehlszeiel

offset="128 2048"; ..... ; done

gedacht. Bitte schau mal was dabei rauskommt.

Schade, dass der 2. Befehl keine Rückmeldung gegeben hat, dann wär's vermutlich einfach gewesen.

Was auch noch geprüft werden sollte ist, ob esxcli storage filesystem list die erwartete Augabe bringt.

Zudem bitte ich Dich, den unter Punkt 5 des oben erstgenannten KB Artikels aufgeführen Befehl vmkfstools -V auszuführen und dann zu schauen, ob in der vmkernel.log Datei ein Fehler ähnlich dem unter Punkt 6 bechrieben angezeigt wird.

André

Reply
0 Kudos
mensa84
Contributor
Contributor

Achso, das meintest du. Das habe ich ursprünglich nicht ausgeführt, da dort stand, dass das nicht für lokale Platten ist.

Aber hier jetzt die Ausgabe:

/vmfs/devices/disks/t10.NVMe____Samsung_SSD_970_EVO_500GB_______________9C80B48154382500

gpt

60801 255 63 976773168

1 64 8191 C12A7328F81F11D2BA4B00A0C93EC93B systemPartition 128

5 8224 520191 EBD0A0A2B9E5443387C068B6B72699C7 linuxNative 0

6 520224 1032191 EBD0A0A2B9E5443387C068B6B72699C7 linuxNative 0

7 1032224 1257471 9D27538040AD11DBBF97000C2911D1B8 vmkDiagnostic 0

8 1257504 1843199 EBD0A0A2B9E5443387C068B6B72699C7 linuxNative 0

9 1843200 7086079 9D27538040AD11DBBF97000C2911D1B8 vmkDiagnostic 0

2 7086080 15472639 EBD0A0A2B9E5443387C068B6B72699C7 linuxNative 0

3 15472640 976773134 AA31E02A400F11DB9590000C2911D1B8 vmfs 0

---------------------

/vmfs/devices/disks/t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500

gpt

60801 255 63 976773168

1 2048 976771072 AA31E02A400F11DB9590000C2911D1B8 vmfs 0

hexdump: /vmfs/devices/disks/t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500: Input/output error

---------------------

Hier die Ausgabe von esxcli storage filesystem list:

[root@ESXi:~]  esxcli storage filesystem list

Mount Point                                        Volume Name  UUID                                 Mounted  Type            Size          Free

-------------------------------------------------  -----------  -----------------------------------  -------  ------  ------------  ------------

/vmfs/volumes/5ba343a5-a101937f-8b72-38d5470026a5  SSD1         5ba343a5-a101937f-8b72-38d5470026a5     true  VMFS-6  492042190848  287327649792

/vmfs/volumes/5ba343a5-baff9303-caa1-38d5470026a5               5ba343a5-baff9303-caa1-38d5470026a5     true  vfat      4293591040    4254400512

/vmfs/volumes/91f3e876-f69c0f8b-118a-1cce1241a09a               91f3e876-f69c0f8b-118a-1cce1241a09a     true  vfat       261853184     107089920

/vmfs/volumes/5ba3439e-498df430-bd13-38d5470026a5               5ba3439e-498df430-bd13-38d5470026a5     true  vfat       299712512     117014528

/vmfs/volumes/ad51ad7f-41b10029-744f-175cd6b6bd42               ad51ad7f-41b10029-744f-175cd6b6bd42     true  vfat       261853184     107118592

In dem File /var/log/vmkernel.log sind schon Einträge, aber nicht unmittelbar nachdem ich vmkfstools -V sondern schon ältere:

2019-01-04T01:25:22.929Z cpu14:2097796)ScsiDeviceIO: 3082: Cmd(0x459a5dbe0880) 0x35, CmdSN 0x221b from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.929Z cpu11:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.932Z cpu14:2097796)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a727da6b8 [254], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 2, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.932Z cpu13:2097795)ScsiDeviceIO: 3082: Cmd(0x459a5dbe04c0) 0x35, CmdSN 0x2224 from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.932Z cpu11:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.935Z cpu13:2097795)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a727664c8 [344], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 1, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.935Z cpu14:2097796)ScsiDeviceIO: 3082: Cmd(0x459a5db0ca80) 0x35, CmdSN 0x222c from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.935Z cpu11:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.935Z cpu11:2103323)WARNING: NFS: 1227: Invalid volume UUID t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500:1

2019-01-04T01:25:22.938Z cpu14:2097796)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a727dafa0 [259], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 2, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.938Z cpu13:2097795)ScsiDeviceIO: 3082: Cmd(0x459a5da64600) 0x35, CmdSN 0x2234 from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.938Z cpu11:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.941Z cpu13:2097795)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a72766db0 [349], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 1, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.941Z cpu14:2097796)ScsiDeviceIO: 3082: Cmd(0x459a5da22840) 0x35, CmdSN 0x223c from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.941Z cpu11:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.944Z cpu14:2097796)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a727db888 [264], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 2, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.944Z cpu13:2097795)ScsiDeviceIO: 3082: Cmd(0x459a5da61540) 0x35, CmdSN 0x2244 from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.944Z cpu3:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.947Z cpu13:2097795)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a72767698 [354], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 1, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.947Z cpu14:2097796)ScsiDeviceIO: 3082: Cmd(0x459a40a91580) 0x35, CmdSN 0x224c from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.947Z cpu3:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.950Z cpu14:2097796)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a727dc170 [269], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 2, ns: 1, vmhba3, ctrlr: nvme00030000.

2019-01-04T01:25:22.950Z cpu13:2097795)ScsiDeviceIO: 3082: Cmd(0x459a40a95cc0) 0x35, CmdSN 0x2254 from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

2019-01-04T01:25:22.950Z cpu3:2103323)ScsiDevice: 1973: Could not flush cache of local device t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500. Failure

2019-01-04T01:25:22.951Z cpu3:2103323)FSS: 6092: No FS driver claimed device 't10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500:1': No filesystem on the device

2019-01-04T01:25:22.952Z cpu16:2103320)VC: 4616: Device rescan time 68 msec (total number of devices 6)

2019-01-04T01:25:22.952Z cpu16:2103320)VC: 4619: Filesystem probe time 31 msec (devices probed 4 of 6)

2019-01-04T01:25:22.952Z cpu16:2103320)VC: 4621: Refresh open volume time 1 msec

2019-01-04T01:25:44.903Z cpu0:2098401)SunRPC: 1099: Destroying world 0x201816

Wäre der Befehl esxcli storage vmfs snapshot list wirklich auch für lokale Platten? Ich habe ja kein RAID oder so und da ich was von LUN gelesen habe, dachte ich, das gäbe es nur bei SCSI/iSCSI, oder?

Aber vermutlich ist die Meldung ScsiDevice: 1973: Could not flush cache of local device auch ein guter Hinweis, oder? Ist vielleicht die SSD defekt?

Reply
0 Kudos
a_p_
Leadership
Leadership

/vmfs/devices/disks/t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500

gpt

60801 255 63 976773168

1 2048 976771072 AA31E02A400F11DB9590000C2911D1B8 vmfs 0

hexdump: /vmfs/devices/disks/t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500: Input/output error

I can't unfortunately tell you for sure whether this is some kind of driver issue (less likely), some connection issue (cable, not properly seated), or indeed a defective drive.

Do you have a chance to check the dive using some vendor tools?

André

Reply
0 Kudos
sk84
Expert
Expert

Aufgrund der Fehlermeldungen würde ich von einer defekten SSD Platte ausgehen.

Zum Beispiel:

2019-01-04T01:25:22.932Z cpu14:2097796)nvme:nvmeCoreLogError:415:NVM Command failed: 0x430a727da6b8 [254], opc: 0x0, status: 0x280, IO WRITE ERROR. lba: 0x0, lbc: 1, q: 2, ns: 1, vmhba3, ctrlr: nvme00030000.

IO write errors treten meist bei defekten Platten oder fehlerhaften Treiber auf. Da du ja laut deiner Aussage am Treiber nichts geändert hast und es vorher funktioniert hat, halte ich eine kaputte Platte für wahrscheinlich.

Und die SCSI error codes deuten ebenso auf einen Hardware Defekt hin:

2019-01-04T01:25:22.932Z cpu13:2097795)ScsiDeviceIO: 3082: Cmd(0x459a5dbe04c0) 0x35, CmdSN 0x2224 from world 0 to dev "t10.NVMe____Samsung_SSD_970_EVO_500GB_______________D13CB28155382500" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0xc 0x0.

Sense key "0x4" bedeutet HARDWARE ERROR und "0xc", dass es beim Schreiben auftritt.

Siehe: https://www.virten.net/vmware/esxi-scsi-sense-code-decoder/?host=0&device=2&plugin=0&sensekey=4&asc=...

Die Samsung Evo SSDs sind im übrigen aus dem Consumer Bereich und nicht wirklich für ESXi und Virtualisierung geeignet. In einer VMware Umgebung hast du generell viele Random IO und hohe DWPD Werte und somit ist die Lebensdauer einer Consumer SSD aus dem Mediamarkt meistens recht kurz. Ich würde dir daher empfehlen eine Enterprise SSD mit längerer Lebensdauer zu nehmen.

--- Regards, Sebastian VCP6.5-DCV // VCP7-CMA // vSAN 2017 Specialist Please mark this answer as 'helpful' or 'correct' if you think your question has been answered correctly.
Reply
0 Kudos