Yarm
Contributor
Contributor

ESXi 6.7u3においてNVMe SSDのS.M.A.R.Tの値がおかしい

/var/log/syslog.logに定期的に以下のようなログが流れてきます。

2020-03-04T06:50:58Z smartd: [warn] t10.NVMe____WDS100T2X0C2D00L350______________________***********: REALLOCATED SECTOR CT below threshold (0 < 90)

そこで、ESXiホストにSSH接続しsmartで値を確認したところ。

Parameter                     Value      Threshold  Worst

----------------------------  ---------  ---------  -----

Reallocated Sector Count      0          90         N/A

このような値が返ってきました。

別のOS、ツールにて同一のデバイスのSMARTの値を確認したところ、Reallocated Sector Countは生の値は100閾値が10となっていました。

本来は100<10で正常なところ、それぞれの値を100から引いて0 < 90になっており、予備領域を使い切ったSSDと認識され警告がで続けているようです。

今のところCSSD-M2B1TPG3VNFとWDS100T2X0Cという2種類のNVMe SSDで同様の問題が発生しています。

これらに関してなんらかの対策方法ないし情報はありませんか?

1 Reply
kawaman
Leadership
Leadership

確認できる環境にある NVMe ドライブのステータスを確認してみましたが、

VMware HCL にて互換性がサポートされているものでも同じようなカウンタになっており、

同様に syslog にも 30 分間隔で warning レベルのログが出ていました。

[root@esxi01:~] esxcli storage core device smart get -d t10.NVMe____INTEL_SSDPE2KX020T8_XXXX

Parameter                     Value       Threshold  Worst

----------------------------  ----------  ---------  -----

Health Status                 OK          N/A        N/A

Reallocated Sector Count      0           90         N/A

[root@esxi01:~] esxcli storage core device smart get -d t10.NVMe____INTEL_SSDPE21K375GA_XXXX

Parameter                     Value  Threshold  Worst

----------------------------  -----  ---------  -----

Health Status                 OK     N/A        N/A

Reallocated Sector Count      0      100        N/A

その他、SAS や SATA で HCL に掲載されたサポートされている SSD でも確認しましたが、N/A N/A だったり 0 N/A だったりで、

SMART の各値は製品によって異なる状態(その他値もN/A だったり 0 だったり、閾値と値が逆だったり...)で

HDD と異なり SSD はこの辺りが厳密に ESXi でのドライバやファームウェア含めて統一的になっていないのかな?とも思えます。

30 分間隔のログなので無視してしまうか、

テスト環境などでログが鬱陶しく、止めても問題ないのであれば、smartd を止めてしまうのも有りかと思います。

※ 本番商用環境などでは注意が必要ですが...

smartd の無効化方法は別の事象向けですが、以下 KB が参考になるかと思います。

VMware ESXi 6.0 ホストから SCSI コマンド 0x85 を発行すると PDL エラーが発生する (2133286)

ご参考まで