1 Reply Latest reply on Mar 5, 2020 6:56 AM by kawaman

    ESXi 6.7u3においてNVMe SSDのS.M.A.R.Tの値がおかしい

    Yarm Lurker

      /var/log/syslog.logに定期的に以下のようなログが流れてきます。

      2020-03-04T06:50:58Z smartd: [warn] t10.NVMe____WDS100T2X0C2D00L350______________________***********: REALLOCATED SECTOR CT below threshold (0 < 90)

      そこで、ESXiホストにSSH接続しsmartで値を確認したところ。

      Parameter                     Value      Threshold  Worst

      ----------------------------  ---------  ---------  -----

      Reallocated Sector Count      0          90         N/A

      このような値が返ってきました。

      別のOS、ツールにて同一のデバイスのSMARTの値を確認したところ、Reallocated Sector Countは生の値は100閾値が10となっていました。

      本来は100<10で正常なところ、それぞれの値を100から引いて0 < 90になっており、予備領域を使い切ったSSDと認識され警告がで続けているようです。

       

      今のところCSSD-M2B1TPG3VNFとWDS100T2X0Cという2種類のNVMe SSDで同様の問題が発生しています。

       

      これらに関してなんらかの対策方法ないし情報はありませんか?

        • 1. Re: ESXi 6.7u3においてNVMe SSDのS.M.A.R.Tの値がおかしい
          kawaman Expert
          vExpertVMware Employees

          確認できる環境にある NVMe ドライブのステータスを確認してみましたが、

          VMware HCL にて互換性がサポートされているものでも同じようなカウンタになっており、

          同様に syslog にも 30 分間隔で warning レベルのログが出ていました。

          [root@esxi01:~] esxcli storage core device smart get -d t10.NVMe____INTEL_SSDPE2KX020T8_XXXX

          Parameter                     Value       Threshold  Worst

          ----------------------------  ----------  ---------  -----

          Health Status                 OK          N/A        N/A

          Reallocated Sector Count      0           90         N/A

          [root@esxi01:~] esxcli storage core device smart get -d t10.NVMe____INTEL_SSDPE21K375GA_XXXX

          Parameter                     Value  Threshold  Worst

          ----------------------------  -----  ---------  -----

          Health Status                 OK     N/A        N/A

          Reallocated Sector Count      0      100        N/A

          その他、SAS や SATA で HCL に掲載されたサポートされている SSD でも確認しましたが、N/A N/A だったり 0 N/A だったりで、

          SMART の各値は製品によって異なる状態(その他値もN/A だったり 0 だったり、閾値と値が逆だったり...)で

          HDD と異なり SSD はこの辺りが厳密に ESXi でのドライバやファームウェア含めて統一的になっていないのかな?とも思えます。

           

          30 分間隔のログなので無視してしまうか、

          テスト環境などでログが鬱陶しく、止めても問題ないのであれば、smartd を止めてしまうのも有りかと思います。

          ※ 本番商用環境などでは注意が必要ですが...

           

          smartd の無効化方法は別の事象向けですが、以下 KB が参考になるかと思います。

          VMware ESXi 6.0 ホストから SCSI コマンド 0x85 を発行すると PDL エラーが発生する (2133286)

          ご参考まで