【VxRail】NodeがDiscoverできないときに確認すべきこと(初期構築&Node追加・交換時)

【VxRail】NodeがDiscoverできないときに確認すべきこと(初期構築&Node追加・交換時)

■対象の Node のコンソールを起動し、TroubleShootingの準備をする

  1. KVM もしくは iDRAC 経由で仮想コンソールを起動する
    • KVM を使う場合。
      • 通常のサーバと同じく KVM を接続する
      • G560 / VD4510c/4520cについては Mini Display port ケーブルが必要なので注意
      • VD4000WはKVM接続ができないためMicroUSBを利用したシリアル接続が必要
    • iDRAC(ネットワーク接続)の場合
      • 事前に iDRAC の IP を確認・もしくは設定しておく(デフォルトは 192.168.0.120 もしくは DHCP
  2. 仮想コンソールが起動出来たら ESXi が起動完了していることを確認する。
    • Dell Model の場合は RASR が正常に完了していることを確認する
  3. ESXi の ShellとSSH を有効にする
    1. iDRAC または KVM よりコンソールを起動する。
    2. F2 を押してセットアップへ移行する。
    3. root でログインする。
    4. Troubleshooting Options を選択し enter キーを押下。
    5. Enable ESXi Shell を選択し、enterキーを押下。(設定値が ESXi Shell is Enabled になっていることを確認)
    6. Enable SSH を選択し enter キーを押下。(設定値が SSH is Enabled になっていることを確認)
    7. esc キーを 2 回押下しセットアップを終了。
  4. 一時的にIPアドレスを振る場合
    1. iDRAC または KVM よりコンソールを起動する。
    2. F2 を押してセットアップへ移行する。
    3. root でログインする。
    4. Configure Management Networkを選択し、enterキーを押下。
    5. VLAN(Optional)にカーソルを合わせて、Management Network VLANとなっていることを確認(デフォルト値はN/A)
    6. VLANがDiscovery VLAN(Private Management Network PGのVLAN、デフォルトは3939)の場合は、1つ前の画面に戻りRestart Management Networkを実行し、再度ステップ4からやり直す(RestartすることでManagement NetworkとPrivate Management Networkが切り替わります)
    7. Management NetworkのVLANであることを確認したら、IPv4 Configurationからデフォルト値のDHCPから設定予定のネットワーク設定を付与する。(デフォルト値がDHCPではなくDisable IPv4~になっている場合はDiscovery Networkの可能性あり)
    8. トラブルシューティングが終わったらDHCPに戻しておく。

 

■VxRail Manager から Ping が通るかを確認(IPv6)

  1. 対象 Node で以下のコマンドを実行し、vmk0 の IPv6 アドレスを取得する
    • esxcfg-vmknic -l
  2. VxRail Manager から以下のコマンドを発行し、VxRail Manager から対象 Node への IPv6 疎通を確認する
    • ping6 <対象Nodeのipv6 IP>%eth0 または ping6 -I eth0 <対象Nodeのipv6 IP>
    • 例: ping6 fe80::xxxx:dddd:ffff:xxxx%eth0 または ping6 -I eth0 fe80::xxxx:dddd:ffff:xxxx
    • ※ VxRail 4.7.100 以降の場合は、eth0 ではなく、eth1 を指定してください。
  3. Ping 疎通できない場合はネットワーク設定( VLAN 等)を確認する。疎通できた場合は次に進む

 

■VxRail Manager から SSH できるかを確認( IPv6 )

  1. 事前に DCUI から ESXi の SSH を有効化しておく
  2. VxRail Manager から以下のコマンドを発行して対象 Node にデフォルトパスワードで SSH ログインできるかを確認
    • sshpass -p 'Passw0rd!' ssh -6 -o 'UserKnownHostsFile=/dev/null' -o 'StrictHostKeyChecking=no' -l root <ipv6>%eth0
    • 例: sshpass -p 'Passw0rd!' ssh -6 -o 'UserKnownHostsFile=/dev/null' -o 'StrictHostKeyChecking=no' -l root fe80::xxxx:dddd:ffff:xxxx%eth0
  3. ログインできた場合は次に進む。できなかった場合はNodeをReimage(NIMツールを利用)する。

 

■PSNT の確認

  • iDRAC からコンソールを起動し DCUI 画面で PSNT が表示されることを確認

PSNT確認.png

  • Shellを利用した場合のPSNT確認方法

以下のコマンドで確認する

# cat /var/run/log/loudmouth_service_register
(問題がある場合はMissing PSNTなどのエラーが表示されている)

# df -h
(VMFS-6のデータストア名がNODExxxxxx-service-datastore1となっている場合は問題あり。DExxxxxxx-0x-0x-service-datastore1が正しい)

上記の対処を実施後、ノードを再起動する

 

■Loudmouth サービスが問題なく稼働していることを確認する

  1. 対象Nodeにて以下のコマンドで loudmouth サービスをリスタートする
    • /etc/init.d/loudmouth restart
  2. VxRail Manager にて以下のコマンドで Loudmouth サービスをリスタートする
    1. su (root user にスイッチする) 
    2. systemctl restart vmware-loudmouth
  3. VxRail Manager で以下のコマンドを発行し、対象の Node が Discover されていることを確認する
    • /usr/lib/vmware-loudmouth/bin/loudmouthc query | tail -n 1 | cut -c 10- | python -mjson.tool
  4. Discover されていない場合は Multicast 疎通確認に進む。Discover されていた場合は時刻確認に進む

 

■Multicast 疎通確認

  1. VxRail Manager にて以下のコマンドで eth0 の IPv6 アドレスの Link Local アドレスを確認する ( fe80 から始まるアドレス)
    • ip address
  2. 対象 Node に SSH でログインする(IPv6)
  3. 対象 Node で以下のコマンドで Multicast Address 宛に Ping する
    • ping -6 -I vmk0 ff02::fb
  4. Ping 応答の中に VxRail Manager の IPv6 が含まれていることを確認する
  5. 確認できない場合はスイッチののマルチキャスト設定を確認する

    ※TOR switch として OS10 の switch を利用している場合は MLD Snooping が有効になっていることを確認する
    確認方法:対象の switch に ssh でログインして show running-configuration を実行
    interface vlan 3939 に ipv6 mld snooping querier があることを確認。

    ※その他の L2 Switch を利用している場合は、Switch の User ガイドやベンダーの指示に従って確認してください。
    OS10の場合は show ipv6 mld snooping groups でff02::fbがあることを確認できる

 

 

OS10# show ipv6 mld snooping groups
Total Number of Groups: 5
MLD Connected Group Membership
Group Address                 Interface                     Mode                          Expires
ff02::2                       vlan231                       Exclude                       00:01:09
ff05::2                       vlan231                       Exclude                       00:00:28
ff02::2                       vlan3939                      Exclude                       00:01:22
ff02::fb                      vlan3939                      Exclude                       00:01:50
ff05::2                       vlan3939                      Exclude                       00:01:19
​

 

 

 

■ライセンスの確認

以下のコマンドでノードの評価ライセンスが期限切れになっていないことを確認する。

#vim-cmd vimsvc/license --show

※Nodeが初期化されてから60日間稼働を続けると評価ライセンスが失効します。
評価ライセンスが失効していた場合はReimageを実行することでライセンスをリセットできます。

 

 

■証明書の確認

  1. ESXi に SSH でログインしコマンドを実行
  2. date
    EX)Wed Nov 18 14:19:30 UTC 2020
  3. openssl x509 -noout -in /etc/vmware/ssl/rui.crt -startdate
    EX)notBefore=Nov 18 12:56:52 2020 GMT
  4. openssl x509 -noout -in /etc/vmware/ssl/rui.crt -enddate
    EX)notAfter= May 19 12:56:42 2032 GMT
  5. date の結果が start と end の範囲内であることを確認する

 

■MTU の確認

  1. ESXi に SSH でログインしコマンドを実行
  2. esxcli network vswitch standard list
  3. esxcli network ip interface list
  4. 表示されるネットワークインターフェースの MTU 値が 1500 または JumboFrame ですべて同一の値であることを確認

 

 

■VxRail Manager 内の Node  登録情報(vxrailhost)の確認(~4.7.x)
VxRail4.7 以下のバージョンは下記手順にて確認

  1. VxRail Managerにて以下のコマンドを発行する
    • psql -U postgres marvin -c "select applianceid,nodeposition,ip,model,morefid,number,primarynode,configurationstate from vxrailhost;"
  2. 対象Node の行があることを確認する。無い場合は対象 Node と VxRail ManagerをReboot する
  3. 対象Node の行の configurationstate の列が0であることを確認する。0 でない場合は、Zoom or WebEx の準備をしてEscalationする

■VxRail Manager 内の Node  登録情報(availableHosts)の確認(7.0.010 ~)

VxRail7.0以降は下記手順にて確認

  1. VxRail Managerにてroot権限で以下のコマンドを発行する
    • curl -s --unix-socket /var/lib/vxrail/nginx/socket/nginx.sock http://127.0.0.1/rest/vxm/internal/do/v1/host/query -H 'Content-Type: application/json' -d '{"query": " { availableHosts { name moid summary { hardware { disks { ssd block blockSize } model uuid vendor serialNumber psnt slot cpuModel cpuCores cpuMhz memorySize nics { key device speedMb } } } config { configState isPrimary sslThumb rsaPublicKey1 rsaPublicKey2 hostUUID biosUUID vcUUID evoUUID system { version } network { vnic { device ipv4 ipv6 } } } hardware { sn psnt name applianceId slot chassis { model supportedNodes } } } } "}' |json_pp
  2. 出力は控えておき、あとで Dell Support に Escalation する際に提供する
  3. 応答された json から対象の Node があることを確認する。無い場合は対象 Node と VxRail Manager を Reboot する

 

■ハードウェア構成の確認(初期構築時のみ)

  1. VxRail Manager の登録情報に各 Node の記載があるにもかかわらず初期構築のウィザードで Node が Discover されない場合は、下記の通り ハードウェア構成をチェックする
    • VxRail 4.7.x もしくはそれ以下の場合は下記 KB に従って確認する
    • VxRail 7.0.010 以降の場合は、前項の「VxRail Manager 内の Node  登録情報の確認(7.0.010 ~)」で得た情報を基に後続の確認を実施する
    • CPU のミスマッチがある場合は iDRAC から全 Node のモデルと CPU 情報を確認する。( Core 数。ベンダ。周波数など)
    • メモリのミスマッチがある場合は、iDRAC よりメモリ障害や認識不良が発生していないかチェックする
    • メモリのサイズが 3 バイトのみ違う場合は下記 KB に基づき TPM の設定を確認する
    • Disk のミスマッチの場合は iDRAC および ESXi から Disk 数、モデル、Slot 位置、サイズ、SSD or HDD を確認する
    • NIC のミスマッチの場合は、すべての Node が同じ NIC 数、同じ速度で認識していることを確認する
      • esxcfg-nics -l

 

■Dell PT Agent の動作確認と再起動
以下の手順を実行(2~5は ESXi ホストに SSH で接続して実行

  1. iDRAC のリセット
  2. iSM プロセスの再起動
    • /etc/init.d/dcism-netmon-watchdog restart
    • /etc/init.d/dcism-netmon-watchdog status (状態確認)
  3. PTAgent プロセスの再起動
    • /etc/init.d/DellPTAgent restrt
    • /etc/init.d/DellPTAgent status (状態確認)
  4. Platform Service の再起動
    • /etc/init.d/vxrail-pservice restart
    • /etc/init.d/vxrail-pservice status (状態確認)
  5. sensord プロセスの再起動
    • /etc/init.d/sensord restart
    • /etc/init.d/sensord status (状態確認)

 

■Node 時刻と証明書の修正(必ず実施する

  1. KB#000161587 のスクリプトを Discover されない Node に対して実行し、時刻ずれが修正されることを確認する
    ※Date や証明書がずれていなくてもスクリプトを実行する
  2. スクリプトが動作しない、もしくは効果がない場合は次に進む
  3. Node Health check Script による修正実施後も Discovery できない場合は、node_health_check.log をサポートに提供し調査を依頼する

 

■VxRail Managerの再起動

  1. 最後にVxRail Managerを再起動する
  2. 再起動後にNodeがDiscoverされていることを確認する
    • Node 追加・交換時はAdd Nodeができる状態になっていることを確認する
  3. 状況が解決しない場合はEscalationをする

 

■その他・ログ・Tips

  • Node 交換のタイミング
    • Quanta の場合
      • Disk/PSU/Fan 以外のパーツ(CPU/メモリ/BMC など)が壊れた場合はすべて Node 交換となる
    • Dell モデルの場合
      • 細かい粒度で交換可能なため  Node全体交換は存在しない(営業手配の特別ケースを除く)
      • ただし、Node  のReimage が発生した場合は Node 交換と同じ影響・手順になる
        • OS 破損、NDC 交換(4.5.150以前)、Boot デバイス交換(SATADOM/BOSS/M2.SSD)の場合はReimage が発生する
    • VxRail 4.7.100 以降は Node 交換用の手順・スクリプトは存在せず、Node Remove と Node Add の複合手順となる
  • 初期構築およびNode 追加・交換時の VxRail Manager のログの場所
    • /var/log/vmware/marvin /tomcat/logs/marvin.log
  • 各 Node の PSNT は適切でなくてはならない。
  • Dell Model の場合、iDRAC 設定と BIOS 設定は工場出荷のデフォルトでなくてはならない( IP 設定とパスワード)
  • 初期構築時のNodeはすべて全く同じ構成(メモリ・CPU・Disk・Network・Model)でなくてはならい
    • TPM の設定も共通でなくてはならない
    • Add Node 時は All Flash/Hybrid が一致してることと、 NIC 数と通信速度が一致していること以外には制限はない
  • どうしてもうまくいかない場合は VxRail Manager が起動する Primary Node を変更して改善があるかどうかを確認する
  • 初期構築および Node 追加・交換完了後はCompliance Drift Checkを実行する
    • vSphere Clientより、VxRail クラスタ → Configure → VxRail → Update or Complianceから実行可能

 

■ テクニカルサポートへの起票と提供すべき情報

上記対処を行っても解決しない場合はテクニカルサポートへ問い合わせをする。
問い合わせの際は下記ログを提供する。

  • Node の PSNT 
  • VxRail Logbundle(First run 時は KB#000021743
  • loudmouthc query の結果
  • node_health_check.log
  • VxRail 7.0.010 以降の場合は、availableHosts の出力

※急ぎの場合はメールではなく電話で問い合わせる。もしくはサポートサイトから自分で起票する。

 

Tags (1)
Version history
Revision #:
13 of 13
Last update:
‎10-29-2023 09:43 AM
Updated by: