■対象の Node のコンソールを起動し、TroubleShootingの準備をする
- KVM もしくは iDRAC 経由で仮想コンソールを起動する
- KVM を使う場合。
- 通常のサーバと同じく KVM を接続する
- G560 / VD4510c/4520cについては Mini Display port ケーブルが必要なので注意
- VD4000WはKVM接続ができないためMicroUSBを利用したシリアル接続が必要
- iDRAC(ネットワーク接続)の場合
- 事前に iDRAC の IP を確認・もしくは設定しておく(デフォルトは 192.168.0.120 もしくは DHCP)
- LAN ケーブルを準備する
- 以下のコミュニティ文書を参考に iDRAC の仮想コンソールを起動する
- iDRAC ( Direct USB 接続)の場合
- 仮想コンソールが起動出来たら ESXi が起動完了していることを確認する。
- Dell Model の場合は RASR が正常に完了していることを確認する
- ESXi の ShellとSSH を有効にする
- iDRAC または KVM よりコンソールを起動する。
- F2 を押してセットアップへ移行する。
- root でログインする。
- Troubleshooting Options を選択し enter キーを押下。
- Enable ESXi Shell を選択し、enterキーを押下。(設定値が ESXi Shell is Enabled になっていることを確認)
- Enable SSH を選択し enter キーを押下。(設定値が SSH is Enabled になっていることを確認)
- esc キーを 2 回押下しセットアップを終了。
- 一時的にIPアドレスを振る場合
- iDRAC または KVM よりコンソールを起動する。
- F2 を押してセットアップへ移行する。
- root でログインする。
- Configure Management Networkを選択し、enterキーを押下。
- VLAN(Optional)にカーソルを合わせて、Management Network VLANとなっていることを確認(デフォルト値はN/A)
- VLANがDiscovery VLAN(Private Management Network PGのVLAN、デフォルトは3939)の場合は、1つ前の画面に戻りRestart Management Networkを実行し、再度ステップ4からやり直す(RestartすることでManagement NetworkとPrivate Management Networkが切り替わります)
- Management NetworkのVLANであることを確認したら、IPv4 Configurationからデフォルト値のDHCPから設定予定のネットワーク設定を付与する。(デフォルト値がDHCPではなくDisable IPv4~になっている場合はDiscovery Networkの可能性あり)
- トラブルシューティングが終わったらDHCPに戻しておく。
■VxRail Manager から Ping が通るかを確認(IPv6)
- 対象 Node で以下のコマンドを実行し、vmk0 の IPv6 アドレスを取得する
- VxRail Manager から以下のコマンドを発行し、VxRail Manager から対象 Node への IPv6 疎通を確認する
- ping6 <対象Nodeのipv6 IP>%eth0 または ping6 -I eth0 <対象Nodeのipv6 IP>
- 例: ping6 fe80::xxxx:dddd:ffff:xxxx%eth0 または ping6 -I eth0 fe80::xxxx:dddd:ffff:xxxx
- ※ VxRail 4.7.100 以降の場合は、eth0 ではなく、eth1 を指定してください。
- Ping 疎通できない場合はネットワーク設定( VLAN 等)を確認する。疎通できた場合は次に進む
■VxRail Manager から SSH できるかを確認( IPv6 )
- 事前に DCUI から ESXi の SSH を有効化しておく
- VxRail Manager から以下のコマンドを発行して対象 Node にデフォルトパスワードで SSH ログインできるかを確認
- sshpass -p 'Passw0rd!' ssh -6 -o 'UserKnownHostsFile=/dev/null' -o 'StrictHostKeyChecking=no' -l root <ipv6>%eth0
- 例: sshpass -p 'Passw0rd!' ssh -6 -o 'UserKnownHostsFile=/dev/null' -o 'StrictHostKeyChecking=no' -l root fe80::xxxx:dddd:ffff:xxxx%eth0
- ログインできた場合は次に進む。できなかった場合はNodeをReimage(NIMツールを利用)する。
■PSNT の確認
- iDRAC からコンソールを起動し DCUI 画面で PSNT が表示されることを確認
以下のコマンドで確認する
# cat /var/run/log/loudmouth_service_register
(問題がある場合はMissing PSNTなどのエラーが表示されている)
# df -h
(VMFS-6のデータストア名がNODExxxxxx-service-datastore1となっている場合は問題あり。DExxxxxxx-0x-0x-service-datastore1が正しい)
上記の対処を実施後、ノードを再起動する
■Loudmouth サービスが問題なく稼働していることを確認する
- 対象Nodeにて以下のコマンドで loudmouth サービスをリスタートする
- /etc/init.d/loudmouth restart
- VxRail Manager にて以下のコマンドで Loudmouth サービスをリスタートする
- su (root user にスイッチする)
- systemctl restart vmware-loudmouth
- VxRail Manager で以下のコマンドを発行し、対象の Node が Discover されていることを確認する
- /usr/lib/vmware-loudmouth/bin/loudmouthc query | tail -n 1 | cut -c 10- | python -mjson.tool
- Discover されていない場合は Multicast 疎通確認に進む。Discover されていた場合は時刻確認に進む
■Multicast 疎通確認
- VxRail Manager にて以下のコマンドで eth0 の IPv6 アドレスの Link Local アドレスを確認する ( fe80 から始まるアドレス)
- 対象 Node に SSH でログインする(IPv6)
- 対象 Node で以下のコマンドで Multicast Address 宛に Ping する
- Ping 応答の中に VxRail Manager の IPv6 が含まれていることを確認する
- 確認できない場合はスイッチののマルチキャスト設定を確認する
※TOR switch として OS10 の switch を利用している場合は MLD Snooping が有効になっていることを確認する
確認方法:対象の switch に ssh でログインして show running-configuration を実行
interface vlan 3939 に ipv6 mld snooping querier があることを確認。
※その他の L2 Switch を利用している場合は、Switch の User ガイドやベンダーの指示に従って確認してください。
OS10の場合は show ipv6 mld snooping groups でff02::fbがあることを確認できる
OS10# show ipv6 mld snooping groups
Total Number of Groups: 5
MLD Connected Group Membership
Group Address Interface Mode Expires
ff02::2 vlan231 Exclude 00:01:09
ff05::2 vlan231 Exclude 00:00:28
ff02::2 vlan3939 Exclude 00:01:22
ff02::fb vlan3939 Exclude 00:01:50
ff05::2 vlan3939 Exclude 00:01:19
■ライセンスの確認
以下のコマンドでノードの評価ライセンスが期限切れになっていないことを確認する。
#vim-cmd vimsvc/license --show
※Nodeが初期化されてから60日間稼働を続けると評価ライセンスが失効します。
評価ライセンスが失効していた場合はReimageを実行することでライセンスをリセットできます。
■証明書の確認
- ESXi に SSH でログインしコマンドを実行
- date
EX)Wed Nov 18 14:19:30 UTC 2020 - openssl x509 -noout -in /etc/vmware/ssl/rui.crt -startdate
EX)notBefore=Nov 18 12:56:52 2020 GMT - openssl x509 -noout -in /etc/vmware/ssl/rui.crt -enddate
EX)notAfter= May 19 12:56:42 2032 GMT - date の結果が start と end の範囲内であることを確認する
■MTU の確認
- ESXi に SSH でログインしコマンドを実行
- esxcli network vswitch standard list
- esxcli network ip interface list
- 表示されるネットワークインターフェースの MTU 値が 1500 または JumboFrame ですべて同一の値であることを確認
■VxRail Manager 内の Node 登録情報(vxrailhost)の確認(~4.7.x)
VxRail4.7 以下のバージョンは下記手順にて確認
- VxRail Managerにて以下のコマンドを発行する
- psql -U postgres marvin -c "select applianceid,nodeposition,ip,model,morefid,number,primarynode,configurationstate from vxrailhost;"
- 対象Node の行があることを確認する。無い場合は対象 Node と VxRail ManagerをReboot する
- 対象Node の行の configurationstate の列が0であることを確認する。0 でない場合は、Zoom or WebEx の準備をしてEscalationする
■VxRail Manager 内の Node 登録情報(availableHosts)の確認(7.0.010 ~)
VxRail7.0以降は下記手順にて確認
- VxRail Managerにてroot権限で以下のコマンドを発行する
- curl -s --unix-socket /var/lib/vxrail/nginx/socket/nginx.sock http://127.0.0.1/rest/vxm/internal/do/v1/host/query -H 'Content-Type: application/json' -d '{"query": " { availableHosts { name moid summary { hardware { disks { ssd block blockSize } model uuid vendor serialNumber psnt slot cpuModel cpuCores cpuMhz memorySize nics { key device speedMb } } } config { configState isPrimary sslThumb rsaPublicKey1 rsaPublicKey2 hostUUID biosUUID vcUUID evoUUID system { version } network { vnic { device ipv4 ipv6 } } } hardware { sn psnt name applianceId slot chassis { model supportedNodes } } } } "}' |json_pp
- 出力は控えておき、あとで Dell Support に Escalation する際に提供する
- 応答された json から対象の Node があることを確認する。無い場合は対象 Node と VxRail Manager を Reboot する
■ハードウェア構成の確認(初期構築時のみ)
- VxRail Manager の登録情報に各 Node の記載があるにもかかわらず初期構築のウィザードで Node が Discover されない場合は、下記の通り ハードウェア構成をチェックする
- VxRail 4.7.x もしくはそれ以下の場合は下記 KB に従って確認する
- VxRail 7.0.010 以降の場合は、前項の「VxRail Manager 内の Node 登録情報の確認(7.0.010 ~)」で得た情報を基に後続の確認を実施する
- CPU のミスマッチがある場合は iDRAC から全 Node のモデルと CPU 情報を確認する。( Core 数。ベンダ。周波数など)
- メモリのミスマッチがある場合は、iDRAC よりメモリ障害や認識不良が発生していないかチェックする
- メモリのサイズが 3 バイトのみ違う場合は下記 KB に基づき TPM の設定を確認する
- Disk のミスマッチの場合は iDRAC および ESXi から Disk 数、モデル、Slot 位置、サイズ、SSD or HDD を確認する
- NIC のミスマッチの場合は、すべての Node が同じ NIC 数、同じ速度で認識していることを確認する
■Dell PT Agent の動作確認と再起動
以下の手順を実行(2~5は ESXi ホストに SSH で接続して実行
- iDRAC のリセット
- iSM プロセスの再起動
- /etc/init.d/dcism-netmon-watchdog restart
- /etc/init.d/dcism-netmon-watchdog status (状態確認)
- PTAgent プロセスの再起動
- /etc/init.d/DellPTAgent restrt
- /etc/init.d/DellPTAgent status (状態確認)
- Platform Service の再起動
- /etc/init.d/vxrail-pservice restart
- /etc/init.d/vxrail-pservice status (状態確認)
- sensord プロセスの再起動
- /etc/init.d/sensord restart
- /etc/init.d/sensord status (状態確認)
■Node 時刻と証明書の修正(必ず実施する)
- KB#000161587 のスクリプトを Discover されない Node に対して実行し、時刻ずれが修正されることを確認する
※Date や証明書がずれていなくてもスクリプトを実行する - スクリプトが動作しない、もしくは効果がない場合は次に進む
- Node Health check Script による修正実施後も Discovery できない場合は、node_health_check.log をサポートに提供し調査を依頼する
■VxRail Managerの再起動
- 最後にVxRail Managerを再起動する
- 再起動後にNodeがDiscoverされていることを確認する
- Node 追加・交換時はAdd Nodeができる状態になっていることを確認する
- 状況が解決しない場合はEscalationをする
■その他・ログ・Tips
- Node 交換のタイミング
- Quanta の場合
- Disk/PSU/Fan 以外のパーツ(CPU/メモリ/BMC など)が壊れた場合はすべて Node 交換となる
- Dell モデルの場合
- 細かい粒度で交換可能なため Node全体交換は存在しない(営業手配の特別ケースを除く)
- ただし、Node のReimage が発生した場合は Node 交換と同じ影響・手順になる
- OS 破損、NDC 交換(4.5.150以前)、Boot デバイス交換(SATADOM/BOSS/M2.SSD)の場合はReimage が発生する
- VxRail 4.7.100 以降は Node 交換用の手順・スクリプトは存在せず、Node Remove と Node Add の複合手順となる
- 初期構築およびNode 追加・交換時の VxRail Manager のログの場所
- /var/log/vmware/marvin /tomcat/logs/marvin.log
- 各 Node の PSNT は適切でなくてはならない。
- Dell Model の場合、iDRAC 設定と BIOS 設定は工場出荷のデフォルトでなくてはならない( IP 設定とパスワード)
- 初期構築時のNodeはすべて全く同じ構成(メモリ・CPU・Disk・Network・Model)でなくてはならい
- TPM の設定も共通でなくてはならない
- Add Node 時は All Flash/Hybrid が一致してることと、 NIC 数と通信速度が一致していること以外には制限はない
- どうしてもうまくいかない場合は VxRail Manager が起動する Primary Node を変更して改善があるかどうかを確認する
- 初期構築および Node 追加・交換完了後はCompliance Drift Checkを実行する
- vSphere Clientより、VxRail クラスタ → Configure → VxRail → Update or Complianceから実行可能
■ テクニカルサポートへの起票と提供すべき情報
上記対処を行っても解決しない場合はテクニカルサポートへ問い合わせをする。
問い合わせの際は下記ログを提供する。
- Node の PSNT
- VxRail Logbundle(First run 時は KB#000021743)
- loudmouthc query の結果
- node_health_check.log
- VxRail 7.0.010 以降の場合は、availableHosts の出力
※急ぎの場合はメールではなく電話で問い合わせる。もしくはサポートサイトから自分で起票する。