sssnur
Contributor
Contributor

Зависает VM на расширенном Datastore

Добрый день, для файлового сервера необходим большой vmdk диск в 64 ТБ.

Для этого создал datastore и расширил его 5 лунами по 14 ТБ.

Создал тонкий vmdk на отдельном scsi контроллере.

Во время копирования мелких файлов временами зависает полностью VM. Консолью из веб клиента не доступна.

Опытными путями пришел к тому, что зависает именно при копировании на расширенный datastore.

Подскажите в чем может быть дело

VMware VSphere 6.5

0 Kudos
9 Replies
Finikiez
Champion
Champion

Добрый день!

Небольшое уточнение - 64Тб это размер VMFS. Размер vmdk 62Тб.

Для начала траблшутинга нужно посмотреть в vmkernel лог ESXi хоста, когда ВМ зависает.

И еще вопросы:

1. что вы делаете с ВМ, когда она зависает?

2. Какая СХД используется, с которой презентованы луны для датастора?

3. Какой способ подключения схд FC\iSCSI?

0 Kudos
sssnur
Contributor
Contributor

Добрый день!

Прикрепил лог за промежуток времени, когда  были сбои

1. Копирую файлы по сети 10Гб/с, Windows server 2016 обычная сетевая папка

2. NetApp FAS 8020

3. LUN-ы подключены по NETAPP Fibre Channel Disk и NETAPP Fibre Channel Over Ethernet Disk, не понимаю нормально ли это? Луны из одного Volume презентованы.

0 Kudos
Finikiez
Champion
Champion

Первый вопрос был скорее про то, что ВМ зависает полностью и ее необходимо перегружать кнопкой Reset или какое поведение вы наблюдаете?

В небольшом прикрепленном кусочке я вижу аборты от драйвера bnx2fc. Какая версия драйвера установлена у вас?

0 Kudos
sssnur
Contributor
Contributor

Зависает на не большой промежуток времени. Примерно 5 пингов. Но при этом копирование обрывается.

Подскажите, пожалуйста, где посмотреть драйвер?

0 Kudos
Finikiez
Champion
Champion

Версия драйвера смотрится через командную строку.

Для HBA /usr/lib/vmware/vmkmgmt_keyval/vmkmgmt_keyval -a

0 Kudos
sssnur
Contributor
Contributor

Прошу прощение за долгий ответ

Прикрепил вывод команды

0 Kudos
Finikiez
Champion
Champion

Что-то не сходится.

В vmkernel, который вы прикрепляли были ошибки по адаптерам vmhba32 и vmhba33, для которых используется конвергентный адаптер bnx2fc. При этом какие-то таргеты просто по FC видны.

Соответственно разобраться просто так по этой информации невозможно.

Для ускорения процесса если можете воспроизведите проблему с зависанием, запишите дату\время когда все это происходило, после чего выгрузите vm-support с хоста, чтобы можно было его в комплексе посмотреть.

Либо же надо смотреть команды в отдельности

esxcli storage core adapter list --> покажет список всех сторадж адаптеров для понимания

vmkload_mod -s bnx2fc | grep Version --> покажет версию установленного драйвера bnx2fc

0 Kudos
sssnur
Contributor
Contributor

Возможно машина переехала на другой хост, прикладываю все выводы команд  и логи заново

0 Kudos
Finikiez
Champion
Champion

Время, когда вы воспроизводили проблему, вы так и не написали.

Тем не менее ошибки схожие

2018-09-12T16:47:47.398Z cpu43:67479)NMP: nmp_ThrottleLogForDevice:3647: Cmd 0x28 (0x439dc8d66c80, 2450793) to dev "naa.600a0980383034746724467a59575071" on path "vmhba3:C0:T0:L73" Failed: H:0x8 D:0x0 P:0x0 Invalid sense data: 0x0 0x0 0x0. Act:EVAL

2018-09-12T16:47:47.398Z cpu43:67479)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600a0980383034746724467a59575071" state in doubt; requested fast path state update...

2018-09-12T16:47:47.398Z cpu43:67479)ScsiDeviceIO: 2918: Cmd(0x439dc8d66c80) 0x28, CmdSN 0x80000031 from world 2450793 to dev "naa.600a0980383034746724467a59575071" failed H:0x8 D:0x0 P:0x0

2018-09-12T16:47:47.598Z cpu41:67479)ScsiDeviceIO: 2933: Cmd(0x439dc1732840) 0x28, CmdSN 0x80000031 from world 2450793 to dev "naa.600a0980383034746724467a59575071" failed H:0x8 D:0x0 P:0x0 Invalid sense data: 0x0 0x0 0x0.

2018-09-12T16:47:47.998Z cpu41:67479)ScsiDeviceIO: 2933: Cmd(0x439dcefd4340) 0x28, CmdSN 0x80000031 from world 2450793 to dev "naa.600a0980383034746724467a59575071" failed H:0x8 D:0x0 P:0x0 Invalid sense data: 0x80 0x41 0x0.

2018-09-12T16:48:47.398Z cpu15:66593)NMP: nmp_ResetDeviceLogThrottling:3445: last error status from device naa.600a0980383034746724467a59575071 repeated 3 times

vmhba3 - это qlogic.

Драйвер и прошивка вроде бы не сильно старые.

Но ради эксперимента можно обновиться, например вот на эту версию Download VMware vSphere  и понаблюдать.

А еще смотреть в ошибки на портах SAN коммутатора. Они там есть относительно хоста и портов, куда подключена СХД?

0 Kudos