Aleks_UPNK2019
Contributor
Contributor

намертво зависает виртуальная машина

Добрый день!

Есть хост HP DL180 G9, на нем крутится 2 виртуальные машины. Обе под win2012 R2.

Первая как файловый сервер - работает стабильно. Вторая как сервер видеонаблюдения - в хаотичном порядке намертво зависает. Приходится на холодную тушить весь хост через iLo.

Причем зависание происходят в основном ночью, когда нагрузка минимальна.

прилагаю vmkernel.log хоста на момент зависания.

Как я понял каждые 5 минут хост опрашивает все подключения дисков(диски проброшены LUN-ами подсоединены две полки HP 3600 по 12 дисков в каждой, 2 диска проброшено на файловый сервер, остальные на второй), и в один прекрасный момент хост не может опросить один из дисков и пытается переподключить в итоге все диски. Но что то проходит не так и виртуалка зависает. При этом файловый сервер работает в штатном порядке.

Подскажите в какую сторону копать? С чего начать решение проблемы. Если нужны какие то другие логи хоста или виртуалки могу предоставить.

Заранее большое спасибо откликнувшимся.

P.S система ставилась из образа для HP оборудования. накатан 6.0 u2 на данный момент

0 Kudos
27 Replies
Finikiez
Champion
Champion

Добрый день!

Рекомендую начать с обновления драйвера hpsa.

По логу естественно его версию не узнать.

Текущую версию можно узнать командой vmkload_mod -s hpsa |grep Version

Помимо этого проверьте физику, штатно ли работает vmhba2, через которую подключена дисковая полка. И нет ли ошибок iLO сервера по устройствам

Как дополнительный вариант, можно обновить версию гипервизора до последней используя дистрибутив от HPE. С ним же будет обновлена версия драйвера

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

доброе утро!

Вот версия драйвера  Version: Version 6.0.0.132-1OEM, Build: 2494585, Interface: 9.2 Built on: Nov 16 2017

по iLo ошибок нет, все работает штатно.

Прикладываю smart по дискам.

SMART Information for disks.

Device:  naa.50014ee20bc87116

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                75     0          74

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             131    0          107

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20bc87146

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                75     0          74

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          109

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20bc871d4

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                71     0          71

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          108

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20bc88943

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                75     0          75

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             129    0          109

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20bc8903f

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                70     0          69

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          103

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20bc9a604

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                73     0          73

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             129    0          111

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20f49d22b

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                90     0          90

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             129    0          119

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee20f49d518

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                89     0          88

Power Cycle Count             100    0          100

Reallocated Sector Count      193    140        193

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          119

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2611dbac4

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                70     0          69

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          107

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2611dbfd6

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                73     0          72

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             131    0          106

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2611e0026

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                70     0          68

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          101

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2611e01ea

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                81     0          81

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          109

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2611e7e2b

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                76     0          75

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             131    0          109

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee26168194c

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                85     0          85

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             129    0          111

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b673898d

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                70     0          68

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          99

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b6738ef2

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                80     0          79

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          106

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b6739f6f

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                73     0          72

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          110

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b673a2f0

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                71     0          70

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          110

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b673d213

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                73     0          73

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             131    0          107

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b6740c25

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                74     0          73

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          109

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b674c185

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                57     0          57

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             130    0          107

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b674c938

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                71     0          71

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             131    0          109

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b9f49a71

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                96     0          94

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             129    0          119

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

Device:  naa.50014ee2b9f4c695

Parameter                     Value  Threshold  Worst

-----------------------------------------------------

Health Status                 OK     N/A        N/A

Media Wearout Indicator       N/A    N/A        N/A

Write Error Count             N/A    N/A        N/A

Read Error Count              200    51         200

Power-on Hours                87     0          87

Power Cycle Count             100    0          100

Reallocated Sector Count      200    140        200

Raw Read Error Rate           200    51         200

Drive Temperature             129    0          119

Driver Rated Max Temperature  N/A    N/A        N/A

Write Sectors TOT Count       200    0          200

Read Sectors TOT Count        100    0          253

Initial Bad Block Count       N/A    N/A        N/A

0 Kudos
Finikiez
Champion
Champion

Уточните, какая модель контроллера у вас установлена в сервере?

Полки же SAS кабелями подключены, верно?

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

да полки SAS кабелем подключены.

контроллер модель стоит HP Smart HBA H241

0 Kudos
Finikiez
Champion
Champion

Ок, драйвер для 6.0 выглядит плюс-минус актуальным.

Судя по vmkernel вся проблема начинается с диска

2019-11-21T20:32:24.211Z cpu0:33028)ScsiDeviceIO: 2651: Cmd(0x439d80180f40) 0x12, CmdSN 0x5dbff from world 0 to dev "naa.50014ee20bc88943" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

2019-11-21T20:32:25.157Z cpu8:854620)VMW_SATP_LOCAL: satp_local_updatePathStates:458: Failed to update path "vmhba2:C2:T1:L0" state. Status=Transient storage condition, suggest retry

2019-11-21T20:32:25.166Z cpu9:33155)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 0:2:0:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

Давно вообще такое началось? Как часто происходит?

Я бы сравнил еще логи с этого инцидента и с предыдущих.


Вообще ошибки в vmkernel идут H:0x5, H:0x8, что указывает не на сторону диска\полки, а на проблемы драйвера\hba\канала связи.

Но ничто не мешает еще попробовать посмотреть данные по работе с hpe acu под ESXi.

В конце концов может быть если все проблемы начинаются с  одного и того же диска и есть гарантия на железо в HPE, открыть у них кейс и попробовать поменять.

Может быть для полки также есть прошивка на модули ввода\вывода, которую можно обновить.

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

доброе утро. началось сравнительно недавно. Зависания происходят хаотично. Может система проработать недели две и ни разу не зависнуть, а может через день зависать. Причем все зависания происходят только ночью, ни днем, ни утром, ни вечером, а исключительно ночью между часом ночи и 4-х утра. Я сравнивал лог vmkernel.log с предыдущего зависания и там все начиналось с того же диска. Прикладываю его. между последними зависаниями прошло 10 дней, в предыдущий раз было дней 7, до этого было почти каждый день пару раз. И еще раз повторюсь - исключительно ночью. Может система какие то регламентные работы проводит по расписанию, можно это как то посмотреть?

На полки гарантии нет, к сожалению. на контроллер стоит (по данным iLO) прошивка 3,52, на самих полках firmware 3.64.

Интересно что ничего ни с сервером, ни с дисками, ни с полками не делали, вот все работало нормально и вот тебе началось.

В ближайшее время планируется расширение памяти на сервере, и планирую за одно накатить последнее обновление на гипервизор - вот теперь думаю стоит ли? Жду предложений!!!

еще вопрос : посмотреть данные по работе с hpe acu под ESXi. это как? где их и как смотреть? c vmware до этого почти не работал, сейчас так сказать учусь на ходу, поэтому прошу прощения за лузерство....

На счет прошивок для полок - сегодня покопаюсь на сайте HPE - возможно что то накопаю.

вот что выдает команда esxcli storage core device stats get конкретно по диску с именем naa.50014ee20bc88943

naa.50014ee20bc88943

   Device: naa.50014ee20bc88943

   Successful Commands: 21576956

   Blocks Read: 2805832

   Blocks Written: 1165732208

   Read Operations: 50757

   Write Operations: 19938470

   Reserve Operations: 0

   Reservation Conflicts: 0

   Failed Commands: 11

   Failed Blocks Read: 0

   Failed Blocks Written: 528

   Failed Read Operations: 1

   Failed Write Operations: 8

   Failed Reserve Operations: 0

по другим дискам тоже есть ошибки , но не столько как тут. Может все таки умирает именно диск?

следовательно вопрос: Как вычислить какой диск с именем naa. где в полке стоит? должна же быть такая технология?

0 Kudos
e_espinel
Expert
Expert

Здравствуйте!

Эти типы поведения связаны с Firmware или Drivers. Устаревший или неисправный.

Эти проблемы могут быть представлены через некоторое время и без какой-либо причины.

Первым делом нужно обновить все Firmware оборудования: особенно дисковые контроллеры, диски,
Модули управления (ILO, IMM2  .. и т. д.).


Каждый производитель оборудования рекомендует устанавливать VMware с его пользовательским ISO.

Этот ISO включает Drivers, рекомендованные производителем.

Enrique Espinel
Senior Technical Consultant IBM, Lenovo and VMware.
VMware VSP-SV 2018, VTSP-SV 2018 VMware Technical Solutions Professional Hyper-Converged Infrastructure (VTSP-HCI 2018)
VMware Technical Solutions Professional (VTSP) 4 / 5.
Please mark my comment as the Correct Answer/Kudos if this solution resolved your problem Thank you.
Пожалуйста, отметьте мой комментарий как "Правильный ответ/Кудос", если это решение решило вашу проблему. Спасибо.
0 Kudos
Finikiez
Champion
Champion

Судя по HCL от vmware, прошивки на адаптер есть гораздо более свежие

VMware Compatibility Guide - I/O Device Search

В качестве плана действий я бы рассматривал:

1. Обновление FW на адаптере

2. Обновление гипервизора

3. Проверку физического подключения кабелей между сервером и дисковой полкой, а также световую индикацию на оборудовании.

По поводу HPE ACU под ESXi

Команды например HPE Smart Array CLI commands on ESXi | Kalle's playground

Если у вас стоит дистрибутив ESXi от HPE, то он должен быть установлен.

0 Kudos
e_espinel
Expert
Expert

Здравствуйте!

Я не обратил внимания, но вы используете сборку vmware vsphrer 6.0 Build: 2494585, которая является версией GA.

необходимо обновить до последней доступной для серверов HP (2019)

link: Download VMware vSphere

Enrique Espinel
Senior Technical Consultant IBM, Lenovo and VMware.
VMware VSP-SV 2018, VTSP-SV 2018 VMware Technical Solutions Professional Hyper-Converged Infrastructure (VTSP-HCI 2018)
VMware Technical Solutions Professional (VTSP) 4 / 5.
Please mark my comment as the Correct Answer/Kudos if this solution resolved your problem Thank you.
Пожалуйста, отметьте мой комментарий как "Правильный ответ/Кудос", если это решение решило вашу проблему. Спасибо.
0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Спасибо за ссылки. уже нашел кое какие команды по HPE ACU.

на данный момент план действий выстроил такой:

1. Обновить FW на адаптер.

2. Накатить апдейт на гипервизор до U3j от 09.2019 уже скачан , ждет своего времени.

в ближайшее время будет остановлен сервер для расширения физической памяти, вот в это время и займемся обновлениями.

Спасибо за поддержку и тему пока не закрываю, отпишусь по результатам работы тут.

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Добрый день всем жителям.

Ну вот возвращаемся к прежней теме.

Были произведены следующие работы:

1.Обновлен vCenter до последнего обновления для 6.0

2. Обновлен хост с зависающим сервером до версии vmware 6.0 U3 от 09,2019

3. Обновлены Firmware на железо сервера в частности: Bios, дискового контроллера, iLo

Но прошивку дискового контроллера пришлось вернуть прежнюю, по причине не понятной после обновления прошивки система не хотела видеть 5 дисков из 24 (и соответственно не стартовали виртуальные машины.)

после обновления сервер проработал 17 дней в нормальном режиме, все было отлично, хотел уже сюда отписаться что все работает, НО.....

тут пришел нежданчик, опять мертвое зависание виртуалки на хосте и опять что бы виртуалку оживить пришлось грузить весть хост через iLo.

файлик vmkernel.log прилагаю, сам смотрел его - походу система ругается на тот же диск что и раньше.

Подскажите направление пожалуйста. возможно такое что при обновлении хоста не все драйвера обновились или в обновлении не было каких то конкретных обновлений. Обновлялся с кустомной сборки для серверов HP от 09/2019

0 Kudos
e_espinel
Expert
Expert

Добрый день.

Если при обновлении Firmware контроллера система не хотела видеть 5 из 24 дисков. Скорее всего, это будет про уровень Firmware этих 5 дисков. Важно также обновить Firmware всех дисков.

Важно знать p/n дисков, потому что у некоторых есть серьезные проблемы из-за Firmware. производители часто публикуют оповещения об этих проблемах на дисках.

Вы можете указать, какие диски или исправления (Array) формируют устройство (device) naa.50014ee20bc88943, на котором больше всего ошибок в log (журнале).

Enrique Espinel
Senior Technical Consultant IBM, Lenovo and VMware.
VMware VSP-SV 2018, VTSP-SV 2018 VMware Technical Solutions Professional Hyper-Converged Infrastructure (VTSP-HCI 2018)
VMware Technical Solutions Professional (VTSP) 4 / 5.
Please mark my comment as the Correct Answer/Kudos if this solution resolved your problem Thank you.
Пожалуйста, отметьте мой комментарий как "Правильный ответ/Кудос", если это решение решило вашу проблему. Спасибо.
0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Добрый день. в том то и дело что я не знаю как определить какой физически диск соответствует device  naa.50014ee20bc88943. На данный момент ищу информацию как это узнать. Может кто из форумчан подскажет как определить соответствие физического диска с naa устройством??????

0 Kudos
Finikiez
Champion
Champion

Команда esxcli storage core device list -d naa.50014ee20bc88943 может показать производителя и s/n диска

Но есть подозрение, что дело в физике (в частности контроллер), потому что непонятно почему после обновления FW у вас перестали видеться диски.

Прикрепленный лог работы смогу посмотреть чуть позже.

0 Kudos
Finikiez
Champion
Champion

Вот список ваших дисков

2019-12-17T18:17:36.357Z cpu7:33141)<4>hpsa 0000:09:00.0: hpsa_update_device_info: dev id inquiry succeeded after 1 retries  scsi 1:0:0:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=0 qd=0

2019-12-17T18:17:36.357Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:1:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.359Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:2:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.361Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:3:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.362Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:4:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.404Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:5:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.407Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:6:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.410Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:7:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.414Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:8:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.470Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:9:0: Direct-Access     ATA      WDC WD40PURZ-85T PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.502Z cpu8:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:10:0: Direct-Access     ATA      WDC WD40PURZ-85T PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.553Z cpu8:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:11:0: Direct-Access     ATA      WDC WD40PURZ-85T PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.557Z cpu8:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:12:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.595Z cpu8:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:13:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.598Z cpu8:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:14:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.602Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:15:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.651Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:16:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.654Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:17:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.657Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:18:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.661Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:19:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.664Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:20:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.716Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:21:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.773Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:22:0: Direct-Access     ATA      WDC WD40PURZ-85T PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:36.817Z cpu9:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:23:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

Плюс у вас явные проблемы с производительностью.

Вот такие сообщения регистриуются

2019-12-12T08:06:21.990Z cpu2:32797)WARNING: ScsiDeviceIO: 1243: Device naa.600508b1001c673d5d4a3c8b8668b8d4 performance has deteriorated. I/O latency increased from average value of 17217 microseconds to 347104 microseconds.

2019-12-12T08:06:39.714Z cpu2:32797)WARNING: ScsiDeviceIO: 1243: Device naa.600508b1001c673d5d4a3c8b8668b8d4 performance has deteriorated. I/O latency increased from average value of 17386 microseconds to 347993 microseconds.

2019-12-12T08:06:41.067Z cpu4:32799)WARNING: ScsiDeviceIO: 1243: Device naa.600508b1001c673d5d4a3c8b8668b8d4 performance has deteriorated. I/O latency increased from average value of 17411 microseconds to 350987 microseconds.

2019-12-12T08:15:25.383Z cpu4:33166)ScsiDeviceIO: 1217: Device naa.600508b1001c673d5d4a3c8b8668b8d4 performance has improved. I/O latency reduced from 350987 microseconds to 69372 microseconds.

2019-12-12T08:31:03.067Z cpu4:37480)ScsiDeviceIO: 1217: Device naa.600508b1001c673d5d4a3c8b8668b8d4 performance has improved. I/O latency reduced from 69372 microseconds to 34600 microseconds.

2019-12-12T09:20:11.035Z cpu5:37484)ScsiDeviceIO: 2636: Cmd(0x43b5802dc780) 0x85, CmdSN 0x142cc from world 34383 to dev "naa.600508b1001c504e14c7a0db17c4899e" failed H:0x0 D:0x2 P:0x0 Valid sense d

....

2019-12-12T13:20:54.166Z cpu7:33967)FS3Misc: 1759: Long VMFS rsv time on 'datastore1' (held for 227 msecs). # R: 1, # W: 1 bytesXfer: 5 sectors

Я правильно же вас понял, что у вас каждый диск представляет отдельный датастор и никакого RAID нет?

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Доброе утро!.

Не совсем так.

в самом сервере стоит 8 дисков и они в райд.

к серверу присоединено 2 дисковых полки по 12 дисков в каждой и они проброшены(phisical RDM) в две виртуальные машины на этом хосте.

Судя по логам вот с одним из RDM дисков и начинаются проблемы(предположительно с naa.50014ee20bc88943).

а вот naa.600508b1001c504e14c7a0db17c4899e и naa.600508b1001c673d5d4a3c8b8668b8d4 это как я понял два массива сформированых из 8 дисков сервера.

Были произведены действия:

1. обновление vCenter до 3j обновления от 09.2019

2. обновление хоста с зависающем сервером  до версии 3j  от 09.2019

3. обновление iLo на сервере где работает зависающая VM

при обновлении хоста и vCenter применялась сборка для серверов HP Gen9

0 Kudos
Finikiez
Champion
Champion

если можете, прикрепите полный лог бандл с хоста (vm-support) и укажите имя проблемной ВМ

Так проще посмотреть.

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Бандл слишком большой поэтому выложил на файлообменник. вот ссылка VMware-vCenter-support-2019-12-23@15-23-09.zip — Yandex.Disk

имя проблемной машины vm-video.

0 Kudos
Finikiez
Champion
Champion

На мой взгляд далее нужно двигаться в сторону физики.

17 декабря проблема началась с выполнения SCSI команд в сторону первого диска в полке, потом полезли и все остальные

2019-12-17T16:59:43.201Z cpu11:32806)NMP: nmp_ThrottleLogForDevice:3302: Cmd 0x8a (0x43b986c846c0, 37480) to dev "naa.50014ee20bc88943" on path "vmhba2:C2:T1:L0" Failed: H:0xb D:0x0 P:0x0 Possible sense data: 0x6 0x29 0x0. Act:NONE

2019-12-17T16:59:43.201Z cpu11:32806)ScsiDeviceIO: 2613: Cmd(0x43b986c846c0) 0x8a, CmdSN 0x80000002 from world 37480 to dev "naa.50014ee20bc88943" failed H:0xb D:0x0 P:0x0 Possible sense data: 0x6 0x29 0x0.

2019-12-17T16:59:51.187Z cpu2:33151)<4>hpsa_ciss_submit:No SG list to reset.

2019-12-17T18:16:02.224Z cpu6:33028)NMP: nmp_ThrottleLogForDevice:3302: Cmd 0x12 (0x43b9802e8ac0, 0) to dev "naa.50014ee20bc88943" on path "vmhba2:C2:T1:L0" Failed: H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL

2019-12-17T18:16:02.224Z cpu6:33028)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.50014ee20bc88943" state in doubt; requested fast path state update...

2019-12-17T18:16:02.224Z cpu6:33028)ScsiDeviceIO: 2652: Cmd(0x43b9802e8ac0) 0x12, CmdSN 0x8e5c3 from world 0 to dev "naa.50014ee20bc88943" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

2019-12-17T18:16:42.216Z cpu2:1033976)<4>hpsa 0000:09:00.0: hpsa_slave_alloc: dev link is NULL for hpsa1 C1:B2:T1:L1.

2019-12-17T18:16:42.217Z cpu0:1014527)VMW_SATP_LOCAL: satp_local_updatePathStates:463: Failed to update path "vmhba2:C2:T1:L0" state. Status=Transient storage condition, suggest retry

2019-12-17T18:16:42.226Z cpu6:33028)ScsiDeviceIO: 2652: Cmd(0x43b9802e8ac0) 0x12, CmdSN 0x8e5cc from world 0 to dev "naa.50014ee20bc88943" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

2019-12-17T18:16:43.224Z cpu7:33141)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 1:2:0:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:16:52.213Z cpu5:33194)NMP: nmp_ResetDeviceLogThrottling:3446: last error status from device naa.50014ee20bc88943 repeated 1 times

2019-12-17T18:17:28.502Z cpu5:37480)VSCSI: 2595: handle 8206(vscsi0:12):Reset request on FSS handle 33884765 (7 outstanding commands) from (vmm0:vm-video)

2019-12-17T18:17:28.503Z cpu6:37513)VSCSI: 2873: handle 8206(vscsi0:12):Reset [Retries: 0/0] from (vmm0:vm-video)

2019-12-17T18:17:28.503Z cpu7:37513)WARNING: NMP: nmpDeviceTaskMgmt:2288: Attempt to issue lun reset on device naa.50014ee20bc88943. This will clear any SCSI-2 reservations on the device.

2019-12-17T18:17:28.503Z cpu7:37513)NMP: nmp_ThrottleLogForDevice:3302: Cmd 0x88 (0x43b985446240, 37480) to dev "naa.50014ee20bc88943" on path "vmhba2:C2:T1:L0" Failed: H:0x8 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL

2019-12-17T18:17:28.503Z cpu7:37513)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.50014ee20bc88943" state in doubt; requested fast path state update...

2019-12-17T18:17:28.503Z cpu7:37513)ScsiDeviceIO: 2613: Cmd(0x43b985446240) 0x88, CmdSN 0x80000019 from world 37480 to dev "naa.50014ee20bc88943" failed H:0x8 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

2019-12-17T18:17:28.503Z cpu7:37513)<6>hpsa 0000:09:00.0:    physical_reset scsi 1:2:1:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

2019-12-17T18:17:31.214Z cpu11:32947)VSCSI: 2998: Retry 0 on handle 8206 still in progress after 3 seconds

2019-12-17T18:17:31.504Z cpu5:37480)WARNING: VSCSI: 3711: handle 8206(vscsi0:12):WaitForCIF: Issuing reset;  number of CIF:1

2019-12-17T18:17:31.504Z cpu5:37480)WARNING: VSCSI: 2632: handle 8206(vscsi0:12):Ignoring double reset

2019-12-17T18:17:36.335Z cpu7:33141)<4>hpsa 0000:09:00.0: aborted: NULL_SDEV_PTR  TYPE:ioctl: TAG:0x00000000:00000330 LUN:0000000000801101 CDB:12010000040000000000000000000000

2019-12-17T18:17:36.357Z cpu7:33141)<4>hpsa 0000:09:00.0: hpsa_update_device_info: dev id inquiry succeeded after 1 retries  scsi 1:0:0:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=0 qd=0

naa.50014ee20bc88943 - это первый диск в вашей полке

naa.50014ee20bc88943:

   Display Name: ATA Serial Attached SCSI Disk (naa.50014ee20bc88943)

   Has Settable Display Name: true

   Size: 3815447

   Device Type: Direct-Access

   Multipath Plugin: NMP

   Devfs Path: /vmfs/devices/disks/naa.50014ee20bc88943

   Vendor: ATA    

   Model: WDC WD40EFRX-68W

   Revision: 0A82

sas.5001438032753710-sas.0-naa.50014ee20bc88943:

   UID: sas.5001438032753710-sas.0-naa.50014ee20bc88943

   Runtime Name: vmhba2:C2:T1:L0

   Device: naa.50014ee20bc88943

   Device Display Name: ATA Serial Attached SCSI Disk (naa.50014ee20bc88943)

   Adapter: vmhba2

   Channel: 2

   Target: 1

   LUN: 0

Он же подключен как 41 диск к ВМ

# vmkfstools -q vm-video_41.vmdk

Disk vm-video_41.vmdk is a Passthrough Raw Device Mapping

Maps to: vml.020000000050014ee20bc88943574443205744

Попробуйте его просто поменять. Затем надо разобраться, почему при обновлении FW контроллера не видны диски. Возможно эта проблема уйдет, если нет, то я бы уточнил в технической поддержке HPE этот момент. Либо гуглить и читать release notes к адаптеру.

Плюс еще идея, почему диски не видны после обновления FW контроллера - сама несовместимость прошивки на самих дисках. Потому что у вас есть диски разных типов

WDC WD40PURZ-85T и WD40EFRX-68W