1 2 Previous Next 20 Replies Latest reply on Dec 24, 2019 2:33 AM by Aleks_UPNK2019

    намертво зависает виртуальная машина

    Aleks_UPNK2019 Novice

      Добрый день!

      Есть хост HP DL180 G9, на нем крутится 2 виртуальные машины. Обе под win2012 R2.

      Первая как файловый сервер - работает стабильно. Вторая как сервер видеонаблюдения - в хаотичном порядке намертво зависает. Приходится на холодную тушить весь хост через iLo.

      Причем зависание происходят в основном ночью, когда нагрузка минимальна.

      прилагаю vmkernel.log хоста на момент зависания.

      Как я понял каждые 5 минут хост опрашивает все подключения дисков(диски проброшены LUN-ами подсоединены две полки HP 3600 по 12 дисков в каждой, 2 диска проброшено на файловый сервер, остальные на второй), и в один прекрасный момент хост не может опросить один из дисков и пытается переподключить в итоге все диски. Но что то проходит не так и виртуалка зависает. При этом файловый сервер работает в штатном порядке.

       

      Подскажите в какую сторону копать? С чего начать решение проблемы. Если нужны какие то другие логи хоста или виртуалки могу предоставить.

       

      Заранее большое спасибо откликнувшимся.

       

      P.S система ставилась из образа для HP оборудования. накатан 6.0 u2 на данный момент

        • 1. Re: намертво зависает виртуальная машина
          Finikiez Master
          vExpert

          Добрый день!

           

          Рекомендую начать с обновления драйвера hpsa.

          По логу естественно его версию не узнать.

          Текущую версию можно узнать командой vmkload_mod -s hpsa |grep Version

           

          Помимо этого проверьте физику, штатно ли работает vmhba2, через которую подключена дисковая полка. И нет ли ошибок iLO сервера по устройствам

          Как дополнительный вариант, можно обновить версию гипервизора до последней используя дистрибутив от HPE. С ним же будет обновлена версия драйвера

          • 2. Re: намертво зависает виртуальная машина
            Aleks_UPNK2019 Novice

            доброе утро!

            Вот версия драйвера  Version: Version 6.0.0.132-1OEM, Build: 2494585, Interface: 9.2 Built on: Nov 16 2017

            по iLo ошибок нет, все работает штатно.

            Прикладываю smart по дискам.

            SMART Information for disks.

             

            Device:  naa.50014ee20bc87116

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                75     0          74

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             131    0          107

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20bc87146

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                75     0          74

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          109

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20bc871d4

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                71     0          71

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          108

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20bc88943

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                75     0          75

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             129    0          109

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20bc8903f

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                70     0          69

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          103

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20bc9a604

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                73     0          73

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             129    0          111

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20f49d22b

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                90     0          90

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             129    0          119

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee20f49d518

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                89     0          88

            Power Cycle Count             100    0          100

            Reallocated Sector Count      193    140        193

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          119

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2611dbac4

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                70     0          69

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          107

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2611dbfd6

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                73     0          72

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             131    0          106

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2611e0026

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                70     0          68

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          101

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2611e01ea

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                81     0          81

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          109

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2611e7e2b

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                76     0          75

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             131    0          109

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee26168194c

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                85     0          85

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             129    0          111

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b673898d

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                70     0          68

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          99

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b6738ef2

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                80     0          79

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          106

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b6739f6f

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                73     0          72

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          110

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b673a2f0

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                71     0          70

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          110

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b673d213

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                73     0          73

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             131    0          107

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b6740c25

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                74     0          73

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          109

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b674c185

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                57     0          57

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             130    0          107

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b674c938

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                71     0          71

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             131    0          109

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b9f49a71

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                96     0          94

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             129    0          119

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

             

             

            Device:  naa.50014ee2b9f4c695

            Parameter                     Value  Threshold  Worst

            -----------------------------------------------------

            Health Status                 OK     N/A        N/A

            Media Wearout Indicator       N/A    N/A        N/A

            Write Error Count             N/A    N/A        N/A

            Read Error Count              200    51         200

            Power-on Hours                87     0          87

            Power Cycle Count             100    0          100

            Reallocated Sector Count      200    140        200

            Raw Read Error Rate           200    51         200

            Drive Temperature             129    0          119

            Driver Rated Max Temperature  N/A    N/A        N/A

            Write Sectors TOT Count       200    0          200

            Read Sectors TOT Count        100    0          253

            Initial Bad Block Count       N/A    N/A        N/A

            • 3. Re: намертво зависает виртуальная машина
              Finikiez Master
              vExpert

              Уточните, какая модель контроллера у вас установлена в сервере?

              Полки же SAS кабелями подключены, верно?

              • 4. Re: намертво зависает виртуальная машина
                Aleks_UPNK2019 Novice

                да полки SAS кабелем подключены.

                контроллер модель стоит HP Smart HBA H241

                • 5. Re: намертво зависает виртуальная машина
                  Finikiez Master
                  vExpert

                  Ок, драйвер для 6.0 выглядит плюс-минус актуальным.

                   

                  Судя по vmkernel вся проблема начинается с диска

                   

                  2019-11-21T20:32:24.211Z cpu0:33028)ScsiDeviceIO: 2651: Cmd(0x439d80180f40) 0x12, CmdSN 0x5dbff from world 0 to dev "naa.50014ee20bc88943" failed H:0x5 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

                  2019-11-21T20:32:25.157Z cpu8:854620)VMW_SATP_LOCAL: satp_local_updatePathStates:458: Failed to update path "vmhba2:C2:T1:L0" state. Status=Transient storage condition, suggest retry

                  2019-11-21T20:32:25.166Z cpu9:33155)<6>hpsa 0000:09:00.0: queue_depth updated. scsi 0:2:0:0: Direct-Access     ATA      WDC WD40EFRX-68W PHYS DRV SSDSmartPathCap- En- Exp=1 qd=10

                   

                  Давно вообще такое началось? Как часто происходит?

                  Я бы сравнил еще логи с этого инцидента и с предыдущих.


                  Вообще ошибки в vmkernel идут H:0x5, H:0x8, что указывает не на сторону диска\полки, а на проблемы драйвера\hba\канала связи.

                   

                  Но ничто не мешает еще попробовать посмотреть данные по работе с hpe acu под ESXi.

                   

                  В конце концов может быть если все проблемы начинаются с  одного и того же диска и есть гарантия на железо в HPE, открыть у них кейс и попробовать поменять.

                  Может быть для полки также есть прошивка на модули ввода\вывода, которую можно обновить.

                  • 6. Re: намертво зависает виртуальная машина
                    Aleks_UPNK2019 Novice

                    доброе утро. началось сравнительно недавно. Зависания происходят хаотично. Может система проработать недели две и ни разу не зависнуть, а может через день зависать. Причем все зависания происходят только ночью, ни днем, ни утром, ни вечером, а исключительно ночью между часом ночи и 4-х утра. Я сравнивал лог vmkernel.log с предыдущего зависания и там все начиналось с того же диска. Прикладываю его. между последними зависаниями прошло 10 дней, в предыдущий раз было дней 7, до этого было почти каждый день пару раз. И еще раз повторюсь - исключительно ночью. Может система какие то регламентные работы проводит по расписанию, можно это как то посмотреть?

                    На полки гарантии нет, к сожалению. на контроллер стоит (по данным iLO) прошивка 3,52, на самих полках firmware 3.64.

                    Интересно что ничего ни с сервером, ни с дисками, ни с полками не делали, вот все работало нормально и вот тебе началось.

                    В ближайшее время планируется расширение памяти на сервере, и планирую за одно накатить последнее обновление на гипервизор - вот теперь думаю стоит ли? Жду предложений!!!

                    еще вопрос : посмотреть данные по работе с hpe acu под ESXi. это как? где их и как смотреть? c vmware до этого почти не работал, сейчас так сказать учусь на ходу, поэтому прошу прощения за лузерство....

                    На счет прошивок для полок - сегодня покопаюсь на сайте HPE - возможно что то накопаю.

                     

                    вот что выдает команда esxcli storage core device stats get конкретно по диску с именем naa.50014ee20bc88943

                    naa.50014ee20bc88943

                       Device: naa.50014ee20bc88943

                       Successful Commands: 21576956

                       Blocks Read: 2805832

                       Blocks Written: 1165732208

                       Read Operations: 50757

                       Write Operations: 19938470

                       Reserve Operations: 0

                       Reservation Conflicts: 0

                       Failed Commands: 11

                       Failed Blocks Read: 0

                       Failed Blocks Written: 528

                       Failed Read Operations: 1

                       Failed Write Operations: 8

                       Failed Reserve Operations: 0

                    по другим дискам тоже есть ошибки , но не столько как тут. Может все таки умирает именно диск?

                    следовательно вопрос: Как вычислить какой диск с именем naa. где в полке стоит? должна же быть такая технология?

                    • 7. Re: намертво зависает виртуальная машина
                      e_espinel Hot Shot

                      Здравствуйте!

                      Эти типы поведения связаны с Firmware или Drivers. Устаревший или неисправный.

                       

                      Эти проблемы могут быть представлены через некоторое время и без какой-либо причины.

                       

                      Первым делом нужно обновить все Firmware оборудования: особенно дисковые контроллеры, диски,
                      Модули управления (ILO, IMM2  .. и т. д.).


                      Каждый производитель оборудования рекомендует устанавливать VMware с его пользовательским ISO.

                      Этот ISO включает Drivers, рекомендованные производителем.

                       

                      • 8. Re: намертво зависает виртуальная машина
                        Finikiez Master
                        vExpert

                        Судя по HCL от vmware, прошивки на адаптер есть гораздо более свежие

                        VMware Compatibility Guide - I/O Device Search

                         

                        В качестве плана действий я бы рассматривал:

                        1. Обновление FW на адаптере

                        2. Обновление гипервизора

                        3. Проверку физического подключения кабелей между сервером и дисковой полкой, а также световую индикацию на оборудовании.

                         

                        По поводу HPE ACU под ESXi

                        Команды например HPE Smart Array CLI commands on ESXi | Kalle's playground

                         

                        Если у вас стоит дистрибутив ESXi от HPE, то он должен быть установлен.

                        • 9. Re: намертво зависает виртуальная машина
                          e_espinel Hot Shot

                          Здравствуйте!

                           

                          Я не обратил внимания, но вы используете сборку vmware vsphrer 6.0 Build: 2494585, которая является версией GA.

                          необходимо обновить до последней доступной для серверов HP (2019)

                          link: Download VMware vSphere

                           

                          • 10. Re: намертво зависает виртуальная машина
                            Aleks_UPNK2019 Novice

                            Спасибо за ссылки. уже нашел кое какие команды по HPE ACU.

                            на данный момент план действий выстроил такой:

                            1. Обновить FW на адаптер.

                            2. Накатить апдейт на гипервизор до U3j от 09.2019 уже скачан , ждет своего времени.

                            в ближайшее время будет остановлен сервер для расширения физической памяти, вот в это время и займемся обновлениями.

                            Спасибо за поддержку и тему пока не закрываю, отпишусь по результатам работы тут.

                            • 11. Re: намертво зависает виртуальная машина
                              Aleks_UPNK2019 Novice

                              Добрый день всем жителям.

                              Ну вот возвращаемся к прежней теме.

                              Были произведены следующие работы:

                              1.Обновлен vCenter до последнего обновления для 6.0

                              2. Обновлен хост с зависающим сервером до версии vmware 6.0 U3 от 09,2019

                              3. Обновлены Firmware на железо сервера в частности: Bios, дискового контроллера, iLo

                              Но прошивку дискового контроллера пришлось вернуть прежнюю, по причине не понятной после обновления прошивки система не хотела видеть 5 дисков из 24 (и соответственно не стартовали виртуальные машины.)

                              после обновления сервер проработал 17 дней в нормальном режиме, все было отлично, хотел уже сюда отписаться что все работает, НО.....

                              тут пришел нежданчик, опять мертвое зависание виртуалки на хосте и опять что бы виртуалку оживить пришлось грузить весть хост через iLo.

                              файлик vmkernel.log прилагаю, сам смотрел его - походу система ругается на тот же диск что и раньше.

                              Подскажите направление пожалуйста. возможно такое что при обновлении хоста не все драйвера обновились или в обновлении не было каких то конкретных обновлений. Обновлялся с кустомной сборки для серверов HP от 09/2019

                              • 12. Re: намертво зависает виртуальная машина
                                e_espinel Hot Shot

                                Добрый день.

                                Если при обновлении Firmware контроллера система не хотела видеть 5 из 24 дисков. Скорее всего, это будет про уровень Firmware этих 5 дисков. Важно также обновить Firmware всех дисков.

                                Важно знать p/n дисков, потому что у некоторых есть серьезные проблемы из-за Firmware. производители часто публикуют оповещения об этих проблемах на дисках.

                                Вы можете указать, какие диски или исправления (Array) формируют устройство (device) naa.50014ee20bc88943, на котором больше всего ошибок в log (журнале).

                                • 13. Re: намертво зависает виртуальная машина
                                  Aleks_UPNK2019 Novice

                                  Добрый день. в том то и дело что я не знаю как определить какой физически диск соответствует device  naa.50014ee20bc88943. На данный момент ищу информацию как это узнать. Может кто из форумчан подскажет как определить соответствие физического диска с naa устройством??????

                                   

                                  • 14. Re: намертво зависает виртуальная машина
                                    Finikiez Master
                                    vExpert

                                    Команда esxcli storage core device list -d naa.50014ee20bc88943 может показать производителя и s/n диска

                                     

                                    Но есть подозрение, что дело в физике (в частности контроллер), потому что непонятно почему после обновления FW у вас перестали видеться диски.

                                    Прикрепленный лог работы смогу посмотреть чуть позже.

                                    1 2 Previous Next