7 Replies Latest reply on Jun 4, 2019 12:49 PM by Aleks_2016

    false-positive SNMP трапы от vmware 6.5

    Aleks_2016 Lurker

      Добрый день.

      Есть SNMP мониторинговая среда, есть esxi хосты  с vmware v.6. 5 которые корректно шлют трапы.

      Настало время переходить на новое железо. Итак,  Два сервера

      Сервер HPE DL380 Gen 9 пропатченый апрельским SPP. Image : VMware-ESXi-6.5.0-Update2-10719125-HPE-Gen9plus-650.U2.10.4.0.29-Apr2019.iso

      Сервер HPE DL380 Gen 10 пропатченый апрельским SPP. Image : VMware-ESXi-6.5.0-Update2-10719125-HPE-Gen9plus-650.U2.10.4.0.29-Apr2019.iso

      C Gen 9 всё нормально, но вот Gen 10 генерирует много лишних трапов. И Я не могу понять их природу.

      Например сервер посылает трап  с OID 1.3.6.1.4.1.6876.4.1.0.302

      Вопрос, есть суппорт на железо от HP, Есть суппорт на vmware. 

      Кому открывать тикет?

      Есть ли возможность в логах vmware посмотреть что генерирует эти трапы?

       

      Буду благодарен за любые идеи.

      Алексей.

        • 1. Re: false-positive SNMP трапы от vmware 6.5
          Finikiez Master
          vExpert

          Добрый день!

           

          Сколько всего Gen10 серверов? все ведут себя одинаково?

          Такие статус только по дискам или еще каким-то компонентам?

          Какой дисковый контроллер используется? Какая прошивка на нем установлена?

          • 2. Re: false-positive SNMP трапы от vmware 6.5
            Aleks_2016 Lurker

            Добрый,

            Gen 10 несколько , но на всех кроме тестогого установлен VMware 6.0 U (custom HPE image).

            Трапы сыплютя и по другим компонетам (CPU, PSU).

            На тестовом сервере стоит контроллер 816i, прошивка последняя, v1.98 от Апрельского SPP 2019.

             

            Не являсь большим экспертом по SNMP, моё понимание проблемы следующее

            1. Gen 9 имеет на борту iLO v4. функционал и количество сенсоров у которого много меньше по сравнению с Gen10 и iLOv5.

            Поэтому Gen9 + v6.5 не шлёт дополнительных трапов.

            2. Поскольку в Gen10 набор сенсоров намного расширен , и в v6.5 изменено ядро (по сравнению с v6.0) это даёт возможность через трапы слать более детальную инфу по состоянию сервера.

             

            Проблема в том что, скажем на старых серверах я получал трап уровня Warning 1.3.6.1.4.1.6876.4.1.0.302 (vmwESXEnvHardwareAlert)  в случае если у меня вылетал один из дисков в райде.

            С Gen10 и v6.5  я получаю этот трап (я так думаю) кождый раз когда один из дисков райда из за неактивности "засыпает" или "просыпается".

            Например:

            >>

            vmwESXEnvHardwareAlert [1] vmwEnvDescription.0 (OctetString): Unspecified 0 Dr_Stat_3I2_B002: In Failed Array - Deassert [2] vmwEnvEventTime.0 (OctetString): 07 e3 06 02 0c 38 0b 03  [3] vmwEnvIndicationTime.0 (OctetString): 07 e3 06 02 0c 38 0b 03  [4] vmwEnvPerceivedSeverity.0 (Integer): information [5] vmwEnvAlertType.0 (Integer): deviceAlert [6] vmwEnvSysCreationClassName.0 (OctetString): OMC_UnitaryComputerSystem [7] vmwEnvAlertingElement.0 (OctetString): root/cimv2:OMC_DiscreteSensor.DeviceID="11.0.40.6",CreationClassName="OMC_DiscreteSensor",SystemName="37383638-3330-5a43-3239-31393043474b",SystemCreationClassName="OMC_UnitaryComputerSystem" [8] vmwEnvAlertingFormat.0 (Integer): cimObjectPath [9] vmwEnvSystemName.0 (OctetString): 37383638-3330-5a43-3239-31393043474b [10] vmwEnvProviderName.0 (OctetString): RawIpmiProvider [11] snmpTrapEnterprise.0 (ObjectID): vmwESX

            >>

             

            Я конечно могу зафильтровать этот OID, но это значит что если в райде вылитит диск , то я этого тоже не замечу.

             

            Другие новые трапы   и моё их понимание (все трапы уровня  Warning):

            А)Изменение скорости вращёния вентиляторов (vmwESXEnvThermalAlert)

            1.3.6.1.4.1.6876.4.1.0.305 / Fan Device 3 Fan 3 DutyCycle:  - Lower Non-Critical / Fan Device 3 Fan 3 DutyCycle:  - Normal

            Б) Непонятно .. что-то связанное с сенсором температуры PSU (vmwESXEnvPowerAlert)

            1.3.6.1.4.1.6876.4.1.0.307 / Power Module (DC-to-DC) 2 17-VR P2:  - Lower Critical / Power Module (DC-to-DC) 2 17-VR P2:  - Normal

            В) "Засыпают" не занятые core в CPU (vmwESXEnvProcessorAlert)

            1.3.6.1.4.1.6876.4.1.0.308 ./ Processor 2 03-CPU 2:  - Lower Non-Critical / Processor 2 03-CPU 2:  - Normal

             

            Ещё одна мысль... просматривая последний VMWARE-ENV-MIB я натолкнулся на инфу что трапы 1.3.6.1.4.1.6876.4.1.0.301-310 являются "depricated"?

            И на смену им пришли новые OID - .1.3.6.1.4.1.6876.4.1.0.4XX

            Тогда появляется например такой вопрос:

            Если вместо (см выше)  vmwESXEnvThermalAlert /1.3.6.1.4.1.6876.4.1.0.305   я должен получать  vmwEnvIpmiSelFanRaised (.1.3.6.1.4.1.6876.4.1.0.420)  /  vmwEnvIpmiSelFanCleared (.1.3.6.1.4.1.6876.4.1.0.421) , как "попросит" esxi это сделать?

             

            Добавить какие-то мибы в SNMP? Тикет в HPE? Тикет в Vmware?

            Буду рад любым идеям.

            • 3. Re: false-positive SNMP трапы от vmware 6.5
              e_espinel Hot Shot

              Здравствуйте!

               

              Если вы еще не обновили Firmware ILO, это также может помочь в решении вашей проблемы.

              link: https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-a00053955en_us

               

              • 4. Re: false-positive SNMP трапы от vmware 6.5
                Finikiez Master
                vExpert

                Поддержу коллегу.

                При выходе 6.5U2 были проблемы с мониторингом.

                 

                Вот также KB от vmware VMware Knowledge Base  нужно шагнуть на следующий билд и проверить.

                • 5. Re: false-positive SNMP трапы от vmware 6.5
                  Aleks_2016 Lurker

                  День добрый,

                  Как уже упоминал HPE сервер пропатчен последним Апрельским (2019) SPP HPE.

                  Получается что всё самое последнее фирмваре для контролров, биоса, ило, etc уже установленно.

                   

                  Только что осознал что Апрельский custom image от HPE что я использую (VMware-ESXi-6.5.0-Update2-10719125-HPE-Gen9plus-650.U2.10.4.0.29-Apr2019.iso ) построен на ноябрьском (2018) билде (!!!).

                  Пропатчил vmware https://esxi-patches.v-front.de/ESXi-6.5.0.html до билда 13635690 (2019-05-14).

                  Оставлю на вечер/ночь - посмотрю будут ли те-же проблемы.

                  • 6. Re: false-positive SNMP трапы от vmware 6.5
                    e_espinel Hot Shot

                    Здравствуйте!

                    При входе в ILO вы видите те же ошибки, которые отображаются в ESXi, если это так, то это физические ошибки.
                    Чтобы быть уверенным, вы можете прикрепить:

                    event log of ILO

                    Active Health System Log  of ILO

                    • 7. Re: false-positive SNMP трапы от vmware 6.5
                      Aleks_2016 Lurker

                      Избавиться от глючных трапов вроде как удалось путём изменения hwsrc для snmp

                       

                      esxcli system snmp set --hwsrc sensors

                       

                      Смущает только информация от VMware:

                      >IPMI sensors were used for hardware monitoring in ESX/ESXi 4.x and earlier. The conversion of CIM indications to SNMP notifications is newly available in ESXi 5.0.

                       

                      С одной стороны я вроде как использую старый тип монироринга hardware, с другой стороны IMPI это синоним iLO (от HPE), то-есть я использую сенсоры iLO.

                      И почему это тогда считается устаревшим типом сбора данных?

                      Как я понимаю всё должно быть как раз наоборот, так как во времена ESX/ESXi 4.x and earlier iLO было абсолюдно недоразвито (iLo v1& v2) и использовать его сенсоры было наверное нелогично.