Highlighted
Enthusiast
Enthusiast

Добрый день, форумчане.

Подскажите в чем может быть проблема

pastedImage_0.png

1 Solution

Accepted Solutions
Highlighted
Enthusiast
Enthusiast

Добрый день, Finikiez. Благодарю за Вашу помощь.

Нашел решение проблемы. Как смешно бы это не звучало, проблема была в версии lsiprovider (SMIS Provider) от 2016 года.

У нас на контроллерах стоит свежая версия драйверов от 2017 года, а lsiprovider стоит от 2016 года. Версию 2016 года используем по причине ее стабильности (теперь уже не будем использовать). Обновил до актуальной версии , теперь гипервизор работает исправно. Мы подумали с коллегами, и решили вообще отказаться от cim сервера, и запилить что-то в cron чтобы была проверка массива, и отправка уведомлений. Может быть имели какой-нибудь опыт с мониторингом массива через cron ?

View solution in original post

20 Replies
Highlighted
Champion
Champion

Добрый день!

На каком оборудовании установлен этот падающий ESXi?

И как часто он падает?

0 Kudos
Highlighted
Enthusiast
Enthusiast

Доброе утро, Finikiez.

Оборудование Supermicro, частота примерно 1 раз в 1,5 - 2 недели.

Комплектность:

pastedImage_0.png

0 Kudos
Highlighted
Champion
Champion

Я не нахожу  данный сервер в списке совместимых с ESXi

VMware Compatibility Guide - System Search

Тем не менее рекомендую проверить две вещи:

1. Протестировать оперативную память на предмет наличия аппаратных ошибок.

2. Обновить BIOS сервера до последней версии, какая есть в наличии у Supermicro.

3. Проверить настройки BIOS на тему режима управления питанием. Выставить там OS Control или High Performance.

0 Kudos
Highlighted
Enthusiast
Enthusiast

Случайно нет перерасхода памяти, и достаточно ли места под swap?

0 Kudos
Highlighted
Champion
Champion

Получилось проверить версии BIOS \ настройки \ память?

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый вечер, к сожалению пока что нет, сервер находится в продакшн среде.

Надо подобрать окно в котором сможем провести проверку, обычно этот период воскрсение в 4 утра. Пока что за последнии 2 недели не уходил в psod. По результату обязательно отпишусь Вам.

-------------------

Заметил особенность, у нас сейчас на тестах, (готовим дополнительный сервер в стойку), находится аналогичный сервер (идентично все), запустили на нем нагрузочный тест (клонирование вирт. машин, их включение/выключение/удаление, создание снепшотов/удаление). Когда массив собран на raid 10 по 4 диска в страйпе, при 24 дисках, сервер в таком режиме работает неделю и больше, никаких PSOD при таком режиме нет. Но когда массив собираем raid 60, в страйпе по 11 дисков и 2 диска как хотспэр (такая же конфигурация у сервере в продакшн среде - raid60), то при таком же нагрузочном тесте он, успешно работает день или два, и вываливает такой же фиолетовый экран. Я думаю буду копать проблему на этом сервере, и ее решение , устранит проблему на том что в продакшн среде, первым делом посмотрю настройки биос как Вы рекомендовали.

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый вечер, Finikiez.

Выполнил рекомендуемые Вами проверки, и настройки. С настройками BIOS power management, эксперементировал по разному как рекомендовали Вы - ставил максимум производителности, режим сбалансированной производительности, режим power работы, режим контроля OS. Проверил память, проблем с ней нет. Во всех случая в raid60 гипервизор уходит в psod, этой же проблемы в raid10 гипервизор работает исправно. На 10 рейд переходить не хотим, успираемся в свободное место. Подскажите куда копать дальше, пожалуйста ?

Настройки BIOS в которых производил изменения, выглядит так:

m322-bios.PNG

Приложил снимки экрана с возникшими psod, при тестировании.

0 Kudos
Highlighted
Champion
Champion

Это странно, но все бэктрейсы у вас ссылаются на работу с памятью.

Если копать в сторону проблем с контроллерами, пришлите вывод команды
esxcli storage core adapter list

В вывод команды будет столбец с драйвером для каждого контроллера.

Его название нужно подставить в вывод следующей команды, чтобы узнать установленную версию. Пришлите вывод также

vmkload_mod -s <имя драйевера> | grep Version

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый день, Finikiez

Прошу прощения за долгий ответ, прикладываю информацию.

pastedImage_0.png

0 Kudos
Highlighted
Champion
Champion

Судя по спецификации у вас внутри сервера 2 LSI контроллера разной модели.

При этом один контроллер использует драйвер lsi_mr3 (его версия судя по HCL VMware последняя), второй контроллер использует драйвер mpt2sas (для этого драйвера из HCL актуальная версия 20.00.01.00-1OEM).

Вы RAID6 собираете на дисках, которое подключены к какому контроллеру?

Чтобы я проверил дополнительно :

1. Актуален ли драйвер mpt2sas?

2. Установлены ли у вас актуальные прошивки на LSI контроллерах?

3. Тупо не перегревается ли один из них?

4. Еще интересно посмотреть в логи vmkernel до падения хоста или можно тестовым редактором почитать дамп PSOD и посмотреть события идущие незадолго до бэктрейсов.

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый день, Finikiez.

Да, верно у нас стоит 2 контроллера, мы используем лишь один, второй не используется вовсе.

Используется контроллер Avago LSI (lsi_mr3), на нем я актуализировал версию прошивки и версию драйвера до последний, и на нем как раз собираем RAID60.

Все драйвера устаналивал отсюда: MegaRAID SAS 9361-8i   (MR 6.14 - Latest Megaraid Driver)

1. Актуален ли драйвер mpt2sas? // не используем этот контроллер

2. Установлены ли у вас актуальные прошивки на LSI контроллерах? // версия прошивок контроллера актуальная

3. Тупо не перегревается ли один из них? // проверю этот момент

4. Еще интересно посмотреть в логи vmkernel до падения хоста или можно тестовым редактором почитать дамп PSOD и посмотреть события идущие незадолго до бэктрейсов. // скину лог как сервер уйдет PSOD.

Очень благодарен за поддержку, Вам.

0 Kudos
Highlighted
Champion
Champion

Дамп после PSOC должен быть сохранен в /var/core

Посмотрите там.

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый вечер, Finikiez.

Как Вы просили, прикладываю vmkernel.log

К сожалению, в каталоге /var/core - дамп не сохранился.

Так же сегодня произвел обновление гипервизора на последнии обновления для ESXi 6.0 Виртуализация - Последние обновления VMware vSphere 6.0 - ESXi и vCenter Update 3c. , но результата это не дало в данной ситуации, надежда конечно была Smiley Happy

Посмотрите пожалуйста лог файл, по московскому времени хост "гикнулся" в 18-33, 08.02.2018.

Сегодняшний PSOD:

pastedImage_0.png

0 Kudos
Highlighted
Champion
Champion

Вопрос: у вас сам ESXi установлен на флэшку или на эти же самые диски?

Если на флэшку и у вас не прописан путь, куда сохранять логи, то с перезагрузкой они теряются.

Если на дисках, то помосмотрите, пожалуйста, директорию /var/run/log и есть ли там vmkernel логи ротированные.

Прикрепленный файл содержит сообщения начиная с момента последнего старта сервера.

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый день.

Благодарю за наводку, Finikiez, нашел ротированные логи (во вложении)

Вчера нам пришли новые контроллеры, установил его в сервер (LSI SAS 9361-8i), так же установил гипервизор на raid массив (установил все драйвера), а не на флешку как было до этого. Гипервизор так же ушел в psod...

pastedImage_2.png

Дата и время зависания - 9.02.2018 в 19:42 по МСК (в логе время с разницей в -3 часа 16:42), прикрепил 2 ротированных файла, с момента установки гипервизора на массив. Информация с зависанием в файле vmkernel.0.txt

Посмотрите пожалуйста.

0 Kudos
Highlighted
Champion
Champion

К сожалению, логи заканчиваются на том, что включилась виртуальная машина и далее процесс загрузки  самого ESXi после PSOD.

Ошибок в выполнении команд при обращении к контроллеру я не вижу.

Меня все не покидает мысль о том, что сервер падает только при собранном RAID6. При этом в большинстве экранов с PSOD бэктрейся указывают на момент работы с памятью.

Из идей, что еще можно посмотреть, в голову пришло вот что - проверить настройку PCI 64-Bit Resource Allocation в BIOS хоста. Посмотрите, включена ли она у вас?

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый день, Finikiez.

В любом случае, благодарю Вас за помощь.

Спасибо за рекомендацию (PCI 64-Bit Resource Allocation) - я посмотрю сегодня, в идеальном случае она должна быть включена ?

0 Kudos
Highlighted
Champion
Champion

Да, ее надо попробовать включить, если она выключена.

0 Kudos
Highlighted
Enthusiast
Enthusiast

Добрый день, Finikiez. Благодарю за Вашу помощь.

Нашел решение проблемы. Как смешно бы это не звучало, проблема была в версии lsiprovider (SMIS Provider) от 2016 года.

У нас на контроллерах стоит свежая версия драйверов от 2017 года, а lsiprovider стоит от 2016 года. Версию 2016 года используем по причине ее стабильности (теперь уже не будем использовать). Обновил до актуальной версии , теперь гипервизор работает исправно. Мы подумали с коллегами, и решили вообще отказаться от cim сервера, и запилить что-то в cron чтобы была проверка массива, и отправка уведомлений. Может быть имели какой-нибудь опыт с мониторингом массива через cron ?

View solution in original post