Всем привет!
Кто нибудь может посоветовать, что с этим можно сделать?
Есть двух-процессорный сервер, по 10 ядер на процессор. На нём 4 виртуальные машины. три не требовательные, четвертому выделено 18-ядер.
Numa распределены на два узла. Работает нормально, но периодически нагрузка сползает на один процессор, производительность падает((
Сейчас произошло после того ,как из включенной виртуалки я удалил ненужный HDD. Помогает обычно перезагрузка виртуалки.
Numa:
Добрый день!
Расскажите подроностей - версия гипервизора и его билд.
Что за сервер у вас используется вендор\модель?
Какая версия vmware tools установлена?
Что показывает task manager из гостевой ОС, когда возникает проблема?
Какие настройки power management установлены на ESXi?
И самое интересное, график из клиента - это о чем вообще? Какие там метрики вы построили?
Расскажите подроностей - версия гипервизора и его билд.
6.5.0 (Build 5310538)
Что за сервер у вас используется вендор\модель?
Сервер intel (Intel® Server Board S2600WT)
Какая версия vmware tools установлена?
Version
10279
Что показывает task manager из гостевой ОС, когда возникает проблема?
Загрузка под 100%) А если смотреть загрузку VM из гипервизора - 70%.
Если смотреть через esxtop - половина ядер загружена. То есть один проц.
Какие настройки power management установлены на ESXi?
Technology ACPI P-states Active Policy High performance
Вчера перезагрузил VM - опять всё ок.
Интересное поведение конечно) И да - на этом сервере крутится несколько версий сервера приложений 1С, и много много баз.
А процессоры какие?
Если у вас v3 процессор, то максимально поддерживаемая версия ESXi 6.0 с апдейтами, если v4, то 6.7 с апдейтами
VMware Compatibility Guide - System Search
Тем не менее, ваш билд - довольно старый, как минимум его надо обновить. Последний билд на сегодняшний день в 6.5 - 11925212
Плюс в task manager, какой процесс поедеает CPU в гостевой ОС?
Если в себя уходит лишь один процессор, то это также может быть проблемой на уровне физики. Я бы порекомендовал посмотреть в esxtop экран по кнопке p и разницу между used и util. Если она по двум процессорам отличается, то это вероятнее всего физика.
Процессоры CPU E5-2630 v4
А как корректно обновить билд, накатить сверху?
В гостевой машине CPU поедают процессы rphost, их там много, это же 1С.
По кнопке P как то так в данный момент (корректно работает)
Спасибо за ответ! )
Добрый день!
Скрин в первом сообщении когда сделан, в момент когда "хорошо" или "плохо"?
Добрый день.
В первом сообщении когда "плохо"
Виден момент разбалансировки, когда нагрузка падает на один процессор. Скриншот esxtop в первом сообщении тоже сделан когда "плохо"
А что с процессором у той ВМ, у которой N%L не 100%?
Что если выключать\перезагружать не "большую" ВМ, а одну из четырех, у которой часть памяти уходит в не родную ноду?
Я к тому, что на скрине в одной из нод на хосте из 65536 Гб свободно только 3273, и ВМ которая должна жить только в одной ноде, поскольку она "обычная", не может разместить свою память в родной ноде (просто не хватает памяти), ее проц. ломится через шину, что в теории может оказывать влияние и на соседние машины, особенно на "большую".
Да, есть такое дело.
Ну тут видимо ничего не поделать, так как на одной ноде ей действительно не хватает памяти. А ядер там всего 4, и numa не работает.
Живет она вполне себе нормально)
Экспериментировать я пробовал - выключал маленькие виртуалки, пытался на 100% искусственно загружать соседние - не помогало.
Именно ту, где N%L не 100% не могу - это exchange) В целом если ничего не трогать - то и всё остальное живёт нормально.
А память на большой ВМ никак нельзя уменьшить, на 4-8 Гб?
Как вариант, можно будет попробовать.
Выглядит странно, во всяком случае стоит сделать снимок экрана P, когда все плохо.
Плюс посмотрите, есть ли обновления FW для сервера, например, версия BIOS. Может баги какие-либо есть известные.
И вопрос - что пишет скрин с CPU в esxtop? Диски не тормозят в момент появления проблемы?
Сервер вроде в 2017 покупали, тогда всё что можно обновил и не трогал, так обновления скорее всего есть. Но это не сейчас) Но стоит конечно сделать. Билд ESXi как правильно корректно обновить?
Я кстати эту виртуальную машину перетаскивал с ESXi 5.5, ей уже лет пять наверное. А что скрин CPU? В данный момент загрузка ровная)
ESXi обновить очень просто
1. Можно обновиться с ISO образа
2. Можно скачать последний патч и обновиться с помощью команды esxcli software vib update VMware Knowledge Base
Скрин с CPU покажет, не ждет ли, например, процессор исполнения дисковых команд.
Вопрос - у вас там унаследованных лимитов по CPU нет?
Спасибо.
Скрин вот:
Нет, лимиты никому не устанавливал. Там всё ро дефолту.
Кстати вдогонку, есть еще один вопрос, когда самая большая виртуалка достигает максимума оперативной памяти, она тупо перезагружается. SWAP файл в виртуалке становится битым. Помогает перезагрузка и check disk. И так до следующего превышения памяти. У меня есть подозрения, что это из за переезда с esxi 5.5. Но в остальном проблем нет.
В логе нашёл такое:
2019-03-21T09:45:31.888Z| vcpu-11| W115: WinBSOD: Synthetic MSR[0x40000100] 0x24
2019-03-21T09:45:31.888Z| vcpu-11| W115:
2019-03-21T09:45:31.888Z| vcpu-11| W115: WinBSOD: Synthetic MSR[0x40000101] 0xc092d
2019-03-21T09:45:31.888Z| vcpu-11| W115:
2019-03-21T09:45:31.888Z| vcpu-11| W115: WinBSOD: Synthetic MSR[0x40000102] 0x2df6ff
2019-03-21T09:45:31.888Z| vcpu-11| W115:
2019-03-21T09:45:31.888Z| vcpu-11| W115: WinBSOD: Synthetic MSR[0x40000103] 0xdf656000
2019-03-21T09:45:31.888Z| vcpu-11| W115:
2019-03-21T09:45:31.888Z| vcpu-11| W115: WinBSOD: Synthetic MSR[0x40000104] 0xe0000000
2019-03-21T09:45:31.888Z| vcpu-11| W115: