Contributor
Contributor

Cannot synchronize host xxx. Operation timed out.

Схема инфраструктуры - два кластера С1 и С2. В каждом кластере по дюжине IBM Blade HS22 ESXi 4.1 вперемешку с 4.1U1 + некоторое количество SAN storage c VM. Кластеры независимые каждый со своим набором SAN и vDSwitch. Virtual Center на VM в кластере С1. БД Oracle на VM в кластре С1. HA+DRS

С какого то момента лезвия в кластере С1 стали выдавать ошибки Cannot sinchronize host xxx. Operation timed out.

Операции с VM на С1 зависают или отваливаются с ошибками cannote communicate host и прочими похожими. Логон в консоль ESXi идет от 2 до трех минут.

В кластере С2 все работает в лет.

Что делалось. DRS выставлен в минимум или вовсе отключается.

Рестарт managment agenta не помогает, через какое-то время ошибка появляется снова.

Перезагрузка хостов ESXi не помогает.

Разгрузили кластер перетащив с него половину VM, ресурсов вдвое больше требуемого для этого количества VM, никакого эффекта.

Раскладка по кластерам - С1 большой, С2 поменьше.

ibm-support-request2.jpg

0 Kudos
5 Replies
Virtuoso
Virtuoso

К тому что делали вы могу только добавить вывод хоста из VC и заведение обратно (будет переустановлен vpxa & ha-agent)

И проверьте, что все нормально со всех концов с разрешением имен хостов (смущает ваш медленный логин)

Contributor
Contributor

Попробовал на файловер хосте, не помогло. через полчаса опять таймауты.

Резолв хоста нормальный.

0 Kudos
Virtuoso
Virtuoso

> Резолв хоста нормальный

Проверяли так:Identifying issues with and setting up name resolution on ESX/ESXi Server?

Кроме того в помощь:
Troubleshooting VMware High Availability (HA)

Contributor
Contributor

Почти как по рекомендации, без проверки файла /etc/hosts

Нашли странный параметр после рекконекта хоста в кластер С1 и накатки профиля - mem.VMOverheadgrowthLimit выставлен в максимуальное значение 42..... выставить в 0 или в 5 не получается - отвал по таймауту виртуал центра.

Сравнили с С2 - там параемтр выставлен в 0.

0 Kudos
Contributor
Contributor

Проблема разрешилась после полной перезагрузки BladeCenter.

После рестарта части виртуальных машин путем прямого коннекта к хостам в обход Virtual Center получилось там же вернуть mem.VMOverheadGrouthLimit в 0. Кластер восстановил функциональность. Причину почему параметр выставился в максимальное значение не нашел.

0 Kudos