SergeyKalugin
Contributor
Contributor

Проблема с сетью у кластера MSCS на ESXi 3.5 U3

Периодически возникают проблемы с доступностью машинок по сети, большие задержки и пропадание "пингов". Инфрструктура следующая. Есть 4 blade лезвия расположенных в двух разных IBM BladeCenter. Виртуальные машинки и реальные сервера все находятся в одном vlan. Все заведены на один коммутатор (лезвия через блейдовый коммутатор). В течении дня наблюдаю стохастические большие задержки по сети. Причем, есть пара машинок в MSCS кластере, так они теряют внутрикластерную связь и он начинает скакать между ними:

The node lost communication with cluster node 'filesrv1' on network 'PUBLIC'.

The node lost communication with cluster node 'filesrv1' on network 'PRIVATE'.

Cluster node filesrv1 was removed from the active server cluster membership. Cluster service may have been stopped on the node, the node may have failed, or the node may have lost communication with the other active server cluster nodes.

Машинки были разведены между соседними лезвиями. Запустил их на одном - не помогает. У меня подозрение, что сетевые проблемы напрямую зависят от нагрузки на машинки.Наболее это заметно на кластере. В момент потери связи на машинке, которая держит кластерные ресурсы большую нагрузку дает процесс system. По microsoft задержки в сети могут быть вызваны большой утилизацией CPU. Создал Resource pool для этих двух машинок. Гарантировано выдал им 5000 Мгц. Пару недель все было хорошо. Но пару последних ночей машинки опять теряли связь. Если смотреть загрузку по CPU на самих машинках, то в момент переезда возникает пик до 2000 у.е., но это все равно меньше 5000. Что интересно. Согласно графику производительности на одном из ESX 100 процентам соответствует 7000 Мг, на другом - 6000. При этом, в свойствах recource pool я могу выделить до 40000Мг. Это почему?

0 Kudos
4 Replies
Igor_Nemilosti1
Contributor
Contributor

Сергей, в какой vlan включен интерфейс IBM AMM ?

--

Igor Nemilostivy

-- Igor Nemilostivy
0 Kudos
SergeyKalugin
Contributor
Contributor

Igor, интерфейс AAM, управляющий интерфейс ESX, виртуальные и железные сервера находятся в одном vlan. Была проблема с кластером между виртуальной и "железной" машинкой. Тоже теряли пакеты друг с другом. На сайте IBM нашел решение - отключил поддержку SerialOverLan на лезвиях.

0 Kudos
Igor_Nemilosti1
Contributor
Contributor

Попробуйте AMM перевести в другой vlan (что бы шыроковещательные пакеты из vlan'а лезвий не попадали на интерфейс AMM) или временно отключите его вообще (выдерните патчкорд).

--

Igor Nemilostivy

-- Igor Nemilostivy
SergeyKalugin
Contributor
Contributor

Igor, первел в другой vlan. Жду прецендентов.

0 Kudos