RussiaVUG
Contributor
Contributor

Потеря большого количества пингов в VMotion

Подскажите пожалуйста в решении следующей проблемы. Между двумя серверами (ESXi 4.1) настроен VMotion.При миграции ВМ происходит потеря связи с примерно на минуту.На каждом из хостов vSwitch Load Balancing политика настроена на route based on IP hash. К виртуальным коммутаторам подключены 2 сетевых интерфеса. На физических коммутаторах соотвествующие порты настроены в канал(link aggregation). В чем может быть проблема?

0 Kudos
20 Replies
denisbaturin
Enthusiast
Enthusiast

Dmitry wrote:

Подскажите пожалуйста в решении следующей проблемы. Между двумя серверами (ESXi 4.1) настроен VMotion.При миграции ВМ происходит потеря связи с примерно на минуту.На каждом из хостов vSwitch Load Balancing политика настроена на route based on IP hash. К виртуальным коммутаторам подключены 2 сетевых интерфеса. На физических коммутаторах соотвествующие порты настроены в канал(link aggregation). В чем может быть проблема?

Вероятно у вас выключен портфаст на физ.свитчах.

kb.vmware.com/kb/1003804

----- Think Twice Before Installing Something
0 Kudos
EugeneDM
Contributor
Contributor

А причём тут portfast и vmotion.

Там сказано про STP и фэйловер и фэйлбэк.

А вкакой LinkAgg вы собрали порты со стороны свича? А в свиче указали что load-balancing по политике src-ip или dsc-ip илл src-dst-ip ?

Выложите пожалуйста марку, модель и конфиг свича?

Это точно со стороны свича проблемы

0 Kudos
EugeneDM
Contributor
Contributor

vmkping _ip_in_vmotion_int_

c ESX-ов что говорит?

Логи свича

0 Kudos
Umlyaut
Expert
Expert

EugeneDM wrote:

А в какой LinkAgg вы собрали порты со стороны свича?

А в свиче указали что load-balancing по политике src-ip или dsc-ip илл src-dst-ip ?

Выложите пожалуйста марку, модель и конфиг свича?

По первому - я тоже сразу подумал, что топикстарер мог по привычке забубенить LACP-группу (динамик), хотя Варя английским по белому требует статику.

По второму - далеко не на всех свитчах есть возможность выбора политики балансировки (обычно есть на более-менее продвинутых, с консолью), т.ч. у ТС может просто не быть выбора кроме (неизвестной) дефолтной установки (которая, кстати, в общем случае, нормально работает - по крайней мере, без таких драматических задержек, как у ТС).

По третьему Вы абсолютно правы - без инфы о свитче это всё вообще вырождается в гадание по лунным лучам на болотной глади... :smileygrin:

0 Kudos
denisbaturin
Enthusiast
Enthusiast

EugeneDM wrote:

А причём тут portfast и vmotion.

Там сказано про STP и фэйловер и фэйлбэк.

Внимательное прочтение статей, на 95% гарантирует отсутствие дальнейших вопросов:

Then STP convergence is initiated it forces all of the physical switches in the STP domain to dump their forwarding tables and relearn the STP topology and all MAC addresses. This process can take between 30-50 seconds. During this time, no user data passes through the port

При переезде виртуальной машины с одного хоста на другой, если включен stp, включается механизм convergence, потому как MAC машинки появляется на другом порту.

There are two ways to prevent the 30-50 second loss of connectivity during STP convergence
1. Set STP to Portfast on all switch ports that are connected to network adapters on an ESX host.
2. Disable STP.
----- Think Twice Before Installing Something
RumataRus
Commander
Commander

Dmitry wrote:

На каждом из хостов vSwitch Load Balancing политика настроена на route based on IP hash. К виртуальным коммутаторам подключены 2 сетевых интерфеса. На физических коммутаторах соотвествующие порты настроены в канал(link aggregation). В чем может быть проблема?

Если у Вас линки от каждого хоста идут на РАЗНЫЕ коммутаторы, то далеко не все физические коммутаторы такую конфигурацию поддерживают при условии политики IP hash. То, что они поддерживают link aggregation - этого мало, они должны быть стекируемыми.

denisbaturin
Enthusiast
Enthusiast

EugeneDM wrote:

А вкакой LinkAgg вы собрали порты со стороны свича? А в свиче указали что load-balancing по политике src-ip или dsc-ip илл src-dst-ip

А вот тиминг и алгоритм балансировки как раз не влияют на пропадение связи во время vmotion.

Если пинг был и потом опять появился , значит каким-то образом LA собирается (или выключается второй порт). Балансировка по любому алгоритму основаному на ip будет давать один и тот же хэш, поскольку сорс и дест адреса не меняются. А если вдруг тиминг не собрался, то балансировка работать не будет.

Таким образом предположение о проблемах с LA маловероятны. Но бывает всякое...Smiley Wink

----- Think Twice Before Installing Something
0 Kudos
denisbaturin
Enthusiast
Enthusiast

vRumata wrote:

Если у Вас линки от каждого хоста идут на РАЗНЫЕ коммутаторы, то далеко не все физические коммутаторы такую конфигурацию поддерживают при условии политики IP hash. То, что они поддерживают link aggregation - этого мало, они должны быть стекируемыми.

Румата, если свитчи не стекируемые, то la просто не соберется и stp найдет петлю и выключит порт.

----- Think Twice Before Installing Something
0 Kudos
RumataRus
Commander
Commander

Денис, если подключать линки в ОДИН коммутатор, то LA прекрасно соберется.

Есть масса коммутаторов, которые поддерживают LA, но они не стекируемые.

0 Kudos
RussiaVUG
Contributor
Contributor

Свитч 3COM 5500G-EI-24-Port.

В LA настроены порты одного коммутатора,хотя их сейчас два.

Настройки одного из порта канала следующие:

Link typetrunk
Duplexauto(full)
Speedauto(1000)
Port isolatedisable
MDIauto
Jumbo framedisable
Flow controldisable
Broadcast suppression3000(pps)

При vMotion теряется не всегда одинаковое кол-во пингов.Может потерять от 3 до 30. Не могу выявить закономерность.Причем сначала при настройке все работало нормально.Но сейчас нагрузка на ВМ не сильно большая,а роботает все как-то не так. Может ли повлиять на это тот факт, что на одном ESXi в тиме 2 сетевые карточки,а на другом 6 ?

Настройки по умолчания,я особо не трогал.

0 Kudos
EugeneDM
Contributor
Contributor

Dmitry wrote:

а роботает все как-то не так. Может ли повлиять на это тот факт, что на одном ESXi в тиме 2 сетевые карточки,а на другом 6 ?

Что конкретно работает как-то не так? И что ВСЁ работало нормально сначала при настройке?

Нет не может.

Кстати, меня тут осенило и я понял что ошибся.....это всё от неправильно заданного вопроса. Я так понял, что пинги у ТС пропадают между какой-то внешней машинкой (за пределами 3Com-овского свича и подключенных к нему ESX-ов) и ВМ, которая делает VMotion.

Я думал у него пинги пропадают между интерфейсами, сконфигурированными для VMotion во время этого самого VMotion.

0 Kudos
EugeneDM
Contributor
Contributor

Судя по конфигам vSwitch вы абсолютно не используйте разграничение по VLAN. Хотя в рекомендациях по проектированию сетевой структуры я читал, что нужно либо делать каждому виду трафика (VMotion, FT, VMKernel, VMNetwork) выделенный ethernet, либо разделять их VLAN-ами.

....и ещё, вы можете выложить листинг конфига портов в текстовом виде,а то через WebGUI плохо воспринимается?

Если, всё-таки, проблема состоит всё-таки в том, что я понял (в пред посте)...пинги между компом и ВМ.... то здесь я согласен с  denisbaturin, может быть проблема с STP.

0 Kudos
denisbaturin
Enthusiast
Enthusiast

Dmitry wrote:

Свитч 3COM 5500G-EI-24-Port.

Я не особо знаток 3COMовских поделок, но гдето там в менюшках для порта должна быть опция stpFastStart или почитайте в гайде, как включить RSTP.

----- Think Twice Before Installing Something
0 Kudos
RumataRus
Commander
Commander

Denis Baturin wrote:

Я не особо знаток 3COMовских поделок

Я тоже не большой знаток изделий 3COM, но за более чем 10-летнюю практику использования этих коммутаторов ни разу ни один из них меня не подвел, а было их у меня около двух десятков.

IMHO это вполне достойные "поделки" особенно для сектора SMB (жаль, что фирмы 3COM больше нет), а 5500G-EI - далеко не последний стекируемый коммутатор. Smiley Wink

Однако, это лирика, а по существу вопроса согласен: действительно нужно убедиться, что RSTP включен и задействована опция "Fast Start" (аналог portfast у Cisco) для соответствующих портов.

0 Kudos
moshkow
Hot Shot
Hot Shot

> vSwitch1.JPG

> vSwitch1.JPG

Тут криминала не наблюдаю.

Вопросы:

1. длительное выпадение пингов наблюдается при VMotion в обоих направлениях или в каком-то одном?

2. PortFast на физиках включен?

3. Нельзя ли показать настройки тиминга портовых групп VM Network? (Так, на всякий случай).

4. Пропажа пингов наблюдается с какойто конкретной внешней машины? Если запустить пинги с виртуалок-соседок (на покидаемом и принимающем хосте), как ведет себя пропажа на них?

0 Kudos
RussiaVUG
Contributor
Contributor

EugeneDM wrote:

Что конкретно работает как-то не так? И что ВСЁ работало нормально сначала при настройке?

При первоначальной настройке vSphere тестировали vMotion. Переезд ВМ происходил с потерей всего одного пинга. Сейчас при vMotion теряется,как я говорил, гораздо больше. Что поменялось с момента нормальной работы? 1.Добавили сетевую плату в тим  на 4 порта в один из серверов (сейчас там 6 сетевух в канале), 2. а также подключили еще по одному FC-шнурку  напрямую к дисковому массиву. То есть, сейчас каждый из серверов подключен к 2-ум контроллерам массива.

0 Kudos
RussiaVUG
Contributor
Contributor

Maksim Moshkow wrote:

Вопросы:

1. длительное выпадение пингов наблюдается при VMotion в обоих направлениях или в каком-то одном?

2. PortFast на физиках включен?

3. Нельзя ли показать настройки тиминга портовых групп VM Network? (Так, на всякий случай).

4.  Пропажа пингов наблюдается с какойто конкретной внешней машины? Если  запустить пинги с виртуалок-соседок (на покидаемом и принимающем хосте),  как ведет себя пропажа на них?

1. Да выпадает в обоих направлениях,но все же провисание виртуалок не одинаковое, то есть, при переезде в одну сторону пингов теряется гораздо меньше,чем в другую. (больше теряется пингов при переезде на хост с 6 сетевыми адаптерами).

2. В мануле по свитчу 3COM 5500G-EI-24-Port z таких опций не нашли  (и Port Start тоже) , сейчас читаем гайд внимательно, а пока на соответствующих портах канала отключили STP (в общем, там был только один вариант). Все равно ничего не помогло. По умолчанию действительно STP был включен на коммутаторе.

3. Политики точно такие же как и на vSwitch'ах. Перенастроек в группах никаких не делали.

4.  Пропажа наблюдается как и на внешних машинах,так и на внутренних.НО!  Например ВМ, которая в момент инициирования vMotion'а на одном хосте с мигририруемой показывает меньшую потерю пакет по сравнению с принимающими.

Плюс еще 3 закономерности:

1. Чем больше размер ВМ  - тем больше пакетов она теряет(это по статистике).А так никогда одинаковые потери не показывает.

2. Запущенные пинги с ВМ ,которая в данный момент переезжает, идут без каких-либо проблем в любые машины (как внешние,так и внутренние). То есть мы посылаем пинги на ВМ, и в момент перезда они теряются. А вот все пинги из этой ВМ доходят нормально.

3. Потом решили поэкспериментировать с размерами ВМ.Когда размер диска тестируемой ВМ от 150 GB, то она вообще не переезжает и показывает следующую ошибку в vCenter:

    An I/O error occurred while saving the checkpoint: 32 (Broken pipe)

Вот как-то так.

0 Kudos
RussiaVUG
Contributor
Contributor

vRumata wrote:

Однако, это лирика, а по существу вопроса согласен: действительно нужно  убедиться, что RSTP включен и задействована опция "Fast Start" (аналог  portfast у Cisco) для соответствующих портов.

Только нашли STP/MSTP настройку для свитча, вариант Enabled стоял по умолчанию.Меняли на Disabled - все тоже самое.

0 Kudos
RumataRus
Commander
Commander

Dmitry wrote:

Только нашли STP/MSTP настройку для свитча...

Если отдельно опции "Fast Start" нет, значит она включена всегда для всех портов. Тогда достаточно просто сконфигурировать RSTP.

Здесь  описано, как http://support.3com.com/documents/switches/3Com_Stackable_Switch_Advanced_Config_Guide.pdf

0 Kudos