MightyDok
Contributor
Contributor

ESXi 4.1 U2 и TMG 2010 SP2 U1 сетевые проблемы

Jump to solution

Добрый день.

Коллеги, столкнулся с такой проблемой - в vShpere 4.1 U2 создана  виртуальня машина Windows 2008 R2 SP1, на нее установлен TMG 2010 RTM и  планомерно обновлен до SP2 U1. На ОС установлены все последние  обновления.

Периодически, абсолютно случайно перестают пинговаться все IP адреса  на сетевом интерфейсе, который смотрит в локальную сеть, соотвественно в  офисе пропадает доступ в Интернет.

Общее описание сети:

Создано 3-и VLAN:

1 Vlan - офисная сеть

2 VLAN - ISP 1

3 VLAN - ISP 2

Сетевое оборудование и vShpere настроено таким образом, что в ОС VLAN  ID НЕ поступает, то есть на сервере просто создано 3-и сетевых  интерфейса, которые смотрят в нужные сегменты, и для Windows трафик  поступает без каких либо тегов.

Общее описание ситуации:

Виртуальный сетевой интерфейс, который подключен к VLAN 1 работает  штатно, в момент, когда пропадает пинг, находится в состоянии enabled и,  судя по статистике, какой-то трафик отправляет в локальную сеть.

В сниффере также видно, что с сервера в этот виртуальный сетевой  интерфейс трафик поступает, но в локальной сети трафика не видно, как и  MAC адреса виртуальной сетевой карты, то есть даже на уровне L2 сетевой  интерфейс недоступен.

Пробовал на этотже сетевой интерфейс назначить дополнительный IP адрес, но в момент проблемы он также недоступен.

Перезапуск Microsoft TMG Firewall Service не помогает, но если  сделать disable - enable сетевого интерфейса, то проблема уходит, но  обычно ненадолго, минут на 15-20, дальше помогает только полная  перезагрузка виртуального сервера.

Сервер может проработать без проблем неделю, потом в течение 2-3  часов сломаться раз 5, при этом в логах ничего странного нет,  стандартные сообщения об ошибках TMG, о том, что некоторые пробники  недоступны. То есть каких-либо явных ошибок нет.

Что пробовал для решения проблемы:

1) Переустановить ОС (это решило часто проблем с RAS, но проблема с сетевым интерфейсом осталась).

2) Попробовать создать другой виртуальный сетевой интерфейс с другим типом виртуальной сетевой карты.

3) Выставить Delayed Start для Microsoft TMG Firewall Service  (решилась проблема с неправильным определением расположения сетевого  интерфейса)

В чем может быть проблема и как ее еще можно диагностировать?

0 Kudos
1 Solution

Accepted Solutions
michigun
VMware Employee
VMware Employee

в рамках шаманства можно попроовать поменять тип виртуальной сетевушки vmxnet3<->e1000 - если вдруг проблема в кривом драйвере, это будет диагностированно.

-- http://www.vm4.ru/p/vsphere-book.html

View solution in original post

0 Kudos
25 Replies
templier
Enthusiast
Enthusiast

На сервере установлен дополнительный софт кроме MS Windows, TMG и VMware Tools?

http://vmind.ru
0 Kudos
MightyDok
Contributor
Contributor

Нет, данный сервер выделен только под роль шлюза, кроме TMG 2010 и других служб и ролей, которые нужные для его работы ничего не установлено.

Никаких дополнительных настроек, оптимизаций TCP/IP стека не проводилось.

0 Kudos
templier
Enthusiast
Enthusiast

1) Все адаптеры сервера находятся на одном виртуальном свитче? Есть возможность вытащить виртуалку в отдельный виртуальный свитч? Насколько большая нагрузка на сервер?

2) Перенос виртуалки на другой хост не помогает?

3) В vClient на вкладке Tasks/Events ничего криминального?

P.S. еще стоит открыть тред на форумах Технета - там по TMG специалистов больше.

Часть рекомендаций по правильной настройке TMG сказаны тут - http://social.technet.microsoft.com/Forums/ru-RU/isaru/thread/cdcdf919-d953-4a5b-9b0f-50cbd8c51085 (про DNS и приоритеты адаптеров)

Мало ли Smiley Wink

http://vmind.ru
0 Kudos
Valery12
Enthusiast
Enthusiast

Не задан главный вопрос, к какому физическому коммутатору подключен ESXi, настройки коммутатора и портов на нем?

0 Kudos
MightyDok
Contributor
Contributor

1) Все адаптеры сервера находятся на одном виртуальном свитче? Есть  возможность вытащить виртуалку в отдельный виртуальный свитч? Насколько  большая нагрузка на сервер?

Нагрузка на сервер небольшая, вытащить возможность есть, в vSwitch добавлено 2-а сетевых адаптера из 4.

Сегодня планирую прокинуть дополнительный сетевой интерфейс напрямую в виртуальную машину, без vSwitch.

Также на linux сервере, который работает на этом же ESXi настроил сетевой интерфейс с vlan id 4095, когда проблема повторится - посмотрю на нем поступает ли трафик из ОС в vSwitch.

2) Перенос виртуалки на другой хост не помогает?

Нет.

3) В vClient на вкладке Tasks/Events ничего криминального?

Нет, все штатные задачи.

В ветку по TMG написал вчера еще, но пока ответа нет. Очередность интерфейсов выставлена правильно, DNS также настроен правильно.

0 Kudos
MightyDok
Contributor
Contributor

Коммутаторов 2-а, оба 3com 2916.

Настройки на свитчах затрагивают только VLAN, то есть на порты, куда подключены ESXi сервера прокинуты нужные VLAN ID в соотвествии с документацией к свитчам.

LACP, STP не используется.

Оба ESXi сервера подключены к обоим свитчам, один порт в свитч1, другой в свитч2. Режим балансировки трафика: Route based originating port ID, то есть по идее проблем быть не должно.

0 Kudos
michigun
VMware Employee
VMware Employee

в рамках шаманства можно попроовать поменять тип виртуальной сетевушки vmxnet3<->e1000 - если вдруг проблема в кривом драйвере, это будет диагностированно.

-- http://www.vm4.ru/p/vsphere-book.html

View solution in original post

0 Kudos
Valery12
Enthusiast
Enthusiast

Свичи "умные" - нужно помониторить нужные порты, очень похоже что проблема все таки на L2

и еще я бы отказался от использования VLAN 1, если мжду свичами прокинут транк там будет служебный трафик

0 Kudos
MightyDok
Contributor
Contributor

> в рамках шаманства можно попроовать поменять тип виртуальной сетевушки  vmxnet3<->e1000 - если вдруг проблема в кривом драйвере, это будет  диагностированно.

Пробовали, не помогает.

0 Kudos
MightyDok
Contributor
Contributor

> Свичи "умные" - нужно помониторить нужные порты, очень похоже что проблема все таки на L2

и еще я бы отказался от использования VLAN 1, если мжду свичами прокинут транк там будет служебный трафик

На свитчи думаю в последнюю очередь, так как 2-я виртуальная машина, тоже W2008r2sp1, которая работает на этомже ESXi работает без проблем.
С этой 2-ой виртуальной машины также не пингуется проблемный интерфейс, так что я думаю что проблема на уровне ОС - vSwitch.
VLAN 1 - это default vlan на свитчах, фреймы в нем не тегируются.
0 Kudos
Valery12
Enthusiast
Enthusiast

> VLAN 1 - это default vlan на свитчах, фреймы в нем не тегируются.

вот именно, поэтому нетегируемый служебный трафик идущий в транке между двумя коммутаторами попадет и на порты, настроенные на VLAN 1

0 Kudos
MightyDok
Contributor
Contributor

> вот именно, поэтому нетегируемый служебный трафик идущий в транке между  двумя коммутаторами попадет и на порты, настроенные на VLAN 1

Для текущей проблемы не критично, служебный трафик будет ходить только между ESXi хостами и 6 портами в свитче, пользователи его не увидят, в планах есть вынос его в отдельный VLAN.

0 Kudos
MightyDok
Contributor
Contributor

Проблема опять повторилась, вывод esxtop:

До Disable проблемного сетевого интерфейса:

2:38:29pm up 46 days 23:01, 217 worlds; CPU load average: 0.10, 0.06, 0.06

   PORT-ID              USED-BY  TEAM-PNIC DNAME              PKTTX/s  MbTX/s    PKTRX/s  MbRX/s %DRPTX %DRPRX
  16777217           Management        n/a vSwitch0              0.00    0.00       0.00    0.00   0.00   0.00
  16777218               vmnic0          - vSwitch0              2.81    0.00      31.32    0.02   0.00   0.00
  16777219                 vmk0     vmnic1 vSwitch0             14.86    0.52      42.16    0.02   0.00   0.00
  16777226               vmnic1          - vSwitch0             15.46    0.52     118.26    0.07   0.00   0.00
 
  16777316          8578907:gw2     vmnic0 vSwitch0              0.00    0.00       0.00    0.00   0.00   0.00
  16777317          8578907:gw2     vmnic0 vSwitch0              0.40    0.00       7.03    0.00   0.00   0.00
  16777318          8578907:gw2     vmnic1 vSwitch0              0.60    0.00       0.00    0.00   0.00 100.00

После Disable проблемного сетевого интерфейса:
2:39:35pm up 46 days 23:02, 217 worlds; CPU load average: 0.10, 0.06, 0.06

   PORT-ID              USED-BY  TEAM-PNIC DNAME              PKTTX/s  MbTX/s    PKTRX/s  MbRX/s %DRPTX %DRPRX
  16777217           Management        n/a vSwitch0              0.00    0.00       0.00    0.00   0.00   0.00
  16777218               vmnic0          - vSwitch0              7.63    0.02      41.76    0.03   0.00   0.00
  16777219                 vmk0     vmnic1 vSwitch0             14.86    0.06      40.15    0.03   0.00   0.00
  16777226               vmnic1          - vSwitch0             15.26    0.06     122.47    0.08   0.00   0.00
 
  16777316          8578907:gw2     vmnic0 vSwitch0              1.41    0.00       1.20    0.00   0.00   0.00
  16777317          8578907:gw2     vmnic0 vSwitch0              1.81    0.00       7.63    0.00   0.00   0.00
  16777318          8578907:gw2     vmnic1 vSwitch0              0.40    0.00       0.00    0.00   0.00   0.00

После enable проблемного сетевого интерфейса:

2:40:35pm up 46 days 23:03, 217 worlds; CPU load average: 0.10, 0.06, 0.06

   PORT-ID              USED-BY  TEAM-PNIC DNAME              PKTTX/s  MbTX/s    PKTRX/s  MbRX/s %DRPTX %DRPRX
  16777217           Management        n/a vSwitch0              0.00    0.00       0.00    0.00   0.00   0.00
  16777218               vmnic0          - vSwitch0           2423.74    1.71    4490.70   49.00   0.00   0.00
  16777219                 vmk0     vmnic1 vSwitch0              6.02    0.03      54.61    0.03   0.00   0.00
  16777226               vmnic1          - vSwitch0           3497.07   48.67    2184.62    1.58   0.00   0.00
 
  16777316          8578907:gw2     vmnic0 vSwitch0              1.41    0.00       0.00    0.00   0.00   0.00
  16777317          8578907:gw2     vmnic0 vSwitch0           2419.32    1.70    4435.29   49.10   0.00   0.00
  16777318          8578907:gw2     vmnic1 vSwitch0           3492.26   48.65    2179.00    1.64   0.00   0.00

Странно что DRPTX 100%, при этом пока не понятно на каком интерфейсе. Пойду читать документацию.

0 Kudos
templier
Enthusiast
Enthusiast

Гугл подсказывает, что надо увеличить буферы сетевых адаптеров

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=101007...

http://vmind.ru
MightyDok
Contributor
Contributor

Также нашел эту информацию, в KB, кстати, ошибка, т.к. в w2008r2 sp1, с предустановленным драйверами для сетевой карты e1000, можно изменить Receive buffers без установки каких-либо дополнительных драйверов.

Поставил вчера вечером 512, вместо 256, посмотрим что будет сегодня.

0 Kudos
MightyDok
Contributor
Contributor

Кстати, 30-го числа вышло очередное обновление для vShpere 4.1, один из патчей http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=201047... возможно поможет решить проблему, если увеличение буфера не поможет, то попробую его.

0 Kudos
MightyDok
Contributor
Contributor

Увеличение буфера не помогает, поставил последние патчи на VM Host, посмотрим что будет завтра.

Если также не поможет видимо придется дальше разбираться с ТП Vmware или более тщательно тестировать Vmxnet3.

0 Kudos
michigun
VMware Employee
VMware Employee

еще одно шаманство вспомнилось - как то было такое, что коммутаторам не нравились режимы, выставленные на физических контроллерах сервера. Не помню что там было - явно гигабит+ полный дуплекс или автосогласование - но замена одного на другое помогла.

-- http://www.vm4.ru/p/vsphere-book.html
0 Kudos
templier
Enthusiast
Enthusiast

Насколько я понял, тут можно смело откинуть внешние коммутаторы, так как на хосте несколько ВМ в этой Vlan#1, а "придуривается" только одна - TMG.

http://vmind.ru
0 Kudos