mstyslav
Enthusiast
Enthusiast

перевод хоста в режим обслуживания - евакуация проходит долго и через адаптер 1Гб/с

Jump to solution

всем привет

имеется кластер версии 6.7

при переводе одного из хостов в режим обслуживания (установка апдейтов и т.д.) евакуация данньіх проходит ОЧЕНЬ долго!

при тестировании, сообщается, что нужно перенести ~1Тб. в процессе система пишет, что переносит 2Тб. Сам процесс идет 6-7 часов!!! Скорость 1Гб/с (100К кБ/с).

в системе 1 адаптер 1Гб/с (менеджмент) и 2 по 10Гб/с (вмоушен и всан). Как заставить процесс евакуации проводить через 10Гб/с адаптер?

Спасибо!

0 Kudos
1 Solution

Accepted Solutions
Finikiez
Champion
Champion

Рекомендую

1. перепроверить настройки рейд-контроллера.

2. Проверить стандартные графики производительности vSAN во время эвакуации данных - время отклика, утилизация кэша, утилизация сетевых интерфейсов и нет ли дропа пакетов.

3. Безусловно для трафика vSAN используется vmkernel помеченный для vSAN.

 

Единственное вопрос тогда - если у вас всего 3 сервера в кластере, то что тогда там эвакуируется? у вас есть объекты с FTT=0?

View solution in original post

8 Replies
Finikiez
Champion
Champion

Добрый день!

 

Для начала - опишите конфигурацию серверов, которые используются для vSAN. Нужно знать, какой raid контроллер \ HBA используете и какая версия драйвера и прошивки для него используется, а также какие модели SSD используются для cache tier.

mstyslav
Enthusiast
Enthusiast

спасибо за ответ!

итак. в кластере сервера hpe dl360g9 (Smart Array P440ar / fw 6.88 / 2.0.42-1OEM.670.0.0.8169922), конфа - all-flash, cash - 480Gb / (875863-001)

все дрова и прошивки согласно HCL (Skyline Health - все зеленое)

esxi -6.7.0, 17167734

0 Kudos
Finikiez
Champion
Champion

А в каком режиме настроен RAID контроллер? RAID mode или HBA mode?  Если RAID mode - применяли ли вы настройку https://kb.vmware.com/s/article/53534 ?

 

И еще вопросы - это такое только с одним конкретным хостом или со всеми хостами в кластере? Сколько всего хостов? они все к одним и тем же коммутаторам подключены или как-то разнесены?

Какой режим вы применяете при вводе в maintenance mode? Ensure accessibility ?

Если смотреть график утилизации по vmnic, видно через какой аплинк в итоге трафик идет?

 

0 Kudos
mstyslav
Enthusiast
Enthusiast

контроллер ессно в HBA - вроде главное требование для vsan - презентовать диски как есть

у меня кластер из 3х хостов, проверил уже 2 - одинаково. подозреваю, что с №3 - то самое будет

все сервера включеньі в один коммутатор, линки по 10Гб/с (2 шт.), не LACP

евакуация в режиме Ensure accessibility, касаемо утилизации - вроде видно бьіло какой адаптер, точно скорость помню мне показали. 

0 Kudos
Finikiez
Champion
Champion

Обычно то, что для кого-то естественно, для других совсем не естественно.

 

Поэтому лучше перепроверить конфигурацию. Заодно на FW и драйвер для этого контроллера есть обновления, рекомендую попробовать их установтить.

 

+ нужны картинки из графиков производительности. Выглядит это странно конечно.

mstyslav
Enthusiast
Enthusiast

1. какую именно конфу перепроверить?

2. обнову поставить могу конечно, однако то не так скоро ибо связано с ребутом и опять же евакуацией, а она очь неспешная 😉

3. специально не обновлял 3й сервер, могу его перевести в режим обслуживания и снять метрики. подскажите, что именно глянуть? Кста, предьідущий раз когда ставил обновления - все пролетело шустро (месяца 2 тому примерно)

PS. меня смущает скорость передачи по сети в момент евакуации - ровно 1 гигабит/сек (решил, что проблема в конфе сети, не тот адаптер работает или что-то такое). Кста, в данном случае - задействован vmkernel для vsan я так понимаю (он у меня отдельно, на 10Гб адаптере)?

спасибо!

0 Kudos
Finikiez
Champion
Champion

Рекомендую

1. перепроверить настройки рейд-контроллера.

2. Проверить стандартные графики производительности vSAN во время эвакуации данных - время отклика, утилизация кэша, утилизация сетевых интерфейсов и нет ли дропа пакетов.

3. Безусловно для трафика vSAN используется vmkernel помеченный для vSAN.

 

Единственное вопрос тогда - если у вас всего 3 сервера в кластере, то что тогда там эвакуируется? у вас есть объекты с FTT=0?

View solution in original post

mstyslav
Enthusiast
Enthusiast

всем привет,

судя по-всему, "проблема" заключалась в том, что некоторое количество ВМ имело только одну копию на сторедже и при отключении одного из хостов происходило копирование их содержимого на оставшиеся, что и занимало время. Единственньій вопрос которьій остался - почему скорость копирования - 1Гб/с, хотя сетевухи  -10Гб/с (мониторинг показал, что копируется через интерфейс 10Г). 

Я вернул политику храниения по-дефолту (т.е. с избьіточностью) и обьем перемещения стал значительно меньше. Считаю что вопрос решен! Спасибо ))

0 Kudos