Highlighted
Enthusiast
Enthusiast

Чудовищные тормоза ESXi c MSA2012

Добрый день!

Есть один ESXi хост с несколькими полезными машинами, и одной ОЧЕНЬ полезной.

Хост - это блейд подключенный к MSA2012sa через SAS свитчи. - 4 линка на 2 контроллера - 2 активных линка.

Датастор - ЛУН из 4-х хардов в RAID10.

Хронология событий:

Начал "глупить" один хард в массиве - пишет в логе массива - Disk detected error (Channel:0 ID:3 SN: Encl:0 Slot:3) Key,Code,Qual=(03h,11h,00h) cdb:Rd 1bceeec0 07c0 Info:1bcef3a4h  CmdSpc:0h FRU:81h SnsKeySpc:800096h Medium Error unrecovered read error

Всё при этом работало нормально с неделю.

Затем внезапно начались жуткие тормоза - скорость чтения с датастора не больше 5-и мб/с и все виртуалки жутко задумываются.

На хосте ESXi я убрал Path Policy на MRU, затем вернул обратно на Round Robin.

Все ненужные виртуалки выключил (выключались 3 часа).

Хост перезагрузил. Рескан шины сделал.

Не помогло ничего.

Кое-как запустил одну продакшн-машину и с ужасом на неё смотрю. :smileyconfused:

Скрины ужаса прилагаю.

Что можно посмотреть в ESXi чтобы понять почему такие невероятные тормоза?

Сталкивался ли кто с подобным?

Что можно предпринять?

P.S. Хард жду, но чёрт знает когда он до меня доедет, тут ещё праздники как раз.

0 Kudos
23 Replies
Highlighted
Enthusiast
Enthusiast

MKorotko

Я так понял у вас полка первого поколения, она актив - пассив если вы конечно не шили ее прошивками последними, тогда она превращаеться в ААА сторадж.

Всё что можно прошито последними прошивками. ESXi тоже свежие.

СХД стала AAA. По неоптимизированным путям потери примерно ~20-30% скорости. Не так страшно, кстати, терпимо работает.

Быстрее всего, как ни странно, работает при Round Robin т.е. 2-х активных линках на контроллере-хозяине ЛУН'а.

Я пробовал все возможные способы, и Fixed, и MRU, резвее всего работает именно при RR.

Точно! Диски только не шил. Старая "предрассудковая боязнь" - не шить диски. Наверное, тоже надо.

шить до последних все - SP

Только не понял, что такое SP?

10 RAID на 4 дисках... хм вы от него большой производительности не дождетесь, дисков мало в группе, да плюс еще SATA диски... 10 рейд на таком малом количестве в принципе особой прибавки не даст. Дисков однозначно у вас мало.

Диски SAS 15K. Не SATA. Один, правда, сдох. Вот и верь в "Ентерпрайз" диски. Осталось 3 пока. Быстрее в эту полку дисков нет.

Дисков мало, да! Бюджет! :smileyangry:

Они (hp) один диск стоимостью 7К продают за 15К! А ЛОМАЕТСЯ он одинаково!

Конечно, на 12-и дисках, думаю, было бы повеселее. Да и тестировать проще - можно добавлять диски и следить масштабируется производительность или нет. А так приходится изголяться с кешем, настройками, и.т.п. Как с ДВС - объёма добавить не могу - приходится свечи менять да "прошивку" . А быстрее всё-равно не едет. Smiley Happy

То что они дают 3 года гарантии на хард - мне никакой пользы. Я бы лучше по 7К набрал вдвое больше этих хардов.

Хотя, это всё из-за того что в моём глубоком замкадье никакие "сервисы" белые не действуют. Всё растягивается на 3 года.

ИМХО у вас проблемы в железной части... как и в конфигурации так и с железками, просто так варнинги не появляются.

Ворнинги вроде-бы ушли полностью, когда я вернул "Read Ahead Cache" на "Default". При больших значениях массив становился настолько неотзывчивым, что ESXi писал ворнинги.

А latency да, прыгает постоянно, до 15-20 ms в состоянии полного покоя.

Наверное это особенность СХД, или взаимодействия ESXi с этой СХД.

0 Kudos
Highlighted
Expert
Expert

Диски SAS 15K. Не SATA.

я откуда взял SATA, видимо на меня тоже праздники действуют....

SAS это лучше...

Только не понял, что такое SP?

Storage Proccessor - контроллер по другому, голова по простому))) SP писать короче и быстрее)))

По неоптимизированным путям потери примерно ~20-30% скорости.

все правильно, мы же через голову гоняем не родную...

Они (hp) один диск стоимостью 7К продают за 15К! А ЛОМАЕТСЯ он одинаково!

диски вообще расходный материал... бывает что и 5 лет шуршат, а бывает и при первом запуске или в первые полгода эксплуатации... все диски ломаються, даже при первой их инициализации бывает, даже SSD стоимостью от 28К зеленью кстати из класса супер пупер энтерпрайз тоже ломаються, у меня на памяти куча таких случаев... SSD конечно единичны, а вот шпиндельные так мама не горюй...

У вас тормоза были кстати до того как диск из группы вылетел или после обнаружили?

Да и кстати как все защьете, скиньте все настройки СХД к заводским, ну и ребутнуть не забудьте.

VMware vExpert 2010, 2011 - http://vm.pro-it.kz
0 Kudos
Highlighted
Enthusiast
Enthusiast

MKorotko

Storage Proccessor - контроллер по другому, голова по простому)))

Понял. Smiley Happy

Это прошито.

У вас тормоза были кстати до того как диск из группы вылетел или после обнаружили?

Тормоза были после того как я сдуру увеличил "Read Ahead Cache", в надежде уменьшить latency.

Диск, получается, вообще был ни при чём. Результат полностью воспроизводим - ставлю кеш на 32 Мб - и скорость к СХД становится 1 мб/с на всех. :smileylaugh: Убираю на дефолт - становится нормально.

А latency прыгал постоянно до >15 мс без нагрузки всегда, и до того, как диск вылетел. [Типичная картина по latency на картинке (MSAL.png). (нагрузки нет никакой вообще).]

Почему так - я не могу понять. Наверное, потому что SAS СХД никто не любит. Smiley Happy

Все любят iSCSI и FC. Smiley Happy

0 Kudos
Highlighted
Commander
Commander

Sysxp wrote:

Наверное, потому что SAS СХД никто не любит. Smiley Happy

Все любят iSCSI и FC. Smiley Happy

Ну это Вы зря. Smiley Wink

Вот, к примеру просвятительные статьи в тему: SAS системы хранения как общий Storage. Мультипасинг VMware для SAS. и SAS 2.0 6Gb/s

Коллеги говорят, что есть успешные внедрения: SAS Array как Shared storage

0 Kudos