Добрый день!
Есть один ESXi хост с несколькими полезными машинами, и одной ОЧЕНЬ полезной.
Хост - это блейд подключенный к MSA2012sa через SAS свитчи. - 4 линка на 2 контроллера - 2 активных линка.
Датастор - ЛУН из 4-х хардов в RAID10.
Хронология событий:
Начал "глупить" один хард в массиве - пишет в логе массива - Disk detected error (Channel:0 ID:3 SN: Encl:0 Slot:3) Key,Code,Qual=(03h,11h,00h) cdb:Rd 1bceeec0 07c0 Info:1bcef3a4h CmdSpc:0h FRU:81h SnsKeySpc:800096h Medium Error unrecovered read error
Всё при этом работало нормально с неделю.
Затем внезапно начались жуткие тормоза - скорость чтения с датастора не больше 5-и мб/с и все виртуалки жутко задумываются.
На хосте ESXi я убрал Path Policy на MRU, затем вернул обратно на Round Robin.
Все ненужные виртуалки выключил (выключались 3 часа).
Хост перезагрузил. Рескан шины сделал.
Не помогло ничего.
Кое-как запустил одну продакшн-машину и с ужасом на неё смотрю. :smileyconfused:
Скрины ужаса прилагаю.
Что можно посмотреть в ESXi чтобы понять почему такие невероятные тормоза?
Сталкивался ли кто с подобным?
Что можно предпринять?
P.S. Хард жду, но чёрт знает когда он до меня доедет, тут ещё праздники как раз.
MKorotko
Я так понял у вас полка первого поколения, она актив - пассив если вы конечно не шили ее прошивками последними, тогда она превращаеться в ААА сторадж.
Всё что можно прошито последними прошивками. ESXi тоже свежие.
СХД стала AAA. По неоптимизированным путям потери примерно ~20-30% скорости. Не так страшно, кстати, терпимо работает.
Быстрее всего, как ни странно, работает при Round Robin т.е. 2-х активных линках на контроллере-хозяине ЛУН'а.
Я пробовал все возможные способы, и Fixed, и MRU, резвее всего работает именно при RR.
Точно! Диски только не шил. Старая "предрассудковая боязнь" - не шить диски. Наверное, тоже надо.
шить до последних все - SP
Только не понял, что такое SP?
10 RAID на 4 дисках... хм вы от него большой производительности не дождетесь, дисков мало в группе, да плюс еще SATA диски... 10 рейд на таком малом количестве в принципе особой прибавки не даст. Дисков однозначно у вас мало.
Диски SAS 15K. Не SATA. Один, правда, сдох. Вот и верь в "Ентерпрайз" диски. Осталось 3 пока. Быстрее в эту полку дисков нет.
Дисков мало, да! Бюджет! :smileyangry:
Они (hp) один диск стоимостью 7К продают за 15К! А ЛОМАЕТСЯ он одинаково!
Конечно, на 12-и дисках, думаю, было бы повеселее. Да и тестировать проще - можно добавлять диски и следить масштабируется производительность или нет. А так приходится изголяться с кешем, настройками, и.т.п. Как с ДВС - объёма добавить не могу - приходится свечи менять да "прошивку" . А быстрее всё-равно не едет.
То что они дают 3 года гарантии на хард - мне никакой пользы. Я бы лучше по 7К набрал вдвое больше этих хардов.
Хотя, это всё из-за того что в моём глубоком замкадье никакие "сервисы" белые не действуют. Всё растягивается на 3 года.
ИМХО у вас проблемы в железной части... как и в конфигурации так и с железками, просто так варнинги не появляются.
Ворнинги вроде-бы ушли полностью, когда я вернул "Read Ahead Cache" на "Default". При больших значениях массив становился настолько неотзывчивым, что ESXi писал ворнинги.
А latency да, прыгает постоянно, до 15-20 ms в состоянии полного покоя.
Наверное это особенность СХД, или взаимодействия ESXi с этой СХД.
Диски SAS 15K. Не SATA.
я откуда взял SATA, видимо на меня тоже праздники действуют....
SAS это лучше...
Только не понял, что такое SP?
Storage Proccessor - контроллер по другому, голова по простому))) SP писать короче и быстрее)))
По неоптимизированным путям потери примерно ~20-30% скорости.
все правильно, мы же через голову гоняем не родную...
Они (hp) один диск стоимостью 7К продают за 15К! А ЛОМАЕТСЯ он одинаково!
диски вообще расходный материал... бывает что и 5 лет шуршат, а бывает и при первом запуске или в первые полгода эксплуатации... все диски ломаються, даже при первой их инициализации бывает, даже SSD стоимостью от 28К зеленью кстати из класса супер пупер энтерпрайз тоже ломаються, у меня на памяти куча таких случаев... SSD конечно единичны, а вот шпиндельные так мама не горюй...
У вас тормоза были кстати до того как диск из группы вылетел или после обнаружили?
Да и кстати как все защьете, скиньте все настройки СХД к заводским, ну и ребутнуть не забудьте.
MKorotko
Storage Proccessor - контроллер по другому, голова по простому)))
Понял.
Это прошито.
У вас тормоза были кстати до того как диск из группы вылетел или после обнаружили?
Тормоза были после того как я сдуру увеличил "Read Ahead Cache", в надежде уменьшить latency.
Диск, получается, вообще был ни при чём. Результат полностью воспроизводим - ставлю кеш на 32 Мб - и скорость к СХД становится 1 мб/с на всех. :smileylaugh: Убираю на дефолт - становится нормально.
А latency прыгал постоянно до >15 мс без нагрузки всегда, и до того, как диск вылетел. [Типичная картина по latency на картинке (MSAL.png). (нагрузки нет никакой вообще).]
Почему так - я не могу понять. Наверное, потому что SAS СХД никто не любит.
Все любят iSCSI и FC.
Sysxp wrote:
Наверное, потому что SAS СХД никто не любит.
Все любят iSCSI и FC.
Ну это Вы зря.
Вот, к примеру просвятительные статьи в тему: SAS системы хранения как общий Storage. Мультипасинг VMware для SAS. и SAS 2.0 6Gb/s
Коллеги говорят, что есть успешные внедрения: SAS Array как Shared storage