1 2 Previous Next 23 Replies Latest reply on May 2, 2011 6:49 AM by RumataRus

    Чудовищные тормоза ESXi c MSA2012

    Sysxp Enthusiast

      Добрый день!

       

      Есть один ESXi хост с несколькими полезными машинами, и одной ОЧЕНЬ полезной.

      Хост - это блейд подключенный к MSA2012sa через SAS свитчи. - 4 линка на 2 контроллера - 2 активных линка.

      Датастор - ЛУН из 4-х хардов в RAID10.

       

      Хронология событий:

      Начал "глупить" один хард в массиве - пишет в логе массива - Disk detected error (Channel:0 ID:3 SN: Encl:0 Slot:3) Key,Code,Qual=(03h,11h,00h) cdb:Rd 1bceeec0 07c0 Info:1bcef3a4h  CmdSpc:0h FRU:81h SnsKeySpc:800096h Medium Error unrecovered read error

      Всё при этом работало нормально с неделю.

       

      Затем внезапно начались жуткие тормоза - скорость чтения с датастора не больше 5-и мб/с и все виртуалки жутко задумываются.

       

      На хосте ESXi я убрал Path Policy на MRU, затем вернул обратно на Round Robin.

      Все ненужные виртуалки выключил (выключались 3 часа).

       

      Хост перезагрузил. Рескан шины сделал.

      Не помогло ничего.

       

      Кое-как запустил одну продакшн-машину и с ужасом на неё смотрю.

      Скрины ужаса прилагаю.

       

      Что можно посмотреть в ESXi чтобы понять почему такие невероятные тормоза?

      Сталкивался ли кто с подобным?

      Что можно предпринять?

       

      P.S. Хард жду, но чёрт знает когда он до меня доедет, тут ещё праздники как раз.

        • 1. Re: Чудовищные тормоза ESXi c MSA2012
          Deshifrator Hot Shot

          У Вас СХД скорее всего типа ААА. Может, у Вас данные между СХД и блэйд сервером передаются по неоптимизированным путям?

          Подробно про это написано в блоге Михаила Коротько

           

          P.S.

          • При выпадении одного диска из RAID10, производительность при этом не должна снижаться.
          • Высокая задержка, показанная на графике, может свидетельствовать о том, что один из контроллеров на СХД перегружен. А перегружен он может быть, в частности, из-за того, что данные передаются по неоптимизированным путям.
          • 2. Re: Чудовищные тормоза ESXi c MSA2012
            VTsukanov Virtuoso

            Что то сильно не так с MSA, похоже на аппаратные проблемы ... проверьте что все винты, луны, vol живы.

            Так обычно в сообщении об ошибке : ....Channel:0 ID:3 SN: Encl:0 Slot:3 ... после SN идет серийный номер, а у вас его нет

            • 3. Re: Чудовищные тормоза ESXi c MSA2012
              Sysxp Enthusiast
              У Вас СХД скорее всего типа ААА.

              Так и есть. MSA2012sa относится к AAA, по идее.

               

              Может, у Вас данные между СХД и блэйд сервером передаются по неоптимизированным путям?

              Хм-м, может, конечно, но никаких признаков этого я не вижу.

              Есть 2 SAS свитча, 2 контроллера на массиве, 4 шнурка между ними и один ЛУН на первом контроллере.

              Подключено стандартно - 1-й штурок от свитча в 1-й контроллер, 2-й - во второй контроллер. На втором свитче - аналогично.

              1-й контроллер живой, и по идее, всё должно идти через него (см.скрины).

              Нагрузки ни на первый ни на второй контроллер больше нет (я всё раскидал по физ.машинам).

              Даже если данные и шли бы по неоптимизированным путям, не может же быть ТАКОЕ падение производительности! Если может, то надо сразу выкинуть оба контроллера и убить себя, слижком уж медленно.

               

              При выпадении одного диска из RAID10, производительность при этом не должна снижаться.

              Он как бы пока не выпал, он сидит и подгаживает в логи своими записями, что "всё плохо читается".

               

              Высокая задержка, показанная на графике, может свидетельствовать о том, что один из контроллеров на СХД перегружен. А перегружен он может быть, в частности, из-за того, что данные передаются по неоптимизированным путям.

              Да ему просто нечем быть перегруженным. Ничего не запущено вообще (кроме одной машины которая не создаёт нагрузки).

              Iops'ов 10-20, может, и проходит - не больше.

               

              Единственное, что мне пока приходит в голову - выдернуть этот хард и посмотреть что будет.

              Наверное, сейчас займусь.

              Опасливо только как-то.

              Я даже копию снять не могу - она делаться будет 100 лет со скоростью 5 мб.

               

              VTsukanov

               

              Что то сильно не так с MSA, похоже на аппаратные проблемы ... проверьте что все винты, луны, vol живы.

              В массиве всё зелено, красиво. Ничего необычного, за исключением периодической ругани в логе на один винт.

              Так обычно в сообщении об ошибке : ....Channel:0 ID:3 SN: Encl:0 Slot:3 ... после SN идет серийный номер, а у вас его нет

              Так и есть - идёт. Я его вытер - для "конспирации".

              • 4. Re: Чудовищные тормоза ESXi c MSA2012
                VTsukanov Virtuoso

                >Я его вытер - для "конспирации"

                Ok для "конспирации" так для "конспирации"

                 

                hdd можно не вытаскивать, а просто перевести диск в оффлайн.

                 

                ЗЫ без бекапа играться со стораджем плохая практика

                • 5. Re: Чудовищные тормоза ESXi c MSA2012
                  Sysxp Enthusiast

                  VTsukanov

                  ЗЫ без бекапа играться со стораджем плохая практика

                  Я тоже так подумал, и поставил сниматься копию.

                  MSA c сообщением "Vdisk vStorage 1 drive down (Channel:0 ID:3 SN: Encl:0 Slot:3), mirror 1" выкинуло сбойный диск в "Leftover" и я его благополучно выдернул.

                  vDisk стал в "Critical State"

                   

                  Тормоза не ушли никуда.

                   

                  Запуск машины происходит ~10 мин, такое ощущение что оно с дискет загружается.

                   

                  В логе (на скрине) видно что хост пишет "NMP Device (naa."длинный id луна")  state in doubt, requested fast state path update..."

                  Постоянно зачем-то ломится на устройства с типом "Enclosure" и ругается что там ничего нет.

                  Что это вообще за устройства "SCSI Enclosure Svc Dev"?

                   

                  Что-то я запутался.

                   

                  В GUI в логах всё чисто.

                  Как-нибудь можно разобраться из самого ESXi что происходит с его точки зрения?

                   

                  ----

                  Попутный вопрос: нельзя ли где-нибудь случайно купить эти миленькие карманчики "SAS Tray" куда вставляется винчестер, чтобы затем его вставить в MSA? А то я бы понабрал этих "карманчиков", и винчестеров по 250$, и зажил бы со Spare диском, как белый человек.

                  • 6. Re: Чудовищные тормоза ESXi c MSA2012
                    Deshifrator Hot Shot

                    Что это вообще за устройства "SCSI Enclosure Svc Dev"?

                    Вот здесь:

                    http://www.bog.pp.ru/hard/scsi.html

                     

                    внизу идет описание SAF-TE и SES (SCSI Enclosure Services)

                    1 person found this helpful
                    • 7. Re: Чудовищные тормоза ESXi c MSA2012
                      Sysxp Enthusiast

                      Deshifrator

                      Спасибо.

                      Т.е. проще говоря, есть порты для подключения доп.корзин с дисками к контроллерам. Порта всего 2 - по одному на контроллер. Соответственно, ESXi их оба видит и пытается опросить, есть ли там что полезное. Ему возвращается что там пусто, пишется ошибка. Т.е. эти ошибки мы игнорируем, это нормально.

                       

                      --

                       

                      Как определить причину тормозов и победить их?..

                      Контроллер что-ли попробовать перезагрузить...

                      • 8. Re: Чудовищные тормоза ESXi c MSA2012
                        Sysxp Enthusiast

                        Перезагрузил первый контроллер.

                        Всё отработало штатно, 2 активных линка "умерли" и перешли на второй контроллер а затем вернулись обратно.

                         

                        Тормоза остались.

                        Максимум что оно выдаёт сейчас - 4 мб/с.

                         

                        Даже не знаю что ещё перезагрузить.

                        • 9. Re: Чудовищные тормоза ESXi c MSA2012
                          Deshifrator Hot Shot

                          Ему возвращается что там пусто, пишется ошибка. Т.е. эти ошибки мы игнорируем, это нормально.

                          Как мне кажется эти ошибки можно игнорировать.

                          Как определить причину тормозов и победить их?..

                          Что бы я попробовал:

                          • Создать другой LUN и подцепить его к ESXi. Создать datastore и проверить скорость.
                          • Подцепить текущий LUN (на котором диск чувствует себя не важно) на другой хост и протестировать там скорость.
                          • Сделать так, чтобы до СХД был только один путь.
                          • Протестировать SAS свичи. (Может что-то с ними).
                          • Установить на блэйд сервер Win2008, подключить к винде LUN и протестировать скорость.

                           

                          Если во всех случаях скорость низкая, то стоит копать в сторону СХД.

                          • 10. Re: Чудовищные тормоза ESXi c MSA2012
                            Sysxp Enthusiast

                            Deshifrator

                            Что бы я попробовал:

                            Создать другой LUN и подцепить его к ESXi. Создать datastore и проверить скорость.

                            К несчастью, у меня очень сильно ограничены ресурсы. Т.е. у меня больше нет хардов. Осталось 3 рабочих.

                             

                            Подцепить текущий LUN (на котором диск чувствует себя не важно) на другой хост и протестировать там скорость.

                            Это я попробовал. Такая же ерунда. Дикие тормоза. 2 мб/с в пике читает.

                             

                            Сделать так, чтобы до СХД был только один путь.

                            Тоже пробовал. Переключает правильно. Тормозит и так и так.

                             

                            Протестировать SAS свичи. (Может что-то с ними).

                            Пробовал только перезагружать, с ними особо ничего сделать и нельзя. Сейчас ещё покопаю на всякий случай.

                             

                            Установить на блэйд сервер Win2008, подключить к винде LUN и протестировать скорость.

                            Идея отличная, но в блейдах нет дисков. ESXi установлен на флешки.

                             

                             

                            Вообще и правда такое ощущение что какой-то внезапный косяк с СХД. Вроде и работает... И в то-же время не работает.

                            • 11. Re: Чудовищные тормоза ESXi c MSA2012
                              Sysxp Enthusiast

                              Да-а... Получилось забавно.

                              Причина тормоза найдена!

                               

                              В MSA есть настройки кеширования (см. Cache.png), и там есть настройка "Read Ahead Cache". Про эту настройку я вычитал у одного товарища, который пишет, что если у вас на контроллере не много ЛУН'ов (как у меня) то самое "крутое" - это поставить "МАКСИМУМ КЕША" - чтобы "поглотить все задержки физического устройства кешем"). Ну, я думаю - круто, почему бы и не ПОГЛОТИТЬ - и включил это дело. И очень зря, как выясняется, потому что скорость при этом падает катастрофически - почти до скорости флоппика. Я заподозрил, что проблема с кешем, и уменьшил его до 32-х мб. Тормоза при этом как были так и остались космические. Когда я вернул настройку на "Default" - всё заработало как было, т.е. более-менее шустро.

                               

                              Т.е. я попутно всё это время думал на винчестер, лаги чтения с него, и.т.д, а проблема была совсем не в этом, просто так совпало.

                              Не совсем понятно, правда, как работает эта настройка, т.е. либо одно из двух, либо я ИДИОТ, либо в моём окружении это не работает, либо это вообще не работает.

                               

                              Мораль, в принципе, простая - ОЧЕНЬ ТЩАТЕЛЬНО тестировать любые изменения вносимые в продакшн системы. Вон - даже Амазон поигрался с настройками и уронил всё "облако".

                               

                              Я прогнал на всякий случай пару тестов из под Win-2008 PVSCSI (msa1.png,msa2.png, msa3.png).

                               

                              Это нормальная картина, на скринах, допустимая?

                               

                              С кешем так и непонятно что делать, наверное надо оставить его в покое на "дефолте".

                              • 12. Re: Чудовищные тормоза ESXi c MSA2012
                                RumataRus Master

                                Sysxp wrote:

                                 

                                В MSA есть настройки кеширования (см. Cache.png), и там есть настройка "Read Ahead Cache". Про эту настройку я вычитал у одного товарища, который пишет, что если у вас на контроллере не много ЛУН'ов (как у меня) то самое "крутое" - это поставить "МАКСИМУМ КЕША" - чтобы "поглотить все задержки физического устройства кешем").

                                 

                                Ничего не могу сказать про MSA, но что касается линейки IBM DS 3xxxx/4xxx/5xxx, в руководствах для них IBM многократно явным образом пишет о том, что настройки по умолчанию (в том числе для кэша) - самые лучшие, подходят для подавляющего большинства случаев.

                                Я тоже в свое время не пожалел время для тестов - увы, никакого улучшения не обнаружил, вернулся к настройкам по умолчанию.

                                 

                                Sysxp wrote:

                                 

                                Я прогнал на всякий случай пару тестов из под Win-2008 PVSCSI (msa1.png,msa2.png, msa3.png).

                                Это нормальная картина, на скринах, допустимая?

                                Честно говоря, чтобы сказать допустимая ли она нужно знать:

                                1. сколько IOPSов и MB/s потребляют ваши приложения в виртуальных машинах (хотя бы по факту ранее снимаемых бенчмарков);

                                2. характеристики нагрузки проведенного теста (в частности, сколько рабочих потоков создавали эту нагрузку, соотношение операций чтение/записи), под которой эта картина получена.

                                Также IMHO IOMeter более подходящий и адекватный инструмент для таких тестов.

                                 

                                Sysxp wrote:

                                 

                                С кешем так и непонятно что делать, наверное надо оставить его в покое на "дефолте".

                                Наверное, да.

                                 

                                Sysxp wrote:

                                 

                                Попутный вопрос: нельзя ли где-нибудь случайно купить эти миленькие карманчики "SAS Tray" куда вставляется винчестер, чтобы затем его вставить в MSA? А то я бы понабрал этих "карманчиков", и винчестеров по 250$, и зажил бы со Spare диском, как белый человек.

                                Карманчики купить при желании можно, например у самой HP, зная part number. Если HP их уже не продает за давностью лет, то можно попробовать поискать на ebay.com - у коллег был успешный опыт таких покупок.

                                Однако вся эта затея представляется мне сомнительной - вполне может оказаться, что не каждый винчестер за $250 заработает c MSA. Политика производителей СХД такова, что они как правило не позволяют вставлять "не свои" винчестеры в свои СХД. Скорее всего MSA не примет у Вас "не свой" диск.

                                • 13. Re: Чудовищные тормоза ESXi c MSA2012
                                  Sysxp Enthusiast

                                  Хотя отзывчивость и вернулась, меня не покидает ощущение что что-то работает "неправильно". Поэтому я и полез в настройки кеша до этого.

                                   

                                  График задержек на скрине ИМХО какой-то пугающий.

                                  Нагрузки никакой нет! При этом latency сама подскакивает до >10 мс непонятно в честь чего.

                                  На тех скринах выше, где HdTune, кроме него никакой нагрузки нет.

                                   

                                  И скорость какая-то "вялая". При копировании из вир-машины на внешний сервер большие файлы читает ~25-28 мб/с, а должен бы, по идее, >100 мб/с.

                                  • 14. Re: Чудовищные тормоза ESXi c MSA2012
                                    Sysxp Enthusiast

                                    Я не понимаю как оно работает, и почему оно так работает.

                                    Берем тест-машину под Win2003. Монтируем iso-образ 4.7 гб, который лежит на этом-же датасторе и запускаем копирование на машину.

                                    После завершения, копируем то-же самое само в себя.

                                     

                                    Как только начинается копирование, latency падает и держится на уровне 1мс.

                                    Как только всё копирование заканчивается, latency начинает прыгать до 17 мс, хотя нагрузки при этом вообще нет.

                                     

                                    Может, так и должно быть, конечно...

                                    1 2 Previous Next