4 Replies Latest reply on Sep 4, 2019 3:57 AM by moshkow

    HA host failure/isolation

    guest80 Lurker

      имеется растянутый HA кластер на 6 версии (2 территориально удалённые серверные) на 2 группах серверов, vplex-metro, 2 СХД в зеркале.

      созданы 2 группы DRS для VM по группам серверов и правила для групп VM сопоставляющие их с группами host. DRS - fully automated.

      HA - host monitoring, host failure = restart VMs. Остальные фичи в  disable (response for host isolation = disable). Datastore for hearbeating = use specified (выбран 1 из 6).

       

      На той неделе, при работах, админы потеряли управление коммутатором сети на 2 серверной (в него подключены LAN серверов) его перезагрузили.

      При этом SAN коммутаторы и vplex-metro как и СХД были в сетевой связности (перезагруженный коммутатор был только на LAN серверов).

      все host в vCenter стали недоступны, VM что были на них стали в статусе (disconnected), HA ни одну не перезапустил на хостах основной серверной, коммутатор минут через 10 ожил и VM стали доступны по LAN.

       

      что не так и как переделать чтобы работало ...как я это представлял %)

        • 1. Re: HA host failure/isolation
          Finikiez Master
          vExpert

          Добрый день!

           

          Если резюмировать то, что вы написали, то падение одного! сетевого коммутатора в одном из ЦОД привело к неработоспособности сети управления (я так полагаю. что вы вкладываете сюда понятие management vmkernel) и сети виртуальных машин.

           

          Верно?

           

          Если все верно, то как бы где был второй коммутатор и откзоустойчивое подклюючение к сети передачи данных?

          • 2. Re: HA host failure/isolation
            guest80 Lurker

            ЦОД - это не про нас....

            резервная серверная ещё в процессе создания и там действительно пока 1 коммутатор на LAN, в проекте к нему в пару будет второй.

             

            Вопрос не в этом. Давайте будем считать, что было смоделировано потеря сетевой связности до резервной серверной (и основной и резервный каналы связи LAN сети в обрыве), ок?

            • 3. Re: HA host failure/isolation
              Finikiez Master
              vExpert

              Как-то вы нелогично переходит от поломки коммутатора уровня доступа (ну допустем он же один из коммутаторов уровня ядра в вашем случае) до полной потери связи между двумя сайтами.

               

              Начнем с главного - понятное дело, что все должно быть задублировано, в том числе и каналы между сайтами.

               

              Второе вот в этой статье популярно расписаны сценарии сбоев при использовании vplex VMware Knowledge Base

              А также в документации от DellEMC и документации от VMware VMware vSphere® Metro Storage Cluster Recommended Practices | VMware

               

              К примеру сценарий потери всех линков между сайтами (LAN и SAN) Data Center Partition | VMware vSphere® Metro Storage Cluster Recommended Practices | VMware

               

               

              В общем в документах все достаточно хорошо расписано, если будут вопросы готов ответить.

              • 4. Re: HA host failure/isolation
                moshkow Hot Shot

                Все отработало ровно так, как и должно работать на штатных настройках.

                После разрыва сети ВМ-ки остались включенными, их файлы - заблокированы хостом-носителем, поэтому остальные хосты эти ВМ-ки перезапустить не могут.

                 

                Если хочется, чтоб при пропадании сети у отдельных хостов их виртуалки перезапустились там, где сеть доступна,

                Нужно задать дополнительную настройку HA-кластера "Isolation response: power of" или "shutdown" и тогда в случае сетевого распада кластера изолированные хосты выключат свои ВМ'ки, а нормальная часть кластера с уцелевшей сетью сможет их перезапустить