3 Replies Latest reply on Aug 12, 2020 2:23 AM by Finikiez

    ошибки связанные с vGpu

    berke99 Lurker

      Подскажите пожалуйста в какую сторону копать?

      Весь мозг сломал уже.

      Имеется виртуальная инфраструктура на vSphere 6.0 u1. В ней с помощью Horizon развернуты виртуальные десктопы с поддержкой vGpu. Видеокарты nVidia grid K2 нарезаны на профили 220q. На виртуалках крутяться САПР приложения, виртуалки полные копии, не связанные клоны эталонного образа.

      Проблема: время от времени, один из хостов начинает вести вебя неадекватным образом: сначала в гостевых операционках появляются тормоза, диспетчер задач никакой значимой загрузки не показывает. Далее при попытке перезагрузить виртуалку -она выключается и более не включается. Также не включаются другие виртуальные машины, которые ранее были выключены. Сообщение в вцентре: “Disconnect virtual machine”. Напрямую из Esxi - результат тот же. При этом машины без аппаратного видео работают нормально, т.е стартуют без проблем. На на машине с видяхой удается отцепить расшареную видеокарту, но прицепить ее обратно не получается. Если все оставить как есть - сервер вываливается в розовый экран. Если хост перезагрузить - проблема мгновенно исчезает на срок от нескольких недель, до нескольких часов (один раз завис через 4-5 часов). Есть слабое предположение что это связано с какой-то из виртуалок, а именно с драйверами на них или с прикладным софтом.

      Таких есть 3 или 4 хоста, на остальных проблема не замечена.

      Просьба, кому не лень - выскажите мысли куда можно смотреть, что можно искать в логах и в каких?

      Понятно что на готовое решение и не надеюсь - vGpu-шных виртуалок не очень много и опыт не сильно распространен.

      Заранее спасибо за советы!

        • 1. Re: ошибки связанные с vGpu
          Finikiez Master
          vExpert

          Добрый день!

           

          1. Общие советы - установить последние доступные обновления на гипервизор и драйверы NVIDIA, которые совместимы с этими старыми картами.

          2. В момент появления проблемы проверить логи на гипервизоре, в частности vmkernel.log

          3. В момент появления проблемы проверить что пишет nvidia-smi

          4. Приложить снимок экрана с PSOD

          • 2. Re: ошибки связанные с vGpu
            berke99 Lurker

            646DE5D7-55B9-4C17-85EE-EA6BAC70DB2D.jpeg

             

            Спасибо psod прикладываю.

            Апдейты установлю, спасибо за совет.

            В логах и nvidia-smi ничего подозрительного не нашел, правда в этом случае до розового экрана не дошло, хост перезагрузили после появившихся тормозов и невозможности стартовать машины

            Видимо проблема связана с какой-то из виртуалок (если это возможно впринципе)

            Паренос подозрительной виртуалки на другой хост привел к исчезновению проблем (по крайней мере пока)

            • 3. Re: ошибки связанные с vGpu
              Finikiez Master
              vExpert

              PSOD очень похож на баг в драйвере от NVIDIA

               

              Смотрите статью в kb vmware VMware Knowledge Base

              и release notes к драйверам nvidia VMware vSphere :: NVIDIA Virtual GPU Software Documentation