Aleks_UPNK2019
Contributor
Contributor

намертво зависает виртуальная машина

Добрый день!

Есть хост HP DL180 G9, на нем крутится 2 виртуальные машины. Обе под win2012 R2.

Первая как файловый сервер - работает стабильно. Вторая как сервер видеонаблюдения - в хаотичном порядке намертво зависает. Приходится на холодную тушить весь хост через iLo.

Причем зависание происходят в основном ночью, когда нагрузка минимальна.

прилагаю vmkernel.log хоста на момент зависания.

Как я понял каждые 5 минут хост опрашивает все подключения дисков(диски проброшены LUN-ами подсоединены две полки HP 3600 по 12 дисков в каждой, 2 диска проброшено на файловый сервер, остальные на второй), и в один прекрасный момент хост не может опросить один из дисков и пытается переподключить в итоге все диски. Но что то проходит не так и виртуалка зависает. При этом файловый сервер работает в штатном порядке.

Подскажите в какую сторону копать? С чего начать решение проблемы. Если нужны какие то другие логи хоста или виртуалки могу предоставить.

Заранее большое спасибо откликнувшимся.

P.S система ставилась из образа для HP оборудования. накатан 6.0 u2 на данный момент

0 Kudos
27 Replies
Aleks_UPNK2019
Contributor
Contributor

Спасибо за подсказку.

Для начала диск naa.50014ee20bc88943 исключим из работы. потом исключим из системы. посмотрим как система будет реагировать.

если после исключенения диска система будет работать стабильно, просто заменим диск.

На счет обновления FW сервер постоянно в работе и останавливать его на обновление FW очень проблематично. Попробуем после нового года выпросить время для обновления FW и потом посмотрим что получится.

Спасибо всем откликнувшимся. Огромное спасибо

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Добрый день всем!!!! возвращаюсь опять к своей проблеме. Продолжает периодически зависать виртуальная машина. Пока решаем вопрос просто отключением дисков в виртуалке, но данная ситуация вообще не нравится. В следствии маленького опыта работы с VMware (пришел сюда работать и уже все стояло) есть ряд вопросов по работе с дисками:

1. Как я понимаю тупо в виртуалке отключить диск и вытащить его из полки нельзя, система потом еще больше будет глючить, следовательно вопрос - как корректно отключать диски сначала в виртуалке и потом в хосте? Если не сложно показать на примере или ссылку где можно об этом почитать.

2. Как вычислить в каком месте в дисковой полке стоит какой диск и как он проброшен (с учетом того что они RDM) т.е как как понять что и как например с дисков по адресу C2:T13:L0? файлы можно взять из архива размещенного мной раннее в этой ветке. если не сложно показать пример. Начал вычислять что где стоит и вообще ничего не сходится.......

Заранее благодарен всем откликнувшимся и сильно не пинайте за смешные вопросы... учусь пока....

0 Kudos
Finikiez
Champion
Champion

можете последовательно рассказать?

Планировали вывести из эксплуатации диск naa.50014ee20bc88943. Получилось? Что после этого наблюдали?

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

добрый день. да. вывели диск naa.50014ee20bc88943. начали с него. убрал его сначала из программы, потом отключил в виртуальной машине.

Система на данные момент работает стабильно. нареканий пока нет.

Единственное в логах vmkernel.log остались сообщения вида:

2020-02-05T06:06:09.921Z cpu4:36160)ScsiDeviceIO: 2636: Cmd(0x43b580351280) 0x85, CmdSN 0x14300 from world 34401 to dev "naa.600508b1001c504e14c7a0db17c4899e" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.

2020-02-05T06:06:11.349Z cpu2:36160)ScsiDeviceIO: 2636: Cmd(0x43b5855f0680) 0x85, CmdSN 0x1433f from world 34401 to dev "naa.600508b1001c673d5d4a3c8b8668b8d4" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.

На сколько я понимаю что то с массивами raid. но пока отложим данную проблему в сторону.

Вопрос заключается в том как определить теперь в каком месте какой полки находится отключенный диск naa.50014ee20bc88943, что бы его отключить в гипервизоре как RDM и вытащить из полки и протестировать его отдельно. ну и соответственно поставить на его место новый диск (такие есть в наличии и той же серии). Возможно и получится обновить firmware на самом диске(если понадобится). 

0 Kudos
Finikiez
Champion
Champion

На основен runtime name - vmhba2:C2:T1:L0, я подозреваю, что это скорее всего нулевой (первый) диск в полке.

По поводу приведенных SCSI ошибок - их можно игнорировать.

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Добрый день.

Если предположить что vmhba2:C2:T1:L0 это первый диск(нулевой), тогда как быть с диском в месте vmhba2:C2:T0:L0

по логике вещей он должен быть первым дисков в первой полке? и в этом месте стоит диск naa.50014ee26168194c

0 Kudos
Finikiez
Champion
Champion

Обратите внимание на номер T. Это номер таргета, у вас разные полки и соответственно разные таргеты.

Но это один способ.

А второй способ все-таки смотреть информацию по дискам через CLI к дисковому контроллеру, к которому подключены диски.

0 Kudos
Aleks_UPNK2019
Contributor
Contributor

Привет всем жителям. закрою уже тему, дабы не разводить бардак на форуме.

Проблему зависания VM решили. Оказалось все дело в софте крутящемся на этой машине.

Софт постоянно пишет на диски информацию(видеонаблюдение)  для кеширования записей и при каких то моментах происходило наложение записей на один и тот же диск.

Решили выделить под кэш отдельный диск и зависания пропали. Работаем уже 2 месяца без проблем

0 Kudos