defrog
Contributor
Contributor

Перестают отвечать гостевые системы зависает гипервизор VMware vSphere Hypervisor (ESXi)

Проблема подвисания vSphere Hypervisor (ESXi 5.5).

В деле виртуализации я полный ноль и прошу помощи сообщества, так как даже не знаю с какой стороны подступиться к решению своей проблемы.

В конце апреля у нас появился новый сервер, на него был установлен гипервизор ESXi 5.5, со старого сервера в виртуальную среду была перенесена ОС Windows 2003 Standart. Больше двух недель все это дело работало без каких либо проблем. Потом стали проявляться совершенно странные проблемы. Гостевая ОС перестала отвечать (пинговаться), попытка подключиться к консоли из VMware vSphere Client не дала результата (экран удаленной машинки не появляется). При этом из VMware vSphere Client не возможно управлять гипервизором, все тормозит, перезагрузить или выключить гостевую ОС или сам гипервизор невозможно по причине того что гипервизор не реагирует на команды.

Подключение напрямую к серверу с EXSi 5.5.0, 1623387 тоже не сильно помогает ситуации, так как при команде перезагрузки или попытке посмотреть логи гипервизор не отвечает. Помогает только жесткая перезагрузка сервера. После этого все работает хорошо, в журнале событий гостевой ОС и самого гипервизора никаких подозрительных сообщений нет.

Сначала подумалось, что это разовая проблема, но частота появления этой ошибки стала увеличиваться. Сначала такая проблема возникла через 2 недели, потом через 1 неделю, потом примерно раз в 3 дня, теперь уже примерно через день проявляется.

Убедительная просьба подсказать в какую сторону смотреть для решения данной проблемы, на что обращать внимание?

Материнская плата Supermicro X9SRi-F

RAID контроллер Adaptec ASR-6405

При первоначальной установке гипервизор не видел контроллер и соответсвенно разделы были не доступны. Драйвера с сайта Adaptec добавил в образ с помощью ESXi-Customizer v2.7.2 и в последствии на это же хранилище установил гипервизор.

В логах проскакивают следующие подозрительные (на мой взгляд) строчки:

2014-05-31T07:27:40.001Z cpu0:34390)World: 14296: VC opID hostd-d3a5 maps to vmkernel opID b18387f

2014-05-31T07:28:00.003Z cpu2:35195)World: 14296: VC opID 24237E93-00001720 maps to vmkernel opID 8f46b9b

2014-05-31T07:28:20.002Z cpu1:34029)World: 14296: VC opID 24237E93-00001724 maps to vmkernel opID 186888ea

2014-05-31T07:28:40.004Z cpu7:34029)World: 14296: VC opID 24237E93-00001726 maps to vmkernel opID adc67bf5

2014-05-31T07:29:00.004Z cpu8:34021)World: 14296: VC opID 24237E93-00001728 maps to vmkernel opID c0f171ec

2014-05-31T07:29:09.296Z cpu1:35195)World: 14296: VC opID 24237E93-0000172B maps to vmkernel opID eb2aedb

2014-05-31T07:29:20.004Z cpu8:34021)World: 14296: VC opID 24237E93-0000172B maps to vmkernel opID eb2aedb

2014-05-31T07:29:40.002Z cpu1:35195)World: 14296: VC opID 24237E93-0000172E maps to vmkernel opID 2d3ae60b

2014-05-31T07:30:00.003Z cpu3:34029)World: 14296: VC opID 24237E93-00001731 maps to vmkernel opID d18568cf

2014-05-31T07:30:20.004Z cpu1:34390)World: 14296: VC opID 24237E93-00001733 maps to vmkernel opID f6c0714d

2014-05-31T07:30:40.002Z cpu3:34029)World: 14296: VC opID 24237E93-00001735 maps to vmkernel opID 4e16a118

2014-05-31T07:31:00.005Z cpu11:34029)World: 14296: VC opID 24237E93-00001738 maps to vmkernel opID a9887d20

2014-05-31T07:31:04.045Z cpu5:32798)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x1a (0x412e847f25c0, 0) to dev "mpx.vmhba0:C0:T0:L0" on path "vmhba0:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2014-05-31T07:31:04.045Z cpu5:32798)ScsiDeviceIO: 2337: Cmd(0x412e847f25c0) 0x1a, CmdSN 0x128d from world 0 to dev "mpx.vmhba0:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.

2014-05-31T07:31:09.299Z cpu5:34021)World: 14296: VC opID 24237E93-0000173A maps to vmkernel opID 50a7d250

2014-05-31T07:31:11.294Z cpu11:34029)World: 14296: VC opID hostd-130f maps to vmkernel opID b144b116

2014-05-31T07:31:20.002Z cpu8:35165)World: 14296: VC opID 24237E93-0000173A maps to vmkernel opID 50a7d250

2014-05-31T07:31:40.003Z cpu11:34030)World: 14296: VC opID 24237E93-0000173C maps to vmkernel opID 96c2471c

2014-05-31T07:31:47.652Z cpu3:34029)World: 14296: VC opID 24237E93-0000173D maps to vmkernel opID 4c2b413e

2014-05-31T07:32:07.599Z cpu4:34324)WARNING: ScsiDeviceIO: 7005: IEC page to device "mpx.vmhba1:C0:T2:L0" has bad pagecode: 0x0

2014-05-31T07:32:07.602Z cpu10:32803)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x85 (0x412e84926b00, 34324) to dev "mpx.vmhba1:C0:T2:L0" on path "vmhba1:C0:T2:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2014-05-31T07:32:07.602Z cpu10:32803)ScsiDeviceIO: 2337: Cmd(0x412e84926b00) 0x85, CmdSN 0x2d from world 34324 to dev "mpx.vmhba1:C0:T2:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2014-05-31T07:32:07.605Z cpu10:32803)ScsiDeviceIO: 2337: Cmd(0x412e84926b00) 0x4d, CmdSN 0x2e from world 34324 to dev "mpx.vmhba1:C0:T2:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2014-05-31T07:32:07.607Z cpu4:34324)WARNING: ScsiDeviceIO: 7005: IEC page to device "mpx.vmhba1:C0:T1:L0" has bad pagecode: 0x0
2014-05-31T07:32:07.618Z cpu7:32800)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x85 (0x412e84926b00, 34324) to dev "mpx.vmhba1:C0:T1:L0" on path "vmhba1:C0:T1:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2014-05-31T07:32:07.618Z cpu7:32800)ScsiDeviceIO: 2337: Cmd(0x412e84926b00) 0x85, CmdSN 0x30 from world 34324 to dev "mpx.vmhba1:C0:T1:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2014-05-31T07:32:07.621Z cpu7:32800)ScsiDeviceIO: 2337: Cmd(0x412e84926b00) 0x4d, CmdSN 0x31 from world 34324 to dev "mpx.vmhba1:C0:T1:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2014-05-31T07:32:07.623Z cpu4:34324)WARNING: ScsiDeviceIO: 7005: IEC page to device "mpx.vmhba1:C0:T0:L0" has bad pagecode: 0x0
2014-05-31T07:32:07.636Z cpu7:32800)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x85 (0x412e84926b00, 34324) to dev "mpx.vmhba1:C0:T0:L0" on path "vmhba1:C0:T0:L0" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2014-05-31T07:32:07.636Z cpu7:32800)ScsiDeviceIO: 2337: Cmd(0x412e84926b00) 0x85, CmdSN 0x33 from world 34324 to dev "mpx.vmhba1:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2014-05-31T07:32:07.638Z cpu7:32800)ScsiDeviceIO: 2337: Cmd(0x412e84926b00) 0x4d, CmdSN 0x34 from world 34324 to dev "mpx.vmhba1:C0:T0:L0" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.

2014-05-31T07:32:10.980Z cpu9:34390)World: 14296: VC opID hostd-efeb maps to vmkernel opID d2f4fbe9

2014-05-31T07:32:10.985Z cpu11:35165)World: 14296: VC opID hostd-0a57 maps to vmkernel opID a746fb04

2014-05-31T07:32:20.004Z cpu11:34030)World: 14296: VC opID hostd-15a2 maps to vmkernel opID 3dde2e12

2014-05-31T07:32:22.451Z cpu2:34029)World: 14296: VC opID 24237E93-00001744 maps to vmkernel opID 3b1c6c24

2014-05-31T07:32:40.001Z cpu6:35165)World: 14296: VC opID 24237E93-00001744 maps to vmkernel opID 3b1c6c24

2014-05-31T07:33:00.003Z cpu6:34030)World: 14296: VC opID 24237E93-00001746 maps to vmkernel opID 7f642bb6

2014-05-31T07:33:20.002Z cpu8:34030)World: 14296: VC opID 24237E93-00001749 maps to vmkernel opID 9a43a8ee

2014-05-31T07:33:40.001Z cpu10:34390)World: 14296: VC opID 24237E93-0000174B maps to vmkernel opID d5dac0ec

2014-05-31T07:34:00.002Z cpu2:34030)World: 14296: VC opID 24237E93-0000174F maps to vmkernel opID e6dac321

2014-05-31T07:34:09.305Z cpu0:35165)World: 14296: VC opID 24237E93-00001751 maps to vmkernel opID a7c5fae1

2014-05-31T07:34:20.003Z cpu3:34030)World: 14296: VC opID hostd-2e83 maps to vmkernel opID a1270503

2014-05-31T07:34:40.005Z cpu7:35165)World: 14296: VC opID 24237E93-00001753 maps to vmkernel opID f5eab152

2014-05-31T07:35:00.003Z cpu0:34030)World: 14296: VC opID 24237E93-00001755 maps to vmkernel opID e2ae6409

2014-05-31T07:35:01.640Z cpu11:35195)World: 14296: VC opID hostd-3b18 maps to vmkernel opID fa3d7371


vmhba1:C0:T0:L0 - это мой дисковый массив на котором хранятся образы ОС.


За ранее большое спасибо за ответы и буду рад абсолютно любой информации по моему вопросу.

Tags (2)
35 Replies
Diesel315
Enthusiast
Enthusiast

Ну вроде вывод сам напрашивается. Массив работает не стабильно. Попробуйте на других дисках создать заново...

0 Kudos
defrog
Contributor
Contributor

Замена дисков, обновление прошивки контроллера, обновление драйверов - все это было сделано, но вот результат пока один и тот же - отваливается массив данных.

Все так-же непредсказуемо завершается работа гостевых машин и гипервизор начинает тупить. Вот такую картину я наблюдал:

2014-06-09 09-16-10 Windows 8 x64.png

0 Kudos
Diesel315
Enthusiast
Enthusiast

Я правильно понимаю, что массив использует локальные диски (vmhba1)? Практически все вы уже сделали, прошивали БИОС? Железо совместимо с VMWare?
Проблема на мой взгляд все же аппаратная, советую написать в ТП производителя оборудования.

0 Kudos
defrog
Contributor
Contributor

Diesel315, огромное вам спасибо за помощь и желание помочь мне с моей проблемой.

Как я понял, все оборудование совместимо с гипервизором ESXi 5.x

Системная плата X9SRi-F, Intel C602, Sq ILM, 8xDDR3, 1xPCI-E x16, 1xPCI-E x8 (x16), 1xPCI-E x4 (x16), 10xSATA, 2x1Gb Eth, IPMI, KVM

Процессор Intel Xeon E5-1650V2 (6 cores,12M Cache, 3.50 GHz, HT, TB, DDR3-1866, 130W)

Сист. охлаждения SNK-P0048AP4, 2U+ Active CPU HS for LGA2011 w/ Narrow & Square ILM

Модуль памяти 8GB, ECC Reg, DDR3-1600, Dual Rank, x4

Контроллер RAID Adaptec ASR-6405, 512MB, 4int SAS/SATA, 6Gb/s, PCI-E x8

Батарейка (BBU) Модуль Adaptec Flash AFM-600 Kit

Жесткий диск SAT Жесткий диск S-ATA 500GB 7200RPM 3.5" Enterprise

Накопитель Intel S3700 Series, 100GB, 2.5in SATA 6Gb/s, MLC (SSDSC2BA100G301)

Привод DVD-RW Привод внутренний DVD±RW (DL, 8x/16x/40x), SATA, Black

Supermicro Cases CSE-732I-R500B, 4x3.5 tool-less HDD tyrays, 2x5.25", 2x500W, ATX

Кабель CBL-0097L-02, iPASS to 4xSATA cable, 50cm

Рассказываю, что было еще сделано для локализации проблемы:

0. Был полностью разобран сервер и собран по новой для того чтобы отсечь возможную проблему в конаткте дисков и контроллера. Мало ли при транспортировке контакт где мог отойти. Обновлен BIOS материнской платы и рэйд контроллера.

1. Самая последняя версия гипервизора ESXi (5.5.0, 1881737 ) была установлена на флэшку.

2. После установки гипервизора на флэшку были добавлены драйвера для raid контроллера, но уже драйвера я брал не с сайта производителя Adaptec, а c сайта VMWare

3. Через не продолжительное время работы опять имеем отвалившиеся харнилище. Smiley Sad

4. По описанию проблемы схожей с моей отключил Interrupt Remapping.

5. Устанавил патч ESXi550-201406001. (Единственное я не понял, что нужно последоватльно устанавливать все патчи которые выпущены или самая последняя версия включает в себя все предыдущие версии?).

Через не продолжительное время работы опять имеем отвалившиеся харнилище. Smiley Sad

Вот теперь точно не знаю, что и делать и кому писать.

Очередная порция логов. Кстати после установки гипервизора на флэшку при загрузке стало появляться такое сообщение:

2014-06-13 00-27-04 Windows 8 x64.png

2014-06-13 00-36-10 Windows 8 x64.png

2014-06-13 00-37-33 Windows 8 x64.png

А так выглядит экран гипервизора когда что-то пошло не так:

2014-06-13 00-11-53 Windows 8 x64.png

0 Kudos
Diesel315
Enthusiast
Enthusiast

А на сайте производителя контроллера версия драйвера/bootcode новее? Если новее может с сайта обновить.
Если честно кроме как проблем с железом пока не знаю что предположить. Разве что попробовать просто поставить Windows Server и погонять немножко с целью так сказать выявления несовместимости на программном уровне...
Если на винде все норм, то значить косяк с Vmware, ну а если и так будет отваливаться, то все же железо, сдавать по гарантии...

0 Kudos
Samovar_
Contributor
Contributor

Абсолютно та же проблема. Сервер супермикро, контроллер тот же. Аналогично виснет напрочь через некоторое время, это происходит раз в несколько дней а может отваливаться через день. Скорее всего проблема в драйвере. Сейчас установлен Esxi 5.5.0-1331820, драйвер ставил с сайта производителя. Как выяснилось драйвер с сайта vmware тот же самый, версия  aacraid-1.2.1.40301-1440192. Думаю попробовать забэкапить виртуалки, пересобрать массив, и установить гипервизор 5.5.0 update1. Если будет и дальше виснуть, наверно придется ставить версию 5.1.

P.S. Отпиши если поборол проблему. Буду весьма признателен.

0 Kudos
biofather
Contributor
Contributor

Если у вас используется backplate плата, попробуйте включить диски в обход нее.

0 Kudos
Samovar_
Contributor
Contributor

Нашел вот такой пост с похожими симптомами  Re: отваливается datastore

Поставил Esxi 5.0 U2, ошибки вроде бы прекратились. Посмотрю сколько проживет сервер.

0 Kudos
Bukkem
Contributor
Contributor

У меня такая же проблема. Мучаюсь с января 2014г. 

Supermicro SYS-7047R-TRF Adaptec 6805E Intel Xeon E5 2630V2

Если сервер практически в режиме простоя – зависает через неделю – две максимум

Если сервер нагружать (например копировать виртуальную машину с одного хранилища на другой диск) зависает менее чем за сутки.

Что было уже сделано мной.

ESXi официально поддерживает и материнскую плату и контроллер

ESXi Ставил и на жесткие диски и на флешку.

Делал и сборки дистрибутива с драйверами контроллеров и устанавливал контроллеры из терминала уже установленного ESXi

Были обновлены IPMI, BIOS, Firmware контроллера

Брались разные дистрибутивы ESXi (сейчас на флешке 1623387 bild это последний март 14г. на хранилище 1 3,, ,,, Точно не помню)

Сервер перестает отвечать на пинги (остается только IPMI, иногда сам VMware и всегда в первую очередь пинги пропадают с виртуальных машин).

Уже 2 месяца на тестировании у производителя (поставщика - продавца) Ответы что то типа "Ставьте Windows, у нас на нем все работает ) "

0 Kudos
defrog
Contributor
Contributor

Оказывается проблема с которой я столкнулся не такая уж и единичная. На днях вышел новый драйвер выпущенный Adaptec.

Официально выйдет только 4 августа. А пока можно потестить. (переименуйте расширение из .doc в .tgz)

http://3nity.ru/download/file.php?id=2123

0 Kudos
Samovar_
Contributor
Contributor

В общем на esxi 5.0 работает стабильно уже 18 дней. Саппорт из Адаптека предполагает что это проблема драйвера под esxi 5.1/5.5 с контроллерами 6 серии и предложили потестить новый драйвер версии aacraid_vmware_drivers_1.2.1-40700.tgz.

Также предлагают, цитирую: "Если в Вашей конфигураций используется корзина с дисками, то в настройках контроллера советую изменить параметр "backplane mode" на "SGPIO". В некоторых конфигурациях помогает отключение параметра Intel VT-d в настройках материнской платы."

Пока что кейс будет открыт, если устранят проблему - отпишу. А пока что-то нехочется тестировать драйвер на боевом сервере. Было бы неплохо если бы кто-нибудь собрал в лабе и потестил драйвер...

Драйвер тут:  https://copy.com/6wwKsqDvb4gV


Filename: aacraid_vmware_drivers_1.2.1-40700.tgz
Date: 7/18/2014
Size: 446464 bytes
Languages: English
Description:
AACRAID Driver v1.2.1-40700 for VMware

0 Kudos
Bukkem
Contributor
Contributor

Мне не помогло.

Поставил ESXi 5.5 1.623.387 bild на флешку, установил дрова 40700, и просто в хранилище решил скопировать образ 2012. и когда осталось 1сек. у меня ESXi завис...

Для начала пока у меня был открыт VSphere клиент я сделал rescan datastore - ни ответа ни привета. Перезапустил  vSphere клиент - не смог подключиться к хосту. С консоли даже не смог залогиница.

Психанул и поставил контроллер LSI megaraid. Модель сейчас не скажу - собирается рейд - примерно аналогичный контроллер.

Что как позже отпишу. Спасибо

0 Kudos
Bukkem
Contributor
Contributor

Уважаемые. Как только поставил контроллер LSI MegaRAID  так сразу у меня сервер работает без всяких проблем.

Adaptec 6805E я сейчас от злости готов просто выкинуть - с января месяца по август мучался...

Драйверы мне никакие не помогали, прошивки не помогали. Не работает ESXi 5.5 и этот контроллер на данный момент нормально.

Всем спасибо

0 Kudos
Samovar_
Contributor
Contributor

Спасибо за информацию. Подскажите какая модель контроллера LSI у вас установлена? Драйвер интегрировали в образ Esxi или в этом нет необходимости? Спасибо.

Со своей стороны добавлю небольшой апдейт:

Ранее писал что на версии 5.0 U2 сервер прожил 18 дней и вроде бы все хорошо, однако это не так. Сервер все равно завис, правда прожил немного дольше чем на других версиях Esxi. В итоге договорились с поставщиком о замене на контроллер LSI, благо сервер находится еще на гарантии.

На след неделе буду переносить менять на другой контроллер. По результатам отпишу.

0 Kudos
Bukkem
Contributor
Contributor

Контроллер Supermicro AOC-SAS2LP-H8IR - точная копия LSI MegaRAID SAS 9260-8I SGтолько с наклейкой Supermicro

Если можно дам ссылку Контроллер SAS LSI MegaRAID SAS 9260-8I SGL LSI00198 купить в Москве, цена на LSI MegaRAID SAS 9260-...  (не реклама Smiley Happy )

Драйвера ESXi подпихивать не надо, он сам его прекрасно видит. С радостью помогу еще опытом Smiley Happy

Счастью нет предела - всю неделю перекидываю машинки с хранилища на хранилище - раньше не прожил бы и пол дня при таком режиме...

Кстати меня с гарантией немного "Прокатили" комментируя что Windows работает нормально и остальные проблемы нас не волнуют - обращайтесь к VMware )))  Слава богу был свободный контроллер LSI

0 Kudos
patcher_tula
Enthusiast
Enthusiast

Bukkem не пробовали отключить Interrupt remapping?

0 Kudos
Bukkem
Contributor
Contributor

Нет ...

0 Kudos
defrog
Contributor
Contributor

Вот и решилась моя проблема с зависанием виртуальных машин установкой контроллера другого производителя.

А так-же пришла ежемесячная рассылка от Adaptec.

Проблема в разработке с наивысшим приоритетом!

Для релизов ESXi 5.x наблюдается проблема зависания VMware или самих виртуальных машин с контроллерами Series 6 и реже Series 7 под нагрузкой (в зоне ответственности российской команды на Series 6 приходится 90% случаев). Предварительно, проблема проявляется только при наличии процессоров Intel V2.

Повторяем ещё раз – наши инженеры осознают всю важность этой проблемы и работают над её решением!

Так что решения пока нет.

0 Kudos
patcher_tula
Enthusiast
Enthusiast

Я решил у себя её путем отключения interrupt remaping. V2 проц тут не при чем, у меня e5620.

0 Kudos