Contributor
Contributor

Отключаются диски на сервере HP DL380G5

Здравствуйте, коллеги! Подскажите, в чем соль моей ситуации?

Имеем:
4 сервера HP DL380G5 в конфигурации 2 процессора, контроллер RAID SmartArray E200 + батарея кэша, 8 SAS дисков по 72Гб


Ранее все сервера крутились под Windows 2003 Server R2 и проблем небыло.

Теперь три сервера крутятся под VMware ESX 4.1, а 4-ый под Windows 2003 Server R2 (бакапный сервер, на него падают бакапы виртуальных машин через Veem Backup)
На трех хост-серверах RAID сконфигурирован в RAID5 + hot spare (1-7, 8 диск)
На бакапном 1-2 RAID1, 3-8 RAID5 без hot spare

Проблема:
Жалуюсь на отключение дисков ТОЛЬКО на хост-серверах.  Выглядит это так. В нормальном режиме работы диски моргают зелеными лампочками, а hot spare молчит, ждет своего часа. В один прекрассный момент я вдруг вижу, что на каком-нибудь из хостов один из дисков просто потух (глючат так все три). Лампочка не моргает, но и не горит красным, просто потухла. И вместо него моргает hot spare. Меняю негорящий диск на другой, контроллер подхватывает новый диск и все ок. И такое происходит примерно раза два в неделю со всеми серверами и всеми дисками в корзинках. Иногда отваливаются сразу два, например 1 2, или 3 4.. не обязательно подряд. Именно поэтому ввел hot spare.


Я прошил все 4 сервера с последнего firmware DVD, в том числе и все HDD прошил, даже ЗИПовые - непомогло.
Но вот что странно. 4-ый сервер, бакапный, работает под Вин2003 и там НЕТ такого! Я тогда взял и поменял полностью массив: все восемь дисков вытащил из бакапного сервера и поставил их в виртуальный, а диски виртуального в бакапный.
Ситуация повторилась: на 4-ом сервере теперь стоит ESX массив и диски отключаются. А на 2-ом сервере, где теперь стоит бакапный массив с Вин2003 перестали отключаться.

Гонял тесты с СмартCD в круглосутке - ничего не нашлось. В чем может быть оказия?

Tags (3)
0 Kudos
16 Replies
Expert
Expert

странно как то у вас, впервые такое вижу.

Я бы Вам посоветовал саппорт HP долбить, наоткрывать кейсов по проблеме, пусть разбираються.

Ну и конечно все прошивки обновить, хотя вы это уже сделали.

VMware vExpert 2010, 2011 - http://vm.pro-it.kz
0 Kudos
Contributor
Contributor

причем на соседнем заводе имеется нечто подобное: сервера такие же, ОС таже, но используют для ВМ полку FC, и контроллер дисков на серверах не SMARTARRAY E200, а P400. У них таких проблем нет Smiley Sad

0 Kudos
Contributor
Contributor

сегодня пробовал обратиться в службу поддержки HP... Smiley Sad в помощи мне отказали, ссылаясь на то, что заявку надо открывать в отдел по работе с ВМваре, а для этого надо иметь действующий контракт на обслуживание или некую флэшку. Ни того, ни другого у меня нет... печально Smiley Sad

0 Kudos
Commander
Commander

Раз Вы грешите на SmartArray E200, посмотрите VMware HCL

http://www.vmware.com/resources/compatibility/search.php?action=search&deviceCategory=io&productId=1...http://www.vmware.com/resources/compatibility/search.php?action=search&deviceCategory=io&productId=1...

Там вроде как для этой модели драйвер определенной версии полагается:

Release                    Device Driver(s)                               Type
ESX / ESXi 4.1     cciss version 3.6.14.10.1-2vmw     inbox

Также, если есть возможность, посмотрите логи работы этого SmartArray E200, может там есть что-то примечательное.

0 Kudos
Contributor
Contributor

Именно, уважаемый РуматаРус! Драйвер для контроллера заявлен ВМваре в "коробке", да и на сайте HP нет специального драйвера для контроллера под ESX. Смело покупали vSphere, т.к. наши сервера полность проходят по списку совестимости оборудования... и вот надож такому приключиться... Почему грешу на контроллер? Дело в том, что на соседнем заводе есть аналогичный сервер, но контроллер SmartArray P400, и в качестве хранилища дл ВМ используется полка FC MSA2324. И все работает прекрасно.

А вот на счет логов контроллера подскажите, где их искать?

0 Kudos
Commander
Commander

pdv wrote:

А вот на счет логов контроллера подскажите, где их искать?

К сожалению, не подскажу. Smiley Sad

Еще один возможный путь решения проблемы - дополнительная настройка E200 - возможно к нему есть управляющие утилиты, меняющие режим работы.

Конечно, описанная Вами ситуация очень странная...

0 Kudos
Commander
Commander

Наткнулся на такой топик по Вашей теме:

http://forums11.itrc.hp.com/service/forums/questionanswer.do?admit=109447626+1294856846949+28353475&...

У коллеги тоже проблемы с E200 SmartArray, правда другого плана: с ребилдом RAID5.

0 Kudos
Expert
Expert

Прочитав ветку, я подумал, что на Вашем месте  стал бы злобно подозревать драйвер Сферы для  SmartArray E200 (в конце концов, и на старуху бывает проруха). По крайней мере рокировки указывают именно на это.

ЗЫ: Характерно, что и у Вас, и по ссылке ув. дона Руматы фигурирует хост ESX. Интересно, как с этим контроллером будет вести себя ESXi? Попробуете? Smiley Happy

0 Kudos
Contributor
Contributor

Все так, уважаемый, подозреваю связку именно драйвер + контроллер + RAID5. Но всеж ВМваре в списке совместимости утверждает, что контроллер поддерживается, а HP говорит, что этот контроллер может делать RAID5 массивы, НО при наличии батарейки и кэша, что мы и выполнили, приобретя эти устройства в кол-ве 4 шт.

Другого драйвера под ESX  для SmartArray E200 я не нахожу Smiley Sad

Есть еще мысль, избавиться от RAID5, сделать RAID0+1 (2 "нулевых" массива по 4 диска  загнать в "зеркало"), но потеря почти 50% сырой емкости хранилища печалит.... однако скорее всего буду пробовать... мне надо четко понять, либо менять контроллер либо еще что - штука то эта стоит немалых денег, просто так мне ее не купят Smiley Sad

Попробовать ESXi? Разве там чтото другое? Я думаю драйвер тотже самый

0 Kudos
Expert
Expert

pdv wrote:

Все так, уважаемый, подозреваю связку именно драйвер + контроллер + RAID5.

Мне немного странновато видеть в данной связке RAID5. Строго говоря, тип RAID-тома всегда считался "внутренними делами" самого контроллера, ну а драйвер обязан одинаково (не)хорошо работать с любым томом (R-0, 1, 10, 5, 6, 50, etc.). Я полагаю, что если бы контролер косячил именно с R-5, то это вылезало бы под любой ОС (чего, как мы видим, у Вас под винсервером не происходит). Похоже, потенциальная кривизна драйвера тут первична и определяюща...

pdv wrote:

HP говорит, что этот контроллер может делать RAID5 массивы, НО при наличии батарейки и кэша, что мы и выполнили, приобретя эти устройства в кол-ве 4 шт.

В оригинале (на сайте НР) не при наличии "батарейки И кеша", а при наличии "кеша с батарейкой". Видимо, они понимают, что без WB R-5 на их контроллере просто "умрёт на записи", вот и подстраховались. Обычно вендоры контроллеров максимум запрещают включение WB без батареи (а чаще просто предупреждают, оставляя решение за админом), но эти, видимо, зашли дальше всех в стремлении "держать марку"... Smiley Happy

pdv wrote:

Другого драйвера под ESX  для SmartArray E200 я не нахожу Smiley Sad

По идее можно было бы попробовать подсунуть "просто линуксовый" драйвер для данного контроллера, но... оно Вам надо? Это мне простительно... в отсутствие брендового железа пускаться во все тяжкие (живу же почти год на хостах, патченных на предмет гигабитных бортовых Марвелов), а Вас, как  говорится, ноблис облидж... :smileygrin:

pdv wrote:

Есть еще мысль, избавиться от RAID5, сделать RAID0+1 (2 "нулевых" массива по 4 диска  загнать в "зеркало"), но потеря почти 50% сырой емкости хранилища печалит.... однако скорее всего буду пробовать... мне надо четко понять, либо менять контроллер либо еще что - штука то эта стоит немалых денег, просто так мне ее не купят Smiley Sad

Ну да, потеряете некоторую ёмкость... впрочем, беспокоить должно не это, а то, что (как уже говорилось мною вначале) "контроллеру - контроллерово", а "драйверу - драйверово": ну не должно быть различий в работе с разными типами томов.

Впрочем, НР мог как угодно испохабить прошивку, коль скоро там решили увязать возможность вообще сделать R-5 с наличием модуля BBU - в таком разе можно проявить сдержанный оптимизм и действительно попытаться сделать R-10 (кстати, в "тяжёлых" контроллерах принято "составные" тома обозначать не 0+1 или 1+0, а как R-10 - страйп (R-0) из зеркал (R-1)... точно так же как R-50 есть страйп (R-0) из пятёрок (R-5)).

Попробуйте сделать R-10 и отпишите, каково поведение контроллера в этом случае. Если будете делать, то проверяйте работу R-10 в двух режимах - с WB и без него. Мало ли, вдруг косяки R-5-го каким-то боком завязаны на WB?

Насчёт денег и всё такое... P400 (о котором отзываются впоне благосклонно в инете) стОит на 30-50% дороже E200-го (в абсолютных цифрах разница за штуку составит полторы-две сотни бакинских). ИМХО, за спокойный сон - вполне адекватное разовое вложение...

pdv wrote:

Попробовать ESXi? Разве там чтото другое? Я думаю драйвер тотже самый

Не сочтите за грубость Smiley Happy, но... "Вы не думайте, Вы пробуйте..." :smileygrin:

IT, как я с каждым годом убеждаюсь, нифига не "точная наука" - "тёмные электронные силы" ещё никто не отменял...

0 Kudos
Contributor
Contributor

Спасибо Вам, Umlyaut, за столь подробное изложение Ваших мыслей! И не лишенного литературного изыска Smiley Wink

По существу я хочу добавить следующее:

1. без  кэша с батарейкой я вообще не мог создать RAID5 - напрочь отсутствовал этот пункт в настройках контроллера.

2. обязательно буду пробовать RAID10 и ESXi - вывел один из серверов в тест.

3. контроллер P400 возможно и не дорог, но кто даст гарантию, что не повторится? хочется сначало разобраться.

4. проклюнулась моя основная заморочка прошлого года - FC хранилище на основе полочки P2000 G3, и обновления vSphere до редакции Advanced. Такчто глядишь, все и разрешится.

Хочется отказоустойчивости, что, на сколько я могу понять, не может обеспечить ESXi.

0 Kudos
Expert
Expert

pdv wrote:

Спасибо Вам, Umlyaut, за столь подробное изложение Ваших мыслей! И не лишенного литературного изыска Smiley Wink

Ну это я не для повыпендриваться, а ради вящей доходчивости объяснений... Smiley Wink

pdv wrote:

По существу я хочу добавить следующее:

1. без  кэша с батарейкой я вообще не мог создать RAID5 - напрочь отсутствовал этот пункт в настройках контроллера.

ЧТД.

НР, видимо, крепко Вам (и "нам") не доверяет... Smiley Happy

pdv wrote:

3. контроллер P400 возможно и не дорог, но кто даст гарантию, что не повторится? хочется сначало разобраться.

Вот это зер гут! Smiley Happy

По-хорошему, некисло было бы вообще в качестве контроллеров использовать что-то приличное - LSI, 3Ware (да-да, вторая куплена первой, но я не в плане корпоративной принадлежности, а в плане разных продуктовых линеек), Areco... но если у Вас серваки на поддержке НР, то тамошние поддержаторы могут и не обрадоваться такой замене...

pdv wrote:

Хочется отказоустойчивости, что, на сколько я могу понять, не может обеспечить ESXi.

"Отказоустойчивость", как мне представляется, не есть встроенное по дефолту или приобретаемое опционально свойство чего бы то ни было (включая хост Сферы). ESXi (так же как и ESX) может обеспечить отказоустойчивость, если Вы:

a) сформулируете требования к этой самой отказоустойчивости;

б) обеспечите выполнение этих требований на техническом и организационном уровне.

Пардоньте, если показался занудным или нравоучительным... Smiley Happy

0 Kudos
Commander
Commander

pdv wrote:

Хочется отказоустойчивости, что, на сколько я могу понять, не может обеспечить ESXi.

Коллега, ESXi даст Вам точь-в-точь такую же отказоустойчивость, что и ESX.

Более того, все будующие версии Сферы будут только на базе тонкого гипервизора (читай "ESXi"), ESX больше не будет.

0 Kudos
Contributor
Contributor

спасибо за пояснение! буду пробовать

0 Kudos
Contributor
Contributor

Добрый день коллеги.

У меня на сервере HP DL380 G6 используется версия ESXi 4.0 от HP

Эту версию можно свободно скачать с сайта HP

Возможно это поможет решить вашу проблему.

0 Kudos
Contributor
Contributor

Провёл замену ESX на всех серверах, с 4.0 upd1 на 4.1

Пока месяц полёт нормальный.

04.07.2011

Прошёл ещё месяц. Версии ПО:

ESX 4.1.0, 381591

vCenter 4.1.0,345043

Отказов  дисков не зафиксировано

0 Kudos