freeman_camion
Contributor
Contributor

Проблемы с LSI 9260-4i при апгрейде ESXi с 5.0 до 5.1.0а

На ESXi установил офлайн бандл 5.1, а потом на него тоже офлайн апдейт до 5.1.0а. На данный момент ~ # vmware -v
VMware ESXi 5.1.0 build-838463.

И вот какую ситуацию наблюдаю в логе /var/log/vmkernel.log

2012-11-28T10:05:42.290Z cpu7:5039)WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 19209 microseconds to 577155 microseconds.
2012-11-28T10:05:44.296Z cpu11:4107)WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 19264 microseconds to 580562 microseconds.
2012-11-28T10:05:51.541Z cpu3:37757)WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 19406 microseconds to 602629 microseconds.
2012-11-28T10:06:39.775Z cpu9:6338)WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 20438 microseconds to 618588 microseconds.
2012-11-28T10:06:50.950Z cpu0:6338)WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 20666 microseconds to 743760 microseconds.
2012-11-28T10:07:31.248Z cpu9:6339)ScsiDeviceIO: 1191: Device naa.600605b0049021e017579dc7047fff41 performance has improved. I/O latency reduced from 743760 microseconds to 145638 microseconds.
2012-11-28T10:07:31.930Z cpu9:37983)VSCSI: 2370: handle 8198(vscsi0:0):Reset request on FSS handle 5188905 (67 outstanding commands)
2012-11-28T10:07:31.930Z cpu0:4202)VSCSI: 2648: handle 8198(vscsi0:0):Reset [Retries: 0/0]                       
2012-11-28T10:07:31.930Z cpu0:4202)megasas: ABORT sn 1436974 cmd=0x8a retries=0 tmo=0                            
2012-11-28T10:07:31.930Z cpu0:4202)<5>0 :: megasas: RESET -1436974 cmd=8a retries=0                              
2012-11-28T10:07:31.930Z cpu0:4202)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2012-11-28T10:07:31.994Z cpu1:4097)WARNING: LinScsi: SCSILinuxQueueCommand:1193:queuecommand failed with status = 0x1055 Host Busy vmhba1:2:0:0 (driver name: LSI Logic SAS based MegaRAID driver) - Message repeated 1 time
2012-11-28T10:07:31.994Z cpu1:4097)ScsiDeviceIO: 2303: Cmd(0x412400735100) 0x2a, CmdSN 0x800201a0 from world 6336 to dev "naa.600605b0049021e017579dc7047fff41" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2012-11-28T10:07:32.017Z cpu1:6335)ScsiDeviceIO: 2303: Cmd(0x41240077cd40) 0x2a, CmdSN 0x5542 from world 4173 to dev "naa.600605b0049021e017579dc7047fff41" failed H:0x0 D:0x8 P:0x0 Possible sense data: 0x0 0x0 0x0.
2012-11-28T10:07:32.941Z cpu0:4202)<7>megaraid_sas: megasas_wait_for_outstanding: line 2156: AFTER HBA reset handler invoked without an internal reset condition:   took 1 seconds. Max is 180.
2012-11-28T10:07:32.941Z cpu0:4202)megaraid_sas: no more pending commands remain after reset handling.
2012-11-28T10:07:32.941Z cpu0:4202)<5>megasas: reset successful                                                      
                                                                                                                     
2012-11-28T10:07:32.941Z cpu0:4202)megasas: ABORT sn 1436980 cmd=0x2a retries=0 tmo=0                                
2012-11-28T10:07:32.941Z cpu0:4202)<5>0 :: megasas: RESET -1436980 cmd=2a retries=0                                  
2012-11-28T10:07:32.942Z cpu0:4202)megaraid_sas: HBA reset handler invoked without an internal reset condition.
2012-11-28T10:07:32.942Z cpu0:4202)<7>megaraid_sas: megasas_wait_for_outstanding: line 2156: AFTER HBA reset handler invoked without an internal reset condition:   took 0 seconds. Max is 180.
2012-11-28T10:07:32.942Z cpu0:4202)megaraid_sas: no more pending commands remain after reset handling.               
2012-11-28T10:07:32.942Z cpu0:4202)<5>megasas: reset successful                                                      
                                                                                                                     
2012-11-28T10:07:32.942Z cpu0:4202)megasas: ABORT sn 1437298 cmd=0x8a retries=0 tmo=0
2012-11-28T10:07:32.942Z cpu0:4202)<5>0 :: megasas: RESET -1437298 cmd=8a retries=0                                  
2012-11-28T10:07:32.942Z cpu0:4202)megaraid_sas: HBA reset handler invoked without an internal reset condition.      
2012-11-28T10:07:32.942Z cpu0:4202)<7>megaraid_sas: megasas_wait_for_outstanding: line 2156: AFTER HBA reset handler invoked without an internal reset condition:   took 0 seconds. Max is 180.
2012-11-28T10:07:32.942Z cpu0:4202)megaraid_sas: no more pending commands remain after reset handling.               
2012-11-28T10:07:32.942Z cpu0:4202)<5>megasas: reset successful

При этом периодически латенси дисковой подсистемы зашкаливает до верхних  отметок, соответственно гостевые виртуалки очень сильно тормозят. Подозреваю, что проблема в новых драйверах рейд контроллера, подскажите куда копать?

0 Kudos
15 Replies
VTsukanov
Virtuoso
Virtuoso

Problem with LSI 9260-4i after upgrade ESXi from 5.0 to 5.1.0a видели?

У самих 9261-8i в логах выпендривается в полный рост

0 Kudos
freeman_camion
Contributor
Contributor

Видели, видели Smiley Happy  это моя тема, там и решение мне подсказали: установить последние драйвера с сайта производителя. Помогло, пока что работает стабильно.

0 Kudos
VTsukanov
Virtuoso
Virtuoso

Сорри проглядел авторство Smiley Happy

Мы со своим сначала попробуем перешиться на последнюю фирмваре, но у нас только  failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.

0 Kudos
freeman_camion
Contributor
Contributor

Я думаю что Ваши ошибки не являются какой-либо серйозной проблемой, смотрите KB: 1029039  http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=102903...

0 Kudos
mtimley
Contributor
Contributor

Дабы не пугать иностранцев моим жутким английским, напишу тут.

Версии такие же как у вас, кроме драйвера установлен NMI-S провайдер.

После установки драйвера с сайта LSI появились проблемы с увеличением latency уже на вкладке Performance в vCenter (с оригинальным драйвером рагуается только в логах) и ошибка "Reset to device, \Device\Raidport0, was issued" в ВМ(Windows 7, 2008 R2, VH 9, 8).

Сейчас вернул назад оригинальный драйвер, работать стало намного приятнее, хоть и сыплет ворнинги в логах.

0 Kudos
freeman_camion
Contributor
Contributor

Да у меня тоже сейчас в логах на хосте вылезло несколько меседжей, не критичных, но столь же не приятных:

WARNING: VFAT: 4346: Failed to flush file times: Stale file handle

WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 7150 microseconds to 216079 microseconds.              
2012-11-30T01:01:19.581Z cpu1:4097)WARNING: ScsiDeviceIO: 1211: Device naa.600605b0049021e017579dc7047fff41 performance has deteriorated. I/O latency increased from average value of 7191 microseconds to 438738 microseconds.              
2012-11-30T01:01:43.703Z cpu8:6367)ScsiDeviceIO: 1191: Device naa.600605b0049021e017579dc7047fff41 performance has improved. I/O latency reduced from 438738 microseconds to 86256 microseconds.                                             
2012-11-30T01:07:01.152Z cpu9:4105)ScsiDeviceIO: 1191: Device naa.600605b0049021e017579dc7047fff41 performance has improved. I/O latency reduced from 86256 microseconds to 16773 microseconds.                                              
2012-11-30T01:08:27.609Z cpu10:6367)ScsiDeviceIO: 1191: Device naa.600605b0049021e017579dc7047fff41 performance has improved. I/O latency reduced from 16773 microseconds to 14288 microseconds.

Но пока что все работает стабильно и дальше, латенси не растет сильно, а на гостях у меня везде фряха, а жезлезо все 8й версии. Я думаю что драйвер пока не доработан и надо ждать в ближайшее время исправлений со стороны LSI. По крайней мере я на это очень надеюсь Smiley Happy

0 Kudos
VTsukanov
Virtuoso
Virtuoso

Там нет таких же кодов, да и статья на ESXi 5.0

0 Kudos
mtimley
Contributor
Contributor

У меня даже подключение по SSH отваливалось после обновления, а новые тулзы жутко кривые (гостевая кастомизация не работает с русскими виндами, а после установки View Agent машины не вводятся в домен), так что придётся повременить с обновлением до 5.1.

0 Kudos
freeman_camion
Contributor
Contributor

Valeriy Tsukanov wrote:

Там нет таких же кодов, да и статья на ESXi 5.0

Первая запись в таблице по ссылке, поле Example,

интересующее Вас Valid sense data там присутствует и я думаю это справидливо и для 5.1. Имеет значение только H:0x0 остальное, насколько я понял, индивидуально для каждого.

mtimley wrote:

У меня даже подключение по SSH отваливалось после обновления

Странно, у меня ничего не отваливалось.

0 Kudos
mtimley
Contributor
Contributor

С оригинальным драйвером гости также теряют контроллер, но немного реже чем с "обновлённым". Надо попробовать обновить прошивку контроллера, но у меня брендированная версия от Intel для которой пока не выпустили апдейта.

0 Kudos
freeman_camion
Contributor
Contributor

Я что-то сомневаюсь что проблема с прошивкой, грешу только на драйвер и его совместимость с ESXi 5.1. Сегодня написал реквест на офсайте LSI в их сапорт, посмотрим что ответят...

0 Kudos
freeman_camion
Contributor
Contributor

Если вдруг кому-либо интересно, то вот официальный ответ LSI (кратко - ставьте последнюю прошивку, ну что они еще могли посоветовать):

Yaroslav,

I would recommend upgrading the firmware to the latest using the below steps:

You will download the latest firmware here, You will download the latest firmware here, http://www.lsi.com/downloads/Public/MegaRAID%20Common%20Files/MERGED_12.12.0-0124_SAS_2108_FW_Image_... .

If you get a firmware is corrupted error when flashing the controller;  replace the latest fw ROM with this one, http://www.lsi.com/downloads/Public/MegaRAID%20Common%20Files/12.12.0-0045_SAS_2108_FW_Image_APP-2.1...
You will need to download the MegaCli tool for DOS from here, http://www.lsi.com/downloads/Public/MegaRAID%20Common%20Files/8.04.07_MegaCLI.zip
You can create a MS DOS bootable USB drives with Rufus, http://rufus.akeo.ie/


  1. Create the USB bootable drive with the MS DOS image

  2. Move the MegaCli and ROM files to the root of the USB drive

  3. Boot to a DOS prompt

  4. At the DOS prompt type MegaCli -adpfwflash -f mr2108fw.rom -a0

  5. Reboot

  6. Repeat steps 1-5 if you had to flash the controller with fw 2.120.33-1197  due to getting a firmware corrupted error corrupted error with the latest fw

... Пока что думаю - стоит ли это делать.

0 Kudos
mtimley
Contributor
Contributor

В январе вышло ещё одно обновление прошивки. Сейчас гоняю IOmeter на ней, вроде без проблем.

0 Kudos
freeman_camion
Contributor
Contributor



После некоторых исправлений появились более-менее нормальные результаты связанные с падением латенси на чтение и запись и исчезли ворнинги "performance has  deteriorated. I/O  latency increased from average value".

Что я сделал:

- установил последнюю прошивку на рейд контролер

- установил последний драйвер для мегарейд и scsi-mpt2sas

# ./MegaCli -AdpAllInfo -aAll | grep FW
FW Package Build: 12.13.0-0154
FW Version         : 2.130.383-2315

# esxcli software vib list | grep sas
scsi-mpt2sas                   16.00.00.00.1vmw-1OEM.500.0.0.472560  LSI     VMwareCertified     2013-04-11 
scsi-megaraid-sas              6.506.51.00.1vmw-1vmw.500.0.0.472560  VMware  VMwareCertified     2013-04-09 
scsi-mptsas                    4.23.01.00-6vmw.510.0.0.799733        VMware  VMwareCertified     2012-11-27

- изменил конфиг кеширования на рейде (включил writeback, дисковый кеш и read кеш)

# ./MegaCli -LDInfo -L0 -a0

Default Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU
Current Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Enabled

После всех настроек производительность дисковой подсистемы возросла примерно в 10 раз, но все еще остались проседания латенси на чтение (до 300 милисекунд в состоянии простоя, без нагрузки, с периодичностью раз в час примерно). Также пропали ворнинги, по крайней мере 3й день не вижу их, дальше посмотрим под боевой нагрузкой.

У меня к сожалению нету батарейки на рейде, надежда только на бесперебойники в датацентре, либо докуплю батарейку в будущем.

0 Kudos
operando
Enthusiast
Enthusiast

У меня подобное вызвал неисправный бекплейн под одним из дисков. Обнаружлось после выпадения диска после перезагрузки, до этого были лишь непонятные скачки latency.

0 Kudos