Secure erase — неподъемная операция для Adaptec 8-ой серии

Утро, воскресенье, сплю, звонок клиента — сайт подтормаживает! punish
Ну значит полез я разбираться в варю чо да как.

Смотрю htop — процы свободны, отдыхают, LA 15! pardon После непродолжительного чесания репы, был запущен iotop, корорый показал что винты лежат и им реально не хватает IOPS’ов. Залез в vCenter и maxView, осмотреть сторедж, все отлично кроме одного но, latency под сотню! vava

Осмотрел смарты винтов, все ок… Посчитал IOPS’ы, менее 10% от максимума, тобишь тоже не предвещает проблем… тут мне уже стало очень любопытно, чо-же бля происходит-то?! Сижу и думаю, может это меня с просони глючит и я что-то не вижу или не проверил? Но нет, дальнейшее разбирательство не показало глюков с моей стороны, ровно как и проблем гипервизора, нагрузки или самого железа винтов. А времени прошло уже пол часа, т.е. проблема из небольшой перерасла в весьма критичную. punish

И тут мой слегка замыленный утренний сонный глаз обнаружил в maxView весьма безобидный таск который я запускал еще прошлым вечером: secure erase двух винтов, которые я готовлю к плановой замене на более емкие. Массив естественно предварительно с этих винтов был удален, и запущен обычный secure erase средствами контроллера. К этому моменту таски завершились на 69%. Тут у меня закралось подозрение на них, потому-как все остальное в норме. rtfm

Оказалось что убить таск — невозможно, пришлось вручную перевести диски в Force Offline.

Естественно, на почту посыпались ошибки вида — «друг админ, у тя винты подохли!», отмахиваясь от кучки спама, я наблюдал как LA виртуалок падает с 15-20 до более приемлемых для воскресного утра 0-2, а латенси понижается с сотен милисекунд до едениц. cool

Последующий внимательный разбор логов показал, что таски секюр эрейза повлияли не на один массив, а на все 3, которые есть на данном контроллере.

Почему этот эффект появился только на 69-м(камасутра-пасхалка от адаптек?) проценте таска, и почему мощнейший энтерпрайз контроллер  ASR8805 со свежайшей фирмварью 7.15-0(33401) с ними не справился, вызвав проблемы на всех массивах — для меня все еще осталось загадкой. unknw

Добавить комментарий