RAID в Microsoft Windows — забываем и больше не используем

Я начал работать с "железными" RAID контроллерами еще в 1997 году. Было много случаев отказа жестких дисков. Но ни разу не было угрозы потери данных. Обычно все происходит просто: при отказе или проблемах с диском контроллер "подсвечивает" нужный диск индикатором. Диск вынимается, на его место ставится новый — и все. Все остальное берет на себя контроллер. Так должен работать правильный RAID массив.

Windows позволяет сэкономить тысячу долларов (примерно столько стоит хороший RAID контроллер) и создать массив средствами операционной системы. Все очень просто: подключаем нужное количество дисков, несколько кликов в Disk Management — и у нас построен массив. Который должен обеспечить отказоустойчивость. Именно, что должен…

Итак, первый case. 5 дисков, RAID5. На одном из дисков начали появляться bad сектора. В Disk Management изменился статус массива, он стал "Redundancy failed". Около проблемного диска появился желтый восклицательный знак. Массив работает, но диск неплохо бы поменять. К сожалению, не все оказалось так просто, как это рисует Microsoft.

Проблема 1: Надо найти, какой же именно диск менять. Disk Management выдает лишь информацию в виде "Bus 0, Port 1". При этом в Knowledge base у Майкрософта есть замечательная статья, где рассказывают, что эта информация на самом деле является полной херней. Вот она:

http://support.microsoft.com/kb/937251

Особенно умиляет вот эта фраза, из раздела "Resolution":

Note Under certain circumstances, it may be difficult to notice that the disk numbering does not match the corresponding SATA or RAID channel numbers. For example, if both the SATA or RAID hard disk sizes are identical, it may be difficult to determine the identity of the disks by using these methods.

Ну вы поняли: может быть очень трудно определить диск, который надо менять в массиве.

Проблема решилась запуском утилиты от Intel, которая прилагается к их контроллеру. Она показывает серийный номер диска и его соответствие порту, который ему присвоила Windows. Почему нельзя показать серийник неисправного диска в Disk Management, для меня загадка. 

Проблема 2: Вот здесь реальная жесть. Выключаем сервер, находим диск с нужным серийником. Меняем его. Включаем обратно… и получаем неработающий RAID массив ! У массива статус "Failed", где-то снизу болтается вынутый винт в статусе "Missing". Что нам говорит Microsoft ? А вот что:

http://technet.microsoft.com/en-us/library/cc938528.aspx

ОК, делаем новый диск динамическим, пытаемся повторить процедуру. "Repair volume" по-прежнему недоступна ! Вашу ж мать… Ищем похожие проблемы. А вот оно:

http://social.technet.microsoft.com/forums/windowsserver/en-US/981efa59-8610-47db-a3b4-3ffe39f2084d/replace-dead-raid5-disk

Ох, какой интересный диалог с майкрософтовскими индусами ! Просто зачитаться можно. Автор топика сам офигел уже:

I feel like I'm talking to a wall.

У автора все кончилось плохо. Он удалил с проблемного диска все и в результате потерял весь массив. 

Проблема решается просто: ставим в систему еще и проблемный диск. Система с радостью переводит массив в режим Online и появляется кнопочка "Repair volume". При этом проблемный диск тут же от массива отцепляется и с ним можно делать все что угодно ! Т.е. это диск реально не нужен для восстановления. Он нужен лишь, чтобы массив стал Online. 

А если диск умер, а не просто изменились SMART параметры — сушите весла. Данные потеряны.

Такая вот замечательная "надежность" у софтового RAID-а от Microsoft. Больше никогда не буду на этом экономить деньги.

1 comment to RAID в Microsoft Windows — забываем и больше не используем

  • Алекс

    Сейчас похоже уже по другому работает. Как минимум можно на ходу отключать диски и рейд продолжает работать. Хотя до софтового рейда у конкурентов имдалеко.

Leave a Reply

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>