Warum es ein No-No ist, bei produktiven Server _kein_ RAID zu verwenden

Der Grund warum ich diesen Post schreibe ist folgender: Ein Kunde ordert einen Root-Server bei uns. Soweit so gut. Das System ist recht flott, hat zwei identische Platten drin und wird von uns mit frisch installiertem Gentoo ausgeliefert.

Natürlich richten wir solche Server, sofern kein Hardware RAID integriert ist, mit Software RAID1 mit dem Linux md-device Driver ein. Dies hat den Vorteil, dass zum einen die Swap-Partition auf einem RAID1 Device läuft und somit das System nicht abstürzt, wenn die Swap-Partition defekte Blöcke aufweisst, zum anderen hat es den Vorteil, dass man generell vor dem Ausfall einer Disk und dem einhergehenden Datenverlust gefeit ist.

Nun haben offensichtlich einige Administratoren ein Problem damit, das md-Device des Linux-Kernels zu verwenden. Aus einem mir unbekanntem Grund wurde das System dann neu installiert, diesmal ohne RAID1. Dass hierbei das System wesentlich anfälliger für Hardware Defekte ist, wurde einfach billigend in Kauf genommen. Auch ist die Downtime nach einem Plattenausfall jetzt wesentlich länger, da hierbei nicht einfach nur die defekte Disk getauscht werden kann – man muss das System neu aufsetzen, alle Dienste neu installieren und konfigurieren und die hoffentlich vorhandenen Backups zurueckspielen – man verliert also ca. einen Tag Arbeit/Daten.

Offensichtlich neigen einige Admins dazu, nur durch Schmerzen zu lernen. Trotz aller Ratschläge und Warnungen wurde das System dann ohne RAID1 installiert und wird nun produktiv eingesetzt. Hoffen wir für den Admin, dass die Platten ewig halten werden.

Deshalb hier ein wirklich gut gemeinter Ratschlag: wirklich niemals wenn möglich das System ohne RAID1 verwenden!

3 thoughts on “Warum es ein No-No ist, bei produktiven Server _kein_ RAID zu verwenden

  1. Warum verwendet Ihr eigentlich md-device? Wäre es nicht sinnvoller den DM-Mapper und das software-raid des Kontrollers zu verwenden?

    Es ergeben sich dadurch folgende Vorteile:
    * Das System ist noch bootfähig
    * MBR muss nicht auf beide Platten geschrieben werden
    * Im Partitions-Export tauchen echte Partitionstypen auf, anstatt LINUX-RAID-AUTODETECT

    Grüße,
    Michael.

    1. Ich verlasse mich lieber auf den Linux Kernel, anstatt auf irgendwelche Controller-Firmware ( siehe damaliger HPT-Bug 🙂

      Das System ist weiterhin bootfähig wenn eine Disk ausfallen sollte, was nun fstab und partition-table angeht, das ist meiner Meinung nach einfach nur Geschmackssache. Weiterhin lässt sich mit md und LVM2 auch schön skalieren, falls man weiteren Space braucht.

  2. Hi! Habe gerade mit Spannung diesen Beitrag gelesen und musste dabei Schmunzeln… Es gibt nämlich noch eine solch grob fahrlässigere Handlung 🙂

    Ein Kunde hat bei uns im RACK einen 19″ Server mit 4 Western Digital Raptor stehen – damals wurde darauf ein RAID 10 konfiguriert. Wir machten im November unseren Kunden darauf aufmerksam, dass der Server eine Platte aus dem RAID rausgeschmissen hat. Unser Kunde hatte die Platte daraufhin weder selbst ausgewechselt, noch durch uns auswechseln lassen. Im Dezember dann ist dummerweise das RAID-0 ausgefallen (Broken Stripe), da sich beide Elemente der (Seite-B) entfernt hatten.

    Fazit: Man sollte die Platte innerhalb der nächsten 24 Stunden ersetzen, da es sonst auch zu bösem Erwachen kommen kann 🙂

Comments are closed.