Open Source im professionellen Einsatz

Newsletter abonnieren
Seite durchsuchen

HEFTARCHIV | NEWS | E-BIBLIOTHEK | VIDEO | BLOGS | WHITEPAPER | EVENTS | ACADEMY | ABO | SHOP

user friendly

  Home  »  Heft & Abo  »  Heftarchiv  »  2009  »  05  »  Nichts geht mehr  

RSS-Feed der aktuellen News von Linux-Magazin Online Folgen Sie Linux-Magazin Online auf Twitter
Diesen Artikel druckenDiesen Artikel weiterempfehlen Diesen Artikel kommentieren Newsletter abonnieren
Share/Bookmark

© Elke Hanmann, Pixelio.de

Ausfallsicherheit von Raid-Konfigurationen

Nichts geht mehr

von Michael Schwartzkopff
Erschienen im Linux-Magazin 2009/05

Schauergeschichten vom Totalausfall eines Massenspeichers gehören ins Repertoire jedes Admins. Doch ist ein Datenverlust heutzutage tatsächlich wahrscheinlich, wo man überall redundante Plattenkonfigurationen einsetzt? Die überraschende Antwort lautet: Ja, heute eher denn je.

Beim Kauf von Festplatten hat der Kunde eine große Auswahl. Augenfällige Kenndaten sind Größe, Geschwindigkeit oder Preis. Mit der Ausfallsicherheit hat nichts davon zu tun. Wer dazu Details finden will, der muss das Datenblatt schon genauer studieren.

Die Hersteller geben meist die mittlere jährliche Fehlerrate (Annualized Failure Rate, AFR) und die Bit Error Rate (BER) an. Alternativ ist auch der Begriff MTBF (Mean Time Between Failure) zu finden. Die AFR bezeichnet jenen Anteil an Festplatten, die im Durchschnitt pro Jahr Ausfallerscheinungen zeigen. Das gilt natürlich nur für eine große Anzahl identischer Festplatten einer Produktionscharge. Die gleiche Information über die Zuverlässigkeit der gesamten Festplatte enthält die MTBF.

Beide Werte lassen sich auch ineinander umrechnen, wenn man berücksichtigt, dass die Hersteller zusätzlich angeben, wie lange die Disk pro Tag (oder Monat beziehungsweise Jahr) laufen darf (in Power on Hours, PoH):



Im Unterschied dazu gibt die Kennzahl BER an, nach durchschnittlich wie vielen gelesenen Bits die Festplatte einen Fehler meldet.

Alle Angaben von Herstellern gelten natürlich nur in der Garantiezeit, die ebenfalls aus dem Datenblatt abzulesen ist. Üblicherweise steigen die Fehlerraten nach der Garantiezeit dramatisch an. Der Suchmaschinen-Riese Google, der in seinen Rechenzentren viele Festplatten einsetzt und deshalb gute Statistiken von großen Chargen ermitteln kann, hat dazu Daten veröffentlicht [1].

Die Daten der Tabelle 1 betreffen willkürlich ausgewählte Festplattenmodelle. Gerade für Billigfestplatten lassen sich häufig keine Daten zur Zuverlässigkeit finden. Anhand der Bitfehlerrate kann man sich den Preisunterschied zwischen den verschiedenen Modellen einfach erklären. Die Werte für AFR und MTBF lassen sich nicht direkt entsprechend der obigen Formel umrechnen, denn hier haben die Hersteller noch eine zusätzliche Sicherheitsmarge einkalkuliert.

Tabelle 1: Festplattendaten zur
Ausfallsicherheit


Etwas Mathematik

Mit den Herstellerangaben ist die Zuverlässigkeit (oder anders ausgedrückt die Wahrscheinlichkeit eines Totalverlustes der Daten) relativ einfach zu berechnen. Wenn die AFR einer Festplatte 0,34 Prozent beträgt, ist das Risiko eines Ausfalls in der Garantiezeit von fünf Jahren 1-(1-0,34%)5 oder 1,68 Prozent - also nicht mehr zu vernachlässigen.

Aus diesem Grund sind schon lange redundante Festplattenarrays (Raid) im Einsatz. Sie schreiben im einfachsten Fall (Raid 1) alle Daten auf zwei Platten. Falls eine Festplatte ausfällt, finden sich alle Daten noch auf der anderen. Natürlich muss der Administrator die defekte Festplatte schnell austauschen und den Raid-Verbund wieder herstellen. Fällt nämlich während der Reparaturzeit eine weitere Festplatte aus, ohne dass Ersatz eingebaut und die Synchronisation der Daten beendet ist, dann droht der Totalausfall. Damit hängt die Wahrscheinlichkeit für den Verlust von Daten stark von der mittleren Wiederherstellungszeit (Mean Time to Repair, MTTR) ab.

Steht ein Hotspare zur Verfügung, hängt die MTTR allein von der Geschwindigkeit des Datentransfers ab und liegt bei maximal ein paar Stunden. Falls der Administrator aber erst Ersatz kaufen, einbauen und die Wiederherstellung anstoßen muss, kann der Prozess Tage dauern.

So lässt sich die Wahrscheinlichkeit für den Totalausfall eines einfachen Raid-1-Spiegels innerhalb von fünf Jahren abschätzen, indem man die Zeit für die Wiederherstellung des Array nach einem Ausfall beispielsweise mit einem Tag veranschlagt. Die Wahrscheinlichkeit für den Ausfall einer Festplatte innerhalb von fünf Jahren beträgt 1,68 Prozent (siehe oben). Die Wahrscheinlichkeit, dass auch die zweite Platte noch in der Reparaturzeit ausfällt, beträgt 1 Tag/(5 Jahre) = 5,48*10-4.

Multipliziert man alle Wahrscheinlichkeiten ergibt sich: 1,68%*1,68%*5,46*10-4 = 1,55*10-7. Das entspricht einer Chance von 1:6465000, und die ist ungefähr zehnmal häufiger als ein Sechser im Lotto. Wem das immer noch zu risikoreich ist, der verwendet eine Festplatte im Standby-Betrieb und reduziert so die Zeit bis zur Wiederherstellung des Spiegels.

Platz versus Sicherheit

Bei Festplattenspiegeln ist nicht mehr die MTBF als statistische Kenngröße üblich, sondern die Mean Time to Data Loss (MTTDL). Wie Chen et.al. [2] zeigen, lässt sich die MTTDL für verschiedene Systeme herleiten. Zwar lässt sich beim Lesen von einem Spiegel neben der Sicherheit auch Geschwindigkeit gewinnen, doch dafür sind (inklusive Hotspare) drei Festplatten erforderlich, um die einfache Nettokapazität zu erhalten. Das ist eine ziemliche Verschwendung von Plattenplatz. Deshalb gibt es als weitere Variante Raid 5. Neben einer Anzahl Festplatten, die die Daten des Dateisystems aufnehmen, speichert Raid 5 zusätzlich auf einer Festplatte noch die aus den Daten errechnete Parität.

Falls eine Disk ausfällt, lassen sich ihre Daten mit Hilfe der Paritätsdaten wieder rekonstruieren. Wenn das Array aus n Festplatten besteht, dann beträgt die Nettokapazität n-1 Festplatten. Liegt noch eine Platte als Standby bereit, verringert sich die Nettokapazität auf n-2.

Aber auch Raid 5 hat einen Nachteil: Der Preis für den Platzgewinn sind ein erhöhter Rechenaufwand und mehr Schreib-.operationen. Bei jedem Schreiben ist die Parity des betroffenen Streifens neu zu berechnen und zusätzlich zu speichern. Trotzdem bleibt Raid 5 für viele Anwendungen ein guter Kompromiss.

Die MTBF für ein Raid-5-Array aus n Festplatten berechnet [2] folgendermaßen:



Somit betrüge die MTBF für ein System aus zehn guten Festplatten 76100 Jahre (MTBFDisk=1,2*106). Das ist natürlich ein rein theoretischer Wert, der keine Bedienfehler und abhängige Fehler in Produktionschargen oder Produktzyklen berücksichtigt und nur für den Fall gilt, dass der Admin defekte Platten im Raid sofort ersetzt. Ein sicheres Backup und langfristige Datensicherheit bleiben also weiterhin ein Thema.

Sie können diesen Artikel als PDF für 99 Cent kaufen. Klicken Sie dazu einfach auf eine der beiden Bezahloptionen Paypal oder ClickandBuy.


Diesen Artikel druckenDiesen Artikel weiterempfehlen Diesen Artikel kommentieren Newsletter abonnieren
Share/Bookmark
Ähnliche Artikel
Volumenkontrolle LVM - Logical Volume Management
Verschlusssache Datenverschlüsselung mit Oracle
Kern-Technik Kernel- und Treiberprogrammierung mit dem Kernel 2.6 - Folge 54
Tiefergelegt MySQL-Benchmark hilf Konfiguration optimieren
Wissenstransfer Aussichtsreiche Würfelkandidaten unter der Lupe
Endlich frei! Root-Zugang auf die Shell bei modernen Linux-Handys
Whitepaper
Open Source Datenintegration in der Praxis: Fallstudien und Anwendungsbeispiele

Über die letzten Jahre hinweg haben sich Open Source Lösungen als fester Bestandteil des gesamten Datenintegrationsmarktes etabliert. Viele Unternehmen haben bereits das Open Source Modell für Ihre Datenintegrationsprojekte aufgegriffen. Das vorliegende White Paper illustriert anhand ausgewählter Fallstudien und Anwendungsbeispiele die Implementierung von Open Source Datenintegration in der Praxis und benennt die daraus resultierenden Vorteile.

Download PDF (Registrierung erforderlich)
The Role of Open Source in Data Integration

Obwohl in den letzten Jahren viele technische Fortschritte erzielt werden konnten, verfügen die meisten Datenintegrationsprozesse nach wie vor nur über eine sehr begrenzte Automatisierung. Das vorliegende White Paper von dem Industry Analyst Mark Madson wird zunächst ein grundlegendes Verständnis von Daten Integration vermitteln, die Vorzüge von Open Source Lösungen für Daten Integration erläutern und Ihnen professionelle Empfehlungen geben, damit Sie Ihre Integrationsjobs noch einfacher und produktiver gestalten können.

Download PDF (Registrierung erforderlich)
Kommentare (0)