Zwischen MTBF und MTTR
Verfügbarkeit | Minimale erwartete Betriebszeit [Stunden] | Maximale erlaubte Ausfallzeit [Stunden] | Maximale erlaubte Ausfallzeit [Minuten] |
99,5 % | 8716,2 | 43,8 | 2628 |
99,6 % | 8724,96 | 35,04 | 2102,4 |
99,7 % | 8733,72 | 26,28 | 1576,8 |
99,8 % | 8742,48 | 17,52 | 1051,2 |
99,9 % | 8751,24 | 8,76 | 525,6 |
99,95 % | 8755,62 | 4,38 | 262,8 |
99,97 % | 8757,372 | 2,628 | 157,68 |
99,98 % | 8758,248 | 1,752 | 105,12 |
99,99 % | 8759,124 | 0,876 | 52,56 |
99,999 % | 8759,9124 | 0,0876 | 5,256 |
100 % | 8760 | 0 | 0 |
Soweit ist es recht einfach, die Verfügbarkeit eines Systems zu verstehen. Und was ist die Herausforderung? Dass IT-Systeme immer aus einer beliebigen Anzahl einzelner Komponenten bestehen. Ein Stück Server beispielsweise ist autark ziemlich nutzlos, ebenso ein Netzwerk-Switch, der Port-Replikator und selbst das Notebook (ohne Betriebssystem und Anwendungen). Alle genannten und dazu die hier noch nicht genannten Teile funktionieren nur gemeinsam. Verfügbarkeiten werden aber für die einzelnen Komponenten angegeben. Wie wirkt sich also die Zusammenstellung eines IT-Services mit n Komponenten auf die Verfügbarkeit des gesamten IT-Services aus?
Im einfachsten Falle sind alle Komponenten in einer direkten Reihe geschaltet. Dann ist die Gesamtverfügbarkeit des Systems das mathematische Produkt seiner einzelnen Teile, oder als Formel ausgedrückt:
Legende:
a = System A
b = System B
c = System C
n = System n
V = Verfügbarkeit
Bei einem IT-System, welches aus fünf Komponenten besteht und die jeweils eine herstellerseitig zugesagte Verfügbarkeit von 99,1 % aufweisen, ergibt sich für das IT-System als Ganzes eine Verfügbarkeit von 99,15 = 95,58 %. Nun, denken Sie vielleicht, das ist doch ein toller Wert, ob nun 95 % oder 99 %, das ist doch nah beisammen. Wo jedoch die Verfügbarkeit von 99,1 % eine Ausfallzeit von maximal 43 Stunden im Jahr bedeutet, darf ein System mit 95,58 % Verfügbarkeit mehr als 16 Tage im Jahr ausfallen! Fragen Sie einmal die Anwendenden der IT-Systeme, wie sie diesen Unterschied finden.
Was ist also zu tun? Nun, das Zauberwort heißt: Redundanz. Jedes annährend wichtige IT-System sollte soweit wie möglich hinsichtlich seiner Bestandteile jeweils redundant, also mehrfach aufgebaut werden. Zwei Server sind besser als einer, denn dass beide gleichzeitig ausfallen, ist extrem unwahrscheinlich. Zwei Netzwerk-Switche sind besser, zwei Load-Balancer oder auch zwei Datenbanken auf zwei Servern. Noch besser sind natürlich drei Einheiten je Systemkomponente und so weiter – Sie wissen, worauf es hinausläuft.
Als ich vor einigen Jahren nach einer mathematischen Formel für die Berechnung der Verfügbarkeit bei einer n-fachen Reihenschaltung von m-fach redundant ausgelegten Subsystemen für einen IT-Service suchte, wurde ich überraschend nicht fündig. Die Logik ist dabei recht trivial: bei einem einfach-redundanten IT-System mit gleicher Leistung und Verfügbarkeit wird die Multiplikation des Ausfallrisikos von der maximalen Verfügbarkeit von 100 % abgezogen (die Grundlage ist der Umgang mit statistischen Wahrscheinlichkeiten). Dadurch erhöhen sich vergleichsweise schlechte Verfügbarkeitswerte bereits durch ein einzelnes, redundantes System drastisch. So wird aus einem Server mit einer Einzelverfügbarkeit von nur 97 % durch das Aufstellen eines zweiten Servers, der im Fehlerfall von System 1 sofort übernehmen kann, die Verfügbarkeit auf 99,9991 % erhöht! Oder anders ausgedrückt: Die statistische Wahrscheinlichkeit eines gleichzeitigen Ausfalls beider Server beträgt 0,0009 %.
Und was ist nun mit der allgemeinen Formal dafür? Auch das ist keine Raketenwissenschaft, sie lautet wie folgt (unter der vereinfachten Annahme, dass alle Systeme die gleiche Anzahl an redundanten Kopien aufweisen):
Legende:
a = System A
b = System B
c = System C
n = System n
m = Anzahl gleicher Komponenten (Redundante Systeme)
V = Verfügbarkeit
Sie fragen sich vermutlich nach dem Nutzwert solcher Spielereien? Für unsere IT-Services und den damit verbundenen sogenannten Service Level Agreements sind diese Formeln wichtig, sobald technische Verfügbarkeiten zugesichert werden. Es gilt der nachvollziehbare Grundsatz: Das Ganze kann nicht besser sein als das schwächste Glied der Kette, und die Multiplikation der Einzelverfügbarkeiten zeigt diesen Effekt schnell auf, denn aus Kundensicht ist es vollkommen egal, welches Einzelteil des IT-Services defekt ist, wenn im Ergebnis der Monitor schwarz bleibt und eine Client-Server-Anwendung nicht mehr nutzbar ist.