Zwischen MTBF und MTTR

IT-Systeme sind wie die eigene Gesundheit – sie werden immer erst dann bemerkt, wenn sie ausfallen. Die Verfügbarkeit beider Systeme, der IT wie der Gesundheit, werden schlichtweg vorausgesetzt, und im Normalfall ist das auch in Ordnung. Nur was heißt Verfügbarkeit eigentlich und wie wird sie berechnet? Lassen Sie uns kurz eintauchen in die zauberhafte Welt der Störungsfreiheit.

Die heutige mIT.gedacht-Kolumne behandelt zur Abwechselung ein sehr technisches Thema, das gleichwohl auch etwas mit Logik und Statistik zu tun und eine direkte Relevanz für unseren gemeinsamen Arbeitserfolg hat. In der englischen IT-Fachsprache existieren zum Begriff der Verfügbarkeit diverse Akronyme und Abkürzungen. Die wichtigsten im Kontext der Verfügbarkeiten von IT-Systemen sind MTBF und MTTR. MTBF steht für Mean Time Between Failures und meint die mittlere Betriebszeit zwischen zwei Ausfällen. MTTR hingegen bedeutet Mean Time To Repair und meint, Sie ahnen es, die mittlere Dauer der Reparaturen ausgefallener IT-Systeme.

Deutlich bekannter dürften stattdessen die Begriffe Uptime (für MTBF) und Downtime (für MTTR) sein. Die Verfügbarkeit ist nunmehr nur der Quotient von MTBF zu MTTR + MTBF und wird üblicherweise in Prozent ausgedrückt. Verfügbarkeiten unter 99 % sind im Normalfall vollkommen inakzeptabel, vielmehr werden diese nach standardisierten Verfahren bis hin zur dritten oder vierten Nachkommastelle angegeben. Eine Übersicht solcher Verfügbarkeiten mit den daraus resultierenden Up- und Downtimes bei einem rund um die Uhr betriebenen IT-System sieht wie folgt aus:

Verfügbarkeit	Minimale erwartete Betriebszeit [Stunden]	Maximale erlaubte Ausfallzeit [Stunden]	Maximale erlaubte Ausfallzeit [Minuten]
99,5 %	8716,2	43,8	2628
99,6 %	8724,96	35,04	2102,4
99,7 %	8733,72	26,28	1576,8
99,8 %	8742,48	17,52	1051,2
99,9 %	8751,24	8,76	525,6
99,95 %	8755,62	4,38	262,8
99,97 %	8757,372	2,628	157,68
99,98 %	8758,248	1,752	105,12
99,99 %	8759,124	0,876	52,56
99,999 %	8759,9124	0,0876	5,256
100 %	8760	0	0

Soweit ist es recht einfach, die Verfügbarkeit eines Systems zu verstehen. Und was ist die Herausforderung? Dass IT-Systeme immer aus einer beliebigen Anzahl einzelner Komponenten bestehen. Ein Stück Server beispielsweise ist autark ziemlich nutzlos, ebenso ein Netzwerk-Switch, der Port-Replikator und selbst das Notebook (ohne Betriebssystem und Anwendungen). Alle genannten und dazu die hier noch nicht genannten Teile funktionieren nur gemeinsam. Verfügbarkeiten werden aber für die einzelnen Komponenten angegeben. Wie wirkt sich also die Zusammenstellung eines IT-Services mit n Komponenten auf die Verfügbarkeit des gesamten IT-Services aus?

Im einfachsten Falle sind alle Komponenten in einer direkten Reihe geschaltet. Dann ist die Gesamtverfügbarkeit des Systems das mathematische Produkt seiner einzelnen Teile, oder als Formel ausgedrückt:

Legende:
a = System A
b = System B
c = System C
n = System n
V = Verfügbarkeit

Bildrechte: IT.Niedersachsen

Bei einem IT-System, welches aus fünf Komponenten besteht und die jeweils eine herstellerseitig zugesagte Verfügbarkeit von 99,1 % aufweisen, ergibt sich für das IT-System als Ganzes eine Verfügbarkeit von 99,15 = 95,58 %. Nun, denken Sie vielleicht, das ist doch ein toller Wert, ob nun 95 % oder 99 %, das ist doch nah beisammen. Wo jedoch die Verfügbarkeit von 99,1 % eine Ausfallzeit von maximal 43 Stunden im Jahr bedeutet, darf ein System mit 95,58 % Verfügbarkeit mehr als 16 Tage im Jahr ausfallen! Fragen Sie einmal die Anwendenden der IT-Systeme, wie sie diesen Unterschied finden.

Was ist also zu tun? Nun, das Zauberwort heißt: Redundanz. Jedes annährend wichtige IT-System sollte soweit wie möglich hinsichtlich seiner Bestandteile jeweils redundant, also mehrfach aufgebaut werden. Zwei Server sind besser als einer, denn dass beide gleichzeitig ausfallen, ist extrem unwahrscheinlich. Zwei Netzwerk-Switche sind besser, zwei Load-Balancer oder auch zwei Datenbanken auf zwei Servern. Noch besser sind natürlich drei Einheiten je Systemkomponente und so weiter – Sie wissen, worauf es hinausläuft.

Als ich vor einigen Jahren nach einer mathematischen Formel für die Berechnung der Verfügbarkeit bei einer n-fachen Reihenschaltung von m-fach redundant ausgelegten Subsystemen für einen IT-Service suchte, wurde ich überraschend nicht fündig. Die Logik ist dabei recht trivial: bei einem einfach-redundanten IT-System mit gleicher Leistung und Verfügbarkeit wird die Multiplikation des Ausfallrisikos von der maximalen Verfügbarkeit von 100 % abgezogen (die Grundlage ist der Umgang mit statistischen Wahrscheinlichkeiten). Dadurch erhöhen sich vergleichsweise schlechte Verfügbarkeitswerte bereits durch ein einzelnes, redundantes System drastisch. So wird aus einem Server mit einer Einzelverfügbarkeit von nur 97 % durch das Aufstellen eines zweiten Servers, der im Fehlerfall von System 1 sofort übernehmen kann, die Verfügbarkeit auf 99,9991 % erhöht! Oder anders ausgedrückt: Die statistische Wahrscheinlichkeit eines gleichzeitigen Ausfalls beider Server beträgt 0,0009 %.

Und was ist nun mit der allgemeinen Formal dafür? Auch das ist keine Raketenwissenschaft, sie lautet wie folgt (unter der vereinfachten Annahme, dass alle Systeme die gleiche Anzahl an redundanten Kopien aufweisen):

Legende:
a = System A
b = System B
c = System C
n = System n
m = Anzahl gleicher Komponenten (Redundante Systeme)
V = Verfügbarkeit

Bildrechte: IT.Niedersachsen

Sie fragen sich vermutlich nach dem Nutzwert solcher Spielereien? Für unsere IT-Services und den damit verbundenen sogenannten Service Level Agreements sind diese Formeln wichtig, sobald technische Verfügbarkeiten zugesichert werden. Es gilt der nachvollziehbare Grundsatz: Das Ganze kann nicht besser sein als das schwächste Glied der Kette, und die Multiplikation der Einzelverfügbarkeiten zeigt diesen Effekt schnell auf, denn aus Kundensicht ist es vollkommen egal, welches Einzelteil des IT-Services defekt ist, wenn im Ergebnis der Monitor schwarz bleibt und eine Client-Server-Anwendung nicht mehr nutzbar ist.

Drucken