Lufthansa, Business Resilienz, BCM

Flugausfall bei Lufthansa: nicht zu schnell urteilen!

Der Fall liest sich zunächst wie eine Übung für angehende Juristen: Das KRITIS-Unter­nehmen Lufthansa hat ein für den Flugbe­trieb sehr wichtiges IT-System in einem RZ irgendwo im Raum Frankfurt statio­niert. Betreiber des RZ ist nach Presselage die IBM Deutschland. Durch den Provider Telekom ist dieses RZ über einen(!) Kabelweg an den größten Flughafen Deutsch­lands angeschlossen. Durch Bauar­beiten der Deutschen Bahn wird dieses Kabel zerstört. Daraufhin kommt der Flugbe­trieb der Lufthansa zu erliegen. Welche Parteien haben schuldhaft oder fahrlässig gehandelt?

Bagger-Lufthansa-IT-Ausfall: nicht zu schnell urteilen!

Diese schlichte Darstellung der Lage nach dem Still­stand am Frank­furter Flughafen sorgte für die übliche Empörung bei allen „Fachleuten“ auf Twitter und in diversen Inter­net­foren. Auch in Presse, Funk und Fernsehen wurde die Lufthansa auf Basis dieser dünnen Faktenlage zum Schul­digen erklärt. Andere Details die mittler­weile durch­ge­si­ckert sind, geben Hinweis darauf, dass der Fall doch kompli­zierter als „Kabel kaputt – alles dunkel – keine Redundanz – wie dumm!“ war.

So wusste das Handels­blatt zu berichten: „Neben dem Rechen­zentrum bei Frankfurt gibt es ein weiteres Systemhaus in Norder­stedt. Doch ein Back-up von dort in die Konzern­zen­trale sei am Mittwoch nicht möglich gewesen, berichten mit der Angele­genheit vertraute Manager.“

Eine wichtige, in den ersten Reaktionen stets übersehene Tatsache ist, dass die Zerstörung des Kabels am Diens­tag­abend nicht unmit­telbar zu einem Ausfall der IT-Services am Flughafen geführt hat. Erst am Mittwoch­vor­mittag musste die Lufthansa den Betrieb einstellen, weil unter anderem das Boarding in Frankfurt nicht mehr möglich war.

Das Internet-Portal aero.de vermeldete aus einer internen Lufthansa-Meldung zu der Störung: “Der Ausfall geht ein Problem in der zentralen Infra­struktur von Frankfurt zurück. Die Backup-Systeme seien aktiviert, aber überlastet”.

Damit lässt sich ein durchaus vorstell­bares Bild des Vorfalls und seiner Begleit­um­stände zeichnen. Lufthansa hat Systeme für diese kriti­schen IT-Services in geored­un­danten Rechen­zentren zur Verfügung. Bei der Planung und Bereit­stellung dieser redun­danten Systeme und ihre Anbindung an die Flughäfen in Deutschland (oder sogar weltweit?) wurde dann eine Lösung gesucht und gefunden in der die Service­level-Agree­ments, die Kapazi­täten der redun­danten Systeme und Leitungen und auch die Kosten „passten“.

Die Anbindung des Ausweich-Rechen­zen­trums im Norden der Republik hat dann im Ernstfall zwar ausge­reicht, den Nacht­be­trieb am Frank­furter Flughafen zu bewäl­tigen, dem Tagbe­trieb haben die mögli­cher­weise schlanker ausge­legten Systeme im Ausweich-RZ und die Bandbreite der Anbindung nicht stand­ge­halten.

Wenn diese Annahme zutrifft, kann man der Lufthansa an dieser Stelle nicht einmal einen Fehler im Business Continuity Manage­ments (BCM) vorwerfen. Aus wirtschaft­lichen Gründen wird die technische Umsetzung des BCM immer Kompro­misse eingehen, um Kosten im Rahmen zu halten. Die Wahrschein­lichkeit des stunden­langen Ausfalls eines Telekom-Backbones wurde mögli­cher­weise einfach unter­schätzt.

Auch die Betrachtung dessen, was tatsächlich passiert ist, verdient ein wenig Sachlichkeit. Es sind einen Tag lang Flüge in Frankfurt ausge­fallen und die Passa­giere mussten entschädigt werden. Das ist aus Sicht des Unter­nehmens gewiss ein Millio­nen­schaden. Es wäre aber nachvoll­ziehbar, wenn ein solcher technisch bedingter Ausfall als weniger wahrscheinlich einge­stuft worden ist, als gleich teure Szenarien wie zum Beispiel „Streik des eigenen Personals“ oder „Streit des Funkti­ons­per­sonals im Flughafens“.

Lessons learned für BCM-Verant­wort­liche

Entspre­chend ist als Lehre für alle BCM- Verant­wort­lichen erstens den Allge­mein­platz „expect the unexpected“ anzuführen und zudem darauf hinzu­weisen, dass Service Level Agree­ments ein Vertrags­be­standteil und keine unver­rück­baren Tatsachen sind. Das BCM muss selbst­ver­ständlich beachten, dass Leistungen, die von Dritten erbracht werden, trotz aller vertrag­lichen Zusiche­rungen ausfallen können.

Zweitens der Verweis auf den BSI-Grund­schutz , der auch in diesem Fall die richtige Anregung gibt:

In der Maßnahmen DER.4.A16 zum Thema „Notfall­vor­sorge- und Notfall­re­ak­ti­ons­planung für ausge­la­gerte Kompo­nenten“ ist zu lesen:

“Bei der Notfall­vor­sorge- und Notfall­re­ak­ti­ons­planung für ausge­la­gerte Kompo­nenten SOLLTE regel­mäßig das Notfall­ma­nagement der liefernden oder dienst­leis­tenden Insti­tution in den unter­zeich­neten Verträgen geprüft werden. Auch SOLLTEN die Abläufe in Notfall­tests und ‑übungen mit der liefernden oder bereit­stel­lenden Insti­tution abgestimmt und, wenn angemessen, gemeinsam durch­ge­führt werden.

Die Ergeb­nisse und Auswer­tungen SOLLTEN regel­mäßig zwischen der Insti­tu­ti­ons­leitung und den liefernden Insti­tu­tionen oder Dienst­leis­tenden ausge­tauscht werden. In den Auswer­tungen SOLLTEN auch eventuelle Verbes­se­rungs­maß­nahmen enthalten sein.”

Quelle: BSI-Grund­schutz­ka­talog, DER.4.A16

Vor allen schwie­rigen und teuren Übungen im Verbund mit Dienst­leistern hätte im vorlie­genden Fall die Prüfung der unter­zeich­neten Verträge vielleicht schon den richtigen Hinweis geliefert. Ob der strikte Sparkurs, den die Lufthansa seit geraumer Zeit fährt, dazu geführt hat, dass technische Redun­danzen nicht in der nötigen Kapazität, sondern nur in einer Sparversion bestellt wurden, das könnte schon ein „Schreib­tischtest“ offen­legen.