Der Fall liest sich zunächst wie eine Übung für angehende Juristen: Das KRITIS-Unternehmen Lufthansa hat ein für den Flugbetrieb sehr wichtiges IT-System in einem RZ irgendwo im Raum Frankfurt stationiert. Betreiber des RZ ist nach Presselage die IBM Deutschland. Durch den Provider Telekom ist dieses RZ über einen(!) Kabelweg an den größten Flughafen Deutschlands angeschlossen. Durch Bauarbeiten der Deutschen Bahn wird dieses Kabel zerstört. Daraufhin kommt der Flugbetrieb der Lufthansa zu erliegen. Welche Parteien haben schuldhaft oder fahrlässig gehandelt?
Diese schlichte Darstellung der Lage nach dem Stillstand am Frankfurter Flughafen sorgte für die übliche Empörung bei allen „Fachleuten“ auf Twitter und in diversen Internetforen. Auch in Presse, Funk und Fernsehen wurde die Lufthansa auf Basis dieser dünnen Faktenlage zum Schuldigen erklärt. Andere Details die mittlerweile durchgesickert sind, geben Hinweis darauf, dass der Fall doch komplizierter als „Kabel kaputt – alles dunkel – keine Redundanz – wie dumm!“ war.
So wusste das Handelsblatt zu berichten: „Neben dem Rechenzentrum bei Frankfurt gibt es ein weiteres Systemhaus in Norderstedt. Doch ein Back-up von dort in die Konzernzentrale sei am Mittwoch nicht möglich gewesen, berichten mit der Angelegenheit vertraute Manager.“
Eine wichtige, in den ersten Reaktionen stets übersehene Tatsache ist, dass die Zerstörung des Kabels am Dienstagabend nicht unmittelbar zu einem Ausfall der IT-Services am Flughafen geführt hat. Erst am Mittwochvormittag musste die Lufthansa den Betrieb einstellen, weil unter anderem das Boarding in Frankfurt nicht mehr möglich war.
Das Internet-Portal aero.de vermeldete aus einer internen Lufthansa-Meldung zu der Störung: “Der Ausfall geht ein Problem in der zentralen Infrastruktur von Frankfurt zurück. Die Backup-Systeme seien aktiviert, aber überlastet”.
Damit lässt sich ein durchaus vorstellbares Bild des Vorfalls und seiner Begleitumstände zeichnen. Lufthansa hat Systeme für diese kritischen IT-Services in georedundanten Rechenzentren zur Verfügung. Bei der Planung und Bereitstellung dieser redundanten Systeme und ihre Anbindung an die Flughäfen in Deutschland (oder sogar weltweit?) wurde dann eine Lösung gesucht und gefunden in der die Servicelevel-Agreements, die Kapazitäten der redundanten Systeme und Leitungen und auch die Kosten „passten“.
Die Anbindung des Ausweich-Rechenzentrums im Norden der Republik hat dann im Ernstfall zwar ausgereicht, den Nachtbetrieb am Frankfurter Flughafen zu bewältigen, dem Tagbetrieb haben die möglicherweise schlanker ausgelegten Systeme im Ausweich-RZ und die Bandbreite der Anbindung nicht standgehalten.
Wenn diese Annahme zutrifft, kann man der Lufthansa an dieser Stelle nicht einmal einen Fehler im Business Continuity Managements (BCM) vorwerfen. Aus wirtschaftlichen Gründen wird die technische Umsetzung des BCM immer Kompromisse eingehen, um Kosten im Rahmen zu halten. Die Wahrscheinlichkeit des stundenlangen Ausfalls eines Telekom-Backbones wurde möglicherweise einfach unterschätzt.
Auch die Betrachtung dessen, was tatsächlich passiert ist, verdient ein wenig Sachlichkeit. Es sind einen Tag lang Flüge in Frankfurt ausgefallen und die Passagiere mussten entschädigt werden. Das ist aus Sicht des Unternehmens gewiss ein Millionenschaden. Es wäre aber nachvollziehbar, wenn ein solcher technisch bedingter Ausfall als weniger wahrscheinlich eingestuft worden ist, als gleich teure Szenarien wie zum Beispiel „Streik des eigenen Personals“ oder „Streit des Funktionspersonals im Flughafens“.
Entsprechend ist als Lehre für alle BCM- Verantwortlichen erstens den Allgemeinplatz „expect the unexpected“ anzuführen und zudem darauf hinzuweisen, dass Service Level Agreements ein Vertragsbestandteil und keine unverrückbaren Tatsachen sind. Das BCM muss selbstverständlich beachten, dass Leistungen, die von Dritten erbracht werden, trotz aller vertraglichen Zusicherungen ausfallen können.
Zweitens der Verweis auf den BSI-Grundschutz , der auch in diesem Fall die richtige Anregung gibt:
In der Maßnahmen DER.4.A16 zum Thema „Notfallvorsorge- und Notfallreaktionsplanung für ausgelagerte Komponenten“ ist zu lesen:
“Bei der Notfallvorsorge- und Notfallreaktionsplanung für ausgelagerte Komponenten SOLLTE regelmäßig das Notfallmanagement der liefernden oder dienstleistenden Institution in den unterzeichneten Verträgen geprüft werden. Auch SOLLTEN die Abläufe in Notfalltests und ‑übungen mit der liefernden oder bereitstellenden Institution abgestimmt und, wenn angemessen, gemeinsam durchgeführt werden.
Die Ergebnisse und Auswertungen SOLLTEN regelmäßig zwischen der Institutionsleitung und den liefernden Institutionen oder Dienstleistenden ausgetauscht werden. In den Auswertungen SOLLTEN auch eventuelle Verbesserungsmaßnahmen enthalten sein.”
Quelle: BSI-Grundschutzkatalog, DER.4.A16
Vor allen schwierigen und teuren Übungen im Verbund mit Dienstleistern hätte im vorliegenden Fall die Prüfung der unterzeichneten Verträge vielleicht schon den richtigen Hinweis geliefert. Ob der strikte Sparkurs, den die Lufthansa seit geraumer Zeit fährt, dazu geführt hat, dass technische Redundanzen nicht in der nötigen Kapazität, sondern nur in einer Sparversion bestellt wurden, das könnte schon ein „Schreibtischtest“ offenlegen.
© VON ZUR MÜHLEN'SCHE GmbH - . Alle Rechte vorbehalten.