Lufthansa, Business Resilienz, BCM

Flugausfall bei Lufthansa: nicht zu schnell urteilen!

Der IT-Ausfall bei der Lufthansa am 15. Februar, ausgelöst durch Bauarbeiten bzw. das Durchtrennen eines Glasfaserkabels, hat zu erheblichen Störungen im Flugbetrieb der Airline geführt. Schnell ging man mit der Lufthansa hart ins Gericht. Vielleicht zu schnell?

Der Fall liest sich zunächst wie eine Übung für angehende Juristen: Das KRITIS-Unternehmen Lufthansa hat ein für den Flugbetrieb sehr wichtiges IT-System in einem RZ irgendwo im Raum Frankfurt stationiert. Betreiber des RZ ist nach Presselage die IBM Deutschland. Durch den Provider Telekom ist dieses RZ über einen(!) Kabelweg an den größten Flughafen Deutschlands angeschlossen. Durch Bauarbeiten der Deutschen Bahn wird dieses Kabel zerstört. Daraufhin kommt der Flugbetrieb der Lufthansa zu erliegen. Welche Parteien haben schuldhaft oder fahrlässig gehandelt?

Bagger-Lufthansa-IT-Ausfall: nicht zu schnell urteilen!

Diese schlichte Darstellung der Lage nach dem Stillstand am Frankfurter Flughafen sorgte für die übliche Empörung bei allen „Fachleuten“ auf Twitter und in diversen Internetforen. Auch in Presse, Funk und Fernsehen wurde die Lufthansa auf Basis dieser dünnen Faktenlage zum Schuldigen erklärt. Andere Details die mittlerweile durchgesickert sind, geben Hinweis darauf, dass der Fall doch komplizierter als „Kabel kaputt – alles dunkel – keine Redundanz – wie dumm!“ war.

So wusste das Handelsblatt zu berichten: „Neben dem Rechenzentrum bei Frankfurt gibt es ein weiteres Systemhaus in Norderstedt. Doch ein Back-up von dort in die Konzernzentrale sei am Mittwoch nicht möglich gewesen, berichten mit der Angelegenheit vertraute Manager.“

Eine wichtige, in den ersten Reaktionen stets übersehene Tatsache ist, dass die Zerstörung des Kabels am Dienstagabend nicht unmittelbar zu einem Ausfall der IT-Services am Flughafen geführt hat. Erst am Mittwochvormittag musste die Lufthansa den Betrieb einstellen, weil unter anderem das Boarding in Frankfurt nicht mehr möglich war.

Das Internet-Portal aero.de vermeldete aus einer internen Lufthansa-Meldung zu der Störung: „Der Ausfall geht ein Problem in der zentralen Infrastruktur von Frankfurt zurück. Die Backup-Systeme seien aktiviert, aber überlastet“.

Damit lässt sich ein durchaus vorstellbares Bild des Vorfalls und seiner Begleitumstände zeichnen. Lufthansa hat Systeme für diese kritischen IT-Services in georedundanten Rechenzentren zur Verfügung. Bei der Planung und Bereitstellung dieser redundanten Systeme und ihre Anbindung an die Flughäfen in Deutschland (oder sogar weltweit?) wurde dann eine Lösung gesucht und gefunden in der die Servicelevel-Agreements, die Kapazitäten der redundanten Systeme und Leitungen und auch die Kosten „passten“.

Die Anbindung des Ausweich-Rechenzentrums im Norden der Republik hat dann im Ernstfall zwar ausgereicht, den Nachtbetrieb am Frankfurter Flughafen zu bewältigen, dem Tagbetrieb haben die möglicherweise schlanker ausgelegten Systeme im Ausweich-RZ und die Bandbreite der Anbindung nicht standgehalten.

Wenn diese Annahme zutrifft, kann man der Lufthansa an dieser Stelle nicht einmal einen Fehler im Business Continuity Managements (BCM) vorwerfen. Aus wirtschaftlichen Gründen wird die technische Umsetzung des BCM immer Kompromisse eingehen, um Kosten im Rahmen zu halten. Die Wahrscheinlichkeit des stundenlangen Ausfalls eines Telekom-Backbones wurde möglicherweise einfach unterschätzt.

Auch die Betrachtung dessen, was tatsächlich passiert ist, verdient ein wenig Sachlichkeit. Es sind einen Tag lang Flüge in Frankfurt ausgefallen und die Passagiere mussten entschädigt werden. Das ist aus Sicht des Unternehmens gewiss ein Millionenschaden. Es wäre aber nachvollziehbar, wenn ein solcher technisch bedingter Ausfall als weniger wahrscheinlich eingestuft worden ist, als gleich teure Szenarien wie zum Beispiel „Streik des eigenen Personals“ oder „Streit des Funktionspersonals im Flughafens“.

Lessons learned für BCM-Verantwortliche

Entsprechend ist als Lehre für alle BCM- Verantwortlichen erstens den Allgemeinplatz „expect the unexpected“ anzuführen und zudem darauf hinzuweisen, dass Service Level Agreements ein Vertragsbestandteil und keine unverrückbaren Tatsachen sind. Das BCM muss selbstverständlich beachten, dass Leistungen, die von Dritten erbracht werden, trotz aller vertraglichen Zusicherungen ausfallen können.

Zweitens der Verweis auf den BSI-Grundschutz , der auch in diesem Fall die richtige Anregung gibt:

In der Maßnahmen DER.4.A16 zum Thema „Notfallvorsorge- und Notfallreaktionsplanung für ausgelagerte Komponenten“ ist zu lesen:

„Bei der Notfallvorsorge- und Notfallreaktionsplanung für ausgelagerte Komponenten SOLLTE regelmäßig das Notfallmanagement der liefernden oder dienstleistenden Institution in den unterzeichneten Verträgen geprüft werden. Auch SOLLTEN die Abläufe in Notfalltests und -übungen mit der liefernden oder bereitstellenden Institution abgestimmt und, wenn angemessen, gemeinsam durchgeführt werden.

Die Ergebnisse und Auswertungen SOLLTEN regelmäßig zwischen der Institutionsleitung und den liefernden Institutionen oder Dienstleistenden ausgetauscht werden. In den Auswertungen SOLLTEN auch eventuelle Verbesserungsmaßnahmen enthalten sein.“

Quelle: BSI-Grundschutzkatalog, DER.4.A16

Vor allen schwierigen und teuren Übungen im Verbund mit Dienstleistern hätte im vorliegenden Fall die Prüfung der unterzeichneten Verträge vielleicht schon den richtigen Hinweis geliefert. Ob der strikte Sparkurs, den die Lufthansa seit geraumer Zeit fährt, dazu geführt hat, dass technische Redundanzen nicht in der nötigen Kapazität, sondern nur in einer Sparversion bestellt wurden, das könnte schon ein „Schreibtischtest“ offenlegen. 

Diesen Beitrag teilen:

Weitere Artikel

Resiliente Sicherheitsarchitekturen – Anforderungen für kritische Infrastrukturen

KRITIS-Anforderungen wie NIS2 und DORA erhöhen den Druck. Erfahren Sie, wie physische, technische und IT/OT-Sicherheit integriert ...

Multi-Betriebsmodelle für Rechenzentren: Zwischen Effizienzdruck und Governance-Komplexität

Wie Rechenzentren Kapazitäten effizient nutzen: Multi-Betriebsmodelle im Fokus – inklusive Herausforderungen bei Governance, Sicherheit und Betrieb. ...

Integrationstests: Warum gute Konzepte in der Praxis scheitern – und wie man das verhindert

Viele technische Konzepte scheitern nicht an der Planung, sondern an fehlenden Integrationstests. Warum das Zusammenspiel entscheidend ...
Nach oben scrollen

Risiken fundiert einschätzen

Ganzheitliche Unternehmenssicherheit

Individuelle Schutzstrategien

Daten und Compliance

Rechtssicher mit Künstlicher Intelligenz

Sicherheit mit Standards belegen

Urbane Sicherheitslösungen

Sicherheit weltweit

Qualifiziertes Sicherheitspersonal

Technische Sicherheitssysteme

Funktionale Zutrittslösungen

Schutz vor Brand und Gefahrenlagen

Risiken beherrschen

Geschäftsprozesse absichern

Unerwartetes strukturiert bewältigen

Verfügbarkeit kritischer IT-Infrastrukturen

Sicherheit für IT und OT

Planung & Betrieb zentraler Sicherheitssysteme

Sicherheitsfunktionen zuverlässig prüfen

Versorgungs- und Sicherheitssysteme mit zentraler Bedeutung