Alert Fatigue: Warum zu viele Alarme gefährlicher sind als zu wenige

Grafana Monitoring-Dashboard (2016). Bild: Palosirkka / Wikimedia Commons, CC BY-SA 4.0.

Jeden Tag 200 Alarme empfangen, von denen 180 irrelevant sind. Nach einer Weile passiert etwas Gefährliches: Die verbleibenden 20 wichtigen Alarme werden genauso behandelt wie alle anderen – mit einem kurzen Blick und einem Klick auf Bestätigen. Alarmermüdung, im Englischen Alert Fatigue, ist einer der häufigsten und am stärksten unterschätzten Risikofaktoren in der IT-Betriebspraxis. Das Risiko entsteht dabei nicht durch mangelndes Monitoring, sondern durch zu viel davon – unkonfiguriert, unpriorisiert, unkalibriert.

Was Alert Fatigue ist und woher es kommt

Alert Fatigue beschreibt den Zustand, in dem Personen durch eine überwältigende Anzahl von Benachrichtigungen so desensibilisiert werden, dass sie Alarme nicht mehr angemessen verarbeiten. Das Phänomen ist aus der Medizin bekannt: Intensivstationen, Operationssäle und Notaufnahmen kämpfen seit Jahrzehnten mit Alarmfluten, die das Pflegepersonal überfordern. Im IT-Kontext zeigt es sich, wenn Monitoring-Systeme mehr Lärm als Signal erzeugen.

Das Tückische: Alert Fatigue entsteht schleichend. Es beginnt mit ein paar harmlosen Fehlalarmen, die ignoriert werden – zu Recht, weil sie tatsächlich irrelevant sind. Mit der Zeit normalisiert sich das Ignorieren. Teams entwickeln Routinen, Alarme schnell wegzuklicken, Benachrichtigungskanäle stummzuschalten oder Filter einzubauen. Wenn dann ein echter kritischer Alarm kommt, ist er visuell, akustisch und emotional nicht mehr von den vielen anderen unterscheidbar. Der Alarm kommt an, wird aber nicht als dringend wahrgenommen.

Typische Ursachen im IT-Betrieb

Alert Fatigue entsteht selten aus einer einzigen Ursache, sondern aus einem Zusammenspiel mehrerer Faktoren. Schwellwerte sind zu niedrig konfiguriert: Ein Alarm bei 70 Prozent CPU-Auslastung ist sinnlos, wenn die CPU täglich zu 75 Prozent ausgelastet ist. Schwellwerte müssen zur tatsächlichen Betriebsrealität passen, nicht zu einem theoretischen Idealzustand. Fehlende Priorisierung führt dazu, dass alle Alarme gleich aussehen und damit gleich behandelt werden. Wenn ein Latenz-Anstieg genauso dargestellt wird wie ein vollständiger Dienst-Ausfall, verliert die Unterscheidung ihre praktische Bedeutung.

Fehlende Flap-Unterdrückung ist ein weiteres häufiges Problem: Ein Dienst, der schnell zwischen verfügbar und nicht verfügbar wechselt, kann innerhalb von Minuten Dutzende Alarme erzeugen – obwohl es sich um ein einziges, möglicherweise kurzes Problem handelt. Und schließlich: veraltete Alarme. Systeme ändern sich, aber Alarmkonfigurationen werden selten mitgepflegt. Alarme für Dienste, die nicht mehr existieren, für Schwellwerte, die nicht mehr relevant sind, oder für Szenarien, die sich grundlegend geändert haben – all das trägt zur Lärmbelastung bei.

Erkennungszeichen in Teams

Alert Fatigue ist von außen schwer zu erkennen, weil die Reaktion auf Alarme auf den ersten Blick normal aussieht. Bestimmte Muster machen es sichtbar: Alarme werden routinemäßig bestätigt oder geschlossen, ohne dass jemand nachschaut, was der Auslöser war. Benachrichtigungskanäle werden stummgeschaltet, weil sie als störend wahrgenommen werden. Neue Alarme werden mit Skepsis begegnet: Das ist bestimmt wieder falsch. Echte Vorfälle werden spät entdeckt – weil der Alarm zwischen anderen unterging. Und On-Call-Personen berichten von schlechtem Schlaf und hoher mentaler Belastung durch nächtliche Alarme, die sich beim Prüfen als irrelevant herausstellten.

Besonders das letzte Symptom ist ein ernstes Warnsignal. Wer mehrfach pro Nacht geweckt wird, ohne dass tatsächlich etwas getan werden muss, entwickelt mit der Zeit eine Schutzreaktion gegenüber dem gesamten Monitoring-System. Diese Reaktion ist menschlich und verständlich – und gleichzeitig gefährlich für die Betriebssicherheit.

Praktische Gegenmaßnahmen

Der erste Schritt zur Bekämpfung von Alert Fatigue ist ein ehrlicher Alarm-Audit. Alle aktiven Alarme werden gelistet und bewertet: Wie oft wurde dieser Alarm in den letzten 30 Tagen ausgelöst? Wie oft hat er zu einer Handlung geführt? Wie oft war er falsch positiv? Alarme, die häufig ausgelöst werden und selten zu Handlungen führen, sind entweder falsch konfiguriert oder gehören in eine niedrigere Prioritätsstufe. Alarme, die nie ausgelöst werden, könnten irrelevant sein – oder gut kalibriert. Beide Fälle verdienen Aufmerksamkeit.

Prioritätsstufen einführen ist die wirkungsvollste strukturelle Maßnahme: Kritisch bedeutet sofortige Reaktion erforderlich, auf allen Kanälen, auch nachts. Warnung bedeutet wichtig, aber bis zum nächsten Arbeitstag wartend – keine Nachtbenachrichtigung. Informativ bedeutet kein Handlungsbedarf, nur für Logging und Dashboards. Diese drei Stufen müssen sich in verschiedenen Benachrichtigungswegen niederschlagen, nicht nur in verschiedenen Labels.

Alarme, die nicht actionable sind, abschaffen

Eine einfache Regel hilft bei der Priorisierung: Wenn auf einen Alarm keine konkrete menschliche Handlung folgen kann oder soll, gehört er nicht in den On-Call-Kanal. Ein Alarm, der nur zur Kenntnis genommen wird, ist ein Logging-Eintrag, kein Alarm. Alarme sind für Situationen reserviert, in denen eine Person eingreifen muss. Diese strikte Definition reduziert Alarmvolumen erheblich und erhöht das Vertrauen in die verbleibenden Alarme.

Kontinuierliche Pflege als Pflicht

Alarm-Konfiguration ist keine einmalige Aufgabe. Teams, die ihre Alarmlandschaft einmal aufgesetzt haben und nie wieder anfassen, werden innerhalb von Monaten wieder in Alert Fatigue rutschen – weil sich Systeme ändern, aber Alarme nicht mitgewachsen sind. Eine regelmäßige Überprüfung, mindestens einmal pro Quartal, verhindert das. Wer nach Vorfällen und nach Postmortems gezielt prüft, ob bestehende Alarme hätten früher oder präziser warnen können, verbessert die Alarmqualität kontinuierlich.

Fazit

Alert Fatigue ist kein Zeichen von Schwäche oder mangelnder Professionalität – es ist das natürliche Ergebnis schlecht konfigurierter Systeme. Das Problem liegt nicht bei den Menschen, die Alarme ignorieren, sondern bei den Alarmen, die ignoriert werden sollten. Teams, die ihre Alarmlandschaft regelmäßig pflegen, sinnvoll priorisieren und Lärm aktiv reduzieren, schaffen die Grundlage dafür, dass ihr Monitoring im Ernstfall das tut, wofür es gedacht ist: rechtzeitig und verlässlich warnen. Darüber hinaus lohnt es sich, den Austausch über Alarmqualität zur Teamnorm zu machen. Nach jeder On-Call-Schicht sollte kurz reflektiert werden: Welche Alarme waren sinnvoll, welche nicht? Diese Rückmeldungen, regelmäßig gesammelt und umgesetzt, verbessern die Alarmlandschaft kontinuierlich und bauen das Vertrauen ins Monitoring-System nachhaltig wieder auf. Alert Fatigue ist lösbar – als Konfigurationsproblem, das kontinuierliche Aufmerksamkeit verdient und durch konsequente Pflege dauerhaft unter Kontrolle gehalten werden kann.