Wenn ein IT-System ausfällt, beginnt für On-Call-Teams ein Wettlauf gegen die Zeit. Die ersten Minuten entscheiden oft darüber, wie lange eine Störung andauert und wie viele Nutzer betroffen sind. In vielen Teams läuft die initiale Einordnung eines Incidents noch manuell ab: Ein Alarm kommt an, der Bereitschaftsmitarbeiter öffnet das Monitoring-Dashboard, bewertet die Lage und entscheidet, ob und wen er informiert. Dieser Prozess dauert – und er skaliert nicht gut.
KI-gestützte Incident-Triage setzt genau an diesem Engpass an. Sprachmodelle und klassische ML-Verfahren können eingehende Alarme, Logs und Kontextdaten automatisch auswerten und sowohl eine Schweregrad-Einschätzung als auch eine erste Handlungsempfehlung liefern – noch bevor ein Mensch den ersten Blick auf das Dashboard wirft.
Was ist Incident-Triage und warum ist sie zeitkritisch?
Triage bezeichnet im Incident-Management den Prozess, eine eingehende Störungsmeldung zu bewerten und zu klassifizieren. Dabei geht es um drei zentrale Fragen:
- Wie schwer ist der Incident? Betrifft er einzelne Nutzer oder ganze Services? Ist die Kerninfrastruktur betroffen oder ein nachgelagertes System?
- Wer muss informiert werden? Welches Team ist für den betroffenen Bereich zuständig? Ist eine sofortige Eskalation notwendig?
- Was sind sinnvolle erste Schritte? Gibt es bekannte Muster, die auf eine bekannte Fehlerursache hinweisen? Welche Schritte aus dem Runbook greifen hier?
Diese drei Fragen manuell zu beantworten kostet Zeit – selbst erfahrene Ingenieure brauchen mehrere Minuten, um sich einen vollständigen Überblick zu verschaffen. Bei kritischen Ausfällen ist jede Minute teuer.
Wie KI-gestützte Triage funktioniert
Moderne Triage-Systeme kombinieren verschiedene Datenquellen und Verarbeitungsschritte:
1. Alarm-Aggregation und Korrelation
Oft lösen einzelne Probleme eine Kaskade von Alarmen aus. Ein überlasteter Datenbankserver kann gleichzeitig Timeouts in der Anwendung, erhöhte Fehlerquoten in der API und verlangsamte Antwortzeiten im Frontend verursachen – was als drei separate Alarme eingeht, aber eine gemeinsame Ursache hat. KI-Systeme lernen, solche Zusammenhänge zu erkennen und Alarm-Cluster zu bilden, die einem einzigen Incident zugeordnet werden.
2. Kontextanreicherung durch Sprachmodelle
Große Sprachmodelle können eingehende Alarme mit Informationen aus dem Monitoring-Kontext verknüpfen: Aktuelle Deployment-Aktivitäten, frühere Incidents mit ähnlichen Mustern, Wartungsfenster oder bekannte Schwachstellen in der Infrastruktur. Auf Basis dieser Anreicherung formulieren moderne Systeme eine strukturierte Erstanalyse in natürlicher Sprache, die dem On-Call-Ingenieur direkt im Benachrichtigungskanal übermittelt wird.
3. Automatische Schweregrad-Klassifizierung
Anstatt alle Alarme gleich zu behandeln, bewertet ein ML-gestütztes Triage-System den Schweregrad dynamisch: Welche Services sind betroffen? Wie viele Nutzer sind potenziell beeinträchtigt? Gibt es einen aktiven SLA, der verletzt wird? Die Klassifizierung berücksichtigt sowohl technische als auch geschäftliche Auswirkungen und ordnet den Incident in eine Prioritätsstufe ein.
4. Intelligente Eskalationsentscheidung
Auf Basis der Schweregrad-Klassifizierung entscheidet das System, wer benachrichtigt werden soll. Das reicht von einem einzelnen Ping an den First-Responder bis zur sofortigen parallelen Benachrichtigung mehrerer Teams, eines Incident Commanders und eines Management-Verteilers bei kritischen Produktionsausfällen.
Konkrete Vorteile gegenüber manueller Triage
Der Nutzen automatisierter Triage lässt sich in mehreren Dimensionen messen:
- Schnellere MTTA (Mean Time to Acknowledge): Wenn das System bereits eine Erstanalyse liefert, müssen On-Call-Ingenieure weniger Zeit damit verbringen, sich einen Überblick zu verschaffen, und können schneller mit der eigentlichen Diagnose beginnen.
- Reduzierte Alert Fatigue: Durch intelligente Korrelation und Deduplizierung sinkt die Anzahl der eingehenden Benachrichtigungen, ohne dass relevante Signale verloren gehen.
- Konsistente Klassifizierung: Manuelle Triage variiert je nach Tageszeit, Erfahrungsstand und aktuellem Stresslevel des Bereitschaftsmitarbeiters. Automatisierte Systeme wenden konsistente Kriterien an – unabhängig davon, ob es sich um 14 Uhr mittags oder 3 Uhr nachts handelt.
- Bessere Dokumentation: Automatisch erzeugte Triage-Einschätzungen werden direkt im Incident-Ticket gespeichert und bilden eine nachvollziehbare Grundlage für das spätere Post-Mortem.
Technische Umsetzung: Bausteine eines Triage-Systems
Ein KI-gestütztes Triage-System besteht typischerweise aus mehreren integrierten Komponenten:
- Alarm-Receiver: Eine zentrale Schnittstelle, die Alarme aus verschiedenen Monitoring-Quellen entgegennimmt – Prometheus, Datadog, Nagios, Cloud-Monitoring-Dienste oder Heartbeat-Systeme.
- Korrelations-Engine: Regelbasierte oder ML-gestützte Logik, die Alarme zeitlich und semantisch gruppiert.
- LLM-Integration: Ein Sprachmodell, das auf Basis der aggregierten Alarm-Informationen und historischer Incident-Daten eine natürlichsprachliche Erstanalyse generiert.
- Routing-Logik: Konfigurierbare Regeln, die bestimmen, welche Teams und Personen bei welchem Schweregrad benachrichtigt werden.
- Feedback-Loop: Mechanismen, mit denen On-Call-Ingenieure die Triage-Einschätzungen des Systems bewerten können, um das Modell kontinuierlich zu verbessern.
Grenzen und Risiken
KI-gestützte Triage ist kein Ersatz für menschliches Urteilsvermögen – sie ist eine Unterstützung. Systeme können falsche Muster erkennen oder unbekannte Incident-Typen falsch klassifizieren, besonders wenn sie auf historischen Daten trainiert wurden, die die aktuelle Infrastruktur nicht vollständig abbilden.
Ein häufiger Fehler bei der Einführung automatisierter Triage ist die übermäßige Automatisierung der Eskalation: Wenn das System bei jedem als kritisch eingestuften Alarm sofort das gesamte Management-Verteilerlistenwirtschaft in Bewegung setzt, erzeugt das schnell Vertrauensverlust und Ablehnung. Sinnvoller ist ein gestuftes Modell, das mit automatischem Ping an den First-Responder beginnt und weitere Eskalationsschritte manuell freigeben lässt.
Darüber hinaus müssen Triage-Systeme regelmäßig mit aktuellen Informationen versorgt werden – neue Services, geänderte Verantwortlichkeiten und veränderte Infrastrukturkomponenten müssen im System gepflegt werden, damit Eskalationsentscheidungen weiterhin korrekt sind.
Fazit
KI-gestützte Incident-Triage reduziert die Zeit zwischen Alarmeingang und erster sinnvoller Reaktion spürbar. Wenn Sprachmodelle die Erstanalyse übernehmen, können sich On-Call-Teams auf das konzentrieren, was tatsächlich menschliches Urteil erfordert: die Diagnose der Ursache und die Koordination der Gegenmaßnahmen. Das macht den Bereitschaftsdienst nicht nur effizienter, sondern auch weniger erschöpfend.
Der Aufbau eines solchen Systems erfordert initiale Investitionen in Datenqualität, Konfiguration und Team-Akzeptanz. Wer diese Phase sorgfältig gestaltet, gewinnt aber ein Werkzeug, das den operativen Betrieb dauerhaft verbessert.
Bildquelle: Pexels / Christina Morillo