Predictive Capacity Planning mit Machine Learning: Wie SRE-Teams Ressourcenbedarf präziser vorhersagen

Visualisierung von KI und Machine Learning – symbolisch für datengetriebene Kapazitätsplanung in SRE-Teams (Foto: mikemacmarketing / Wikimedia Commons, CC BY 2.0)

Kapazitätsplanung ist eine der undankbarsten Aufgaben im IT-Betrieb. Zu wenig Ressourcen führen zu Ausfällen und schlechter Performance – zu viel bedeutet verschwendetes Budget. Klassische Ansätze basieren auf historischen Wachstumskurven, manuellen Schätzungen und dem Erfahrungswissen einzelner Ingenieure. Das funktioniert – bis es nicht mehr funktioniert. Saisonale Spitzen, virale Wachstumsereignisse oder größere Infrastrukturveränderungen lassen sich mit linearen Prognosen schlecht abbilden.

Was Kapazitätsplanung für SRE-Teams bedeutet

Für SRE-Teams ist Kapazitätsplanung mehr als nur "wann brauchen wir mehr Server". Es geht darum, zu verstehen, wie sich Last, Ressourcennutzung und Systemverhalten über die Zeit entwickeln – und rechtzeitig die richtigen Entscheidungen zu treffen. In modernen Cloud-Umgebungen bedeutet das auch: Wann skaliert man horizontal? Wann ist es Zeit, eine Instanzgröße zu ändern? Wo entstehen Flaschenhälse, bevor sie zu Incidents werden?

Traditionelle Kapazitätsplanung funktioniert reaktiv: Man beobachtet, dass ein System die 80-Prozent-Auslastungsgrenze überschreitet, und handelt dann. Predictive Capacity Planning mit Machine Learning dreht diesen Ansatz um: Modelle lernen aus historischen Daten und sagen vorher, wann ein System eine kritische Grenze erreichen wird – bevor es passiert.

Machine-Learning-Methoden für Ressourcenprognosen

Für die Vorhersage von Ressourcenbedarf kommen verschiedene ML-Ansätze in Frage, je nach Datenlage und Anforderungen:

Zeitreihenmodelle (ARIMA, SARIMA): Klassische statistische Modelle für Zeitreihendaten. Gut geeignet für reguläre, saisonale Muster. Gut verständlich und interpretierbar, aber weniger geeignet für komplexe nichtlineare Zusammenhänge.
Facebook Prophet: Ein Open-Source-Tool von Meta, das Zeitreihenprognosen mit automatischer Erkennung von Saisonalitäten und Feiertagseffekten ermöglicht. Besonders praktisch für Teams ohne tiefes ML-Fachwissen, da es mit relativ wenig Konfiguration gute Ergebnisse liefert.
LSTM-Netzwerke (Long Short-Term Memory): Eine Form rekurrenter neuronaler Netze, die besonders gut mit langen Sequenzen und komplexen zeitlichen Abhängigkeiten umgehen. Eignet sich für Systeme mit stark variablen und schwer linearen Mustern.
Gradient Boosting (XGBoost, LightGBM): Ensemble-Methoden, die aus vielen schwachen Modellen ein starkes zusammenbauen. Gut geeignet, wenn viele Feature-Variablen berücksichtigt werden sollen – etwa Deployments, externe Events oder Nutzerverhaltensdaten.
Anomaly-Detection-Modelle: Nicht primär für Prognosen, sondern für die Erkennung von Abweichungen vom erwarteten Verlauf. Nützlich als ergänzende Schicht, um unerwartete Lastspitzen früh zu erkennen, bevor sie kritisch werden.

Was die Modelle lernen – und was sie brauchen

ML-Modelle für Kapazitätsplanung sind nur so gut wie die Daten, auf denen sie trainiert werden. Typische Input-Features umfassen:

CPU-, Memory- und Netzwerkauslastung der vergangenen Monate
Anfragevolumen und Latenzdaten
Deployment-Ereignisse: Wann wurde was deployed?
Nutzerverhaltensdaten: aktive Nutzer, Session-Dauer, Feature-Nutzung
Externe Faktoren: Wochentag, Feiertage, saisonale Ereignisse

Je mehr historische Daten vorhanden sind und je vollständiger die Feature-Abdeckung ist, desto genauer werden die Prognosen. Teams, die Predictive Capacity Planning einführen wollen, sollten daher zuerst sicherstellen, dass ihre Monitoring-Daten gut strukturiert und langfristig aufbewahrt werden.

Praktische Einführung: Wo man anfangen sollte

Die Einführung von ML-gestützter Kapazitätsplanung muss nicht mit einem komplexen, selbst entwickelten System beginnen. Es gibt mehrere gut zugängliche Einstiegswege:

Bestehende Cloud-Tools nutzen

AWS, Google Cloud und Azure bieten native Tools für Kapazitätsprognosen an. AWS Compute Optimizer und Google Cloud Recommender nutzen maschinelles Lernen, um Empfehlungen für Instanzgrößen und Ressourcenkonfigurationen zu geben – auf Basis des tatsächlichen Nutzungsverhaltens über mehrere Wochen. Das erfordert keine eigene ML-Infrastruktur und liefert sofort nutzbare Erkenntnisse.

Open-Source-Tools integrieren

Facebook Prophet lässt sich direkt auf historische Prometheus-Metriken anwenden. Wer seine Infrastrukturmetriken in Prometheus oder einem ähnlichen System speichert, kann mit wenigen Zeilen Python-Code erste Prognosen erstellen und in Grafana visualisieren. Das ist ein guter Einstiegspunkt für Teams, die ohne große Investitionen erste Erfahrungen mit ML-Prognosen sammeln wollen.

Schrittweise automatisieren

Statt sofort vollautomatisierte Skalierungsentscheidungen zu treffen, empfiehlt sich ein schrittweiser Ansatz: Zuerst Prognosen erstellen und manuell prüfen. Dann Schwellenwerte definieren, ab denen Alerts ausgelöst werden. Schließlich – nach ausreichend Vertrauen in die Modellqualität – automatisierte Skalierungsregeln einführen. Dieser Ansatz reduziert das Risiko, auf falsche Prognosen zu reagieren.

Erwartungen richtig setzen: Was ML kann und was nicht

ML-Prognosen für Kapazitäten sind keine Kristallkugeln. Sie lernen aus der Vergangenheit und projizieren Muster in die Zukunft. Unvorhergesehene Ereignisse – ein viraler Moment, eine unerwartete Nutzercampagne, ein externer Angriff – lassen sich nicht vorhersagen. Hier hilft Kapazitätsplanung wenig; hier hilft Elastizität: Systeme, die sich schnell skalieren lassen, wenn nötig.

ML-Prognosen sind hingegen stark darin, reguläre Muster zuverlässig vorwegzunehmen: den wöchentlichen Lastgipfel am Montagmorgen, das monatliche Abrechnungsvolumen, das saisonale Weihnachtsgeschäft. Für all diese bekannten Muster kann Predictive Capacity Planning echten Mehrwert liefern und Incidents verhindern, bevor sie entstehen.

Integration in SRE-Workflows

Predictive Capacity Planning entfaltet seinen vollen Nutzen, wenn es in bestehende SRE-Prozesse eingebettet wird. Prognosen sollten Teil der regulären Capacity-Review-Meetings sein. Schwellenwert-Alerts auf Basis von Prognosen – nicht nur auf Basis aktueller Werte – sollten ins Alert-System eingebunden sein. Und die Ergebnisse der Modelle sollten regelmäßig mit den tatsächlichen Entwicklungen abgeglichen werden, um Drift frühzeitig zu erkennen und das Modell neu zu trainieren.

Teams, die Kapazitätsplanung ernst nehmen, schlafen ruhiger – weil sie nicht auf Ausfälle warten, sondern sie aktiv verhindern.

Fazit

Machine Learning macht Kapazitätsplanung für SRE-Teams präziser, frühzeitiger und datengetriebener. Es geht dabei nicht um KI als Selbstzweck, sondern um ein praktisches Werkzeug, das die Schwächen klassischer, reaktiver Planung ausgleicht. Der Einstieg ist mit Open-Source-Tools und bestehenden Cloud-Empfehlungssystemen heute zugänglicher denn je. Wer mit kleineren Prognosen beginnt, Vertrauen in die Modellqualität aufbaut und schrittweise automatisiert, kann Kapazitätsprobleme langfristig aus dem Incident-Backlog verbannen.

Bildquelle: mikemacmarketing / Wikimedia Commons, CC BY 2.0

Externe Quellen:
Meta AI Research: Prophet – Forecasting at Scale; AWS Compute Optimizer Documentation; Google Cloud Recommender; Google SRE Book: Capacity Planning; Prometheus + Grafana Dokumentation