DNS ist die Infrastruktur hinter der Infrastruktur. Wenn ein Nutzer eine Webseite aufruft, ein Service einen anderen Service anspricht oder eine API ihre Gegenstelle sucht – überall steht am Anfang eine DNS-Abfrage. Fällt DNS aus, fällt alles aus. Trotzdem ist DNS-Monitoring in vielen IT-Teams noch immer lückenhaft oder fehlt ganz. Dieser Artikel beschreibt, worauf es bei DNS-Monitoring ankommt, welche Szenarien regelmäßig zu Ausfällen führen und wie Teams strukturiert dagegen vorgehen können.
Warum DNS-Ausfälle so tückisch sind
DNS-Ausfälle unterscheiden sich von klassischen Server-Ausfällen in einem entscheidenden Punkt: Sie sind oft nicht sofort sichtbar. Ein Server, der nicht antwortet, erzeugt einen klaren Timeout. DNS hingegen kann subtil scheitern: Falsche Einträge, falsch konfigurierte TTLs, ein veralteter Cache oder ein ausgefallener Resolver – und plötzlich kommt ein Service von außen nicht mehr an, obwohl der Server selbst vollständig gesund ist.
Klassische Fehlerszenarien aus der Praxis:
- Abgelaufene Domain: Registrierung läuft aus, DNS-Einträge werden gelöscht. Passiert häufiger als erwartet, besonders bei Domains, die vor Jahren auf persönliche E-Mails registriert wurden.
- Propagationsprobleme: Nach DNS-Änderungen verbreiten sich neue Einträge nicht gleichmäßig. Manche Nutzer sehen veraltete IPs, andere die neuen – Fehlerberichte sind schwer einzugrenzen.
- Resolver-Ausfall beim Provider: Der eigene Server läuft, aber der DNS-Resolver beim ISP oder CDN ist down. Externe Nutzer können den Service nicht erreichen, interne Tests schlagen nicht an.
- Falsche oder veraltete CNAME-Ketten: Weiterleitungen auf Services, die nicht mehr existieren oder umgezogen sind, erzeugen stille Fehler, die oft nur durch Nutzerbeschwerden auffallen.
- TTL-Probleme bei Failover: Hohe TTL-Werte bedeuten, dass Failover-Szenarien zu lang dauern. Zu niedrige TTL-Werte erhöhen die DNS-Last und können bei hohem Traffic Resolver überlasten.
Was DNS-Monitoring leisten muss
Effektives DNS-Monitoring geht weit über „kann ich die Domain auflösen?" hinaus. Folgende Prüfungen sollten regelmäßig stattfinden:
Erreichbarkeit und Antwortzeit
Die einfachste Schicht: Ist der DNS-Server erreichbar und antwortet er innerhalb akzeptabler Zeit? Latenz über 500 ms bei DNS-Abfragen verlangsamt jeden Service-Aufruf, der davon abhängt. Monitoring sollte hier Schwellwerte und Trends messen, nicht nur binäre Verfügbarkeit.
Korrektheit der Einträge
Monitoring muss nicht nur prüfen, ob eine Antwort kommt, sondern ob die richtige Antwort kommt. A-Records, CNAME-Ziele, MX-Einträge und TXT-Einträge (z. B. für SPF und DKIM) sollten regelmäßig gegen einen bekannten Soll-Zustand verglichen werden. Änderungen an DNS-Einträgen, die nicht geplant waren, sind häufig ein erstes Zeichen für Account-Kompromittierung oder Fehlkonfiguration.
Resolver-Diversität
DNS-Auflösung aus einer einzigen Perspektive zu prüfen reicht nicht. Wichtig ist, von mehreren geographischen Standorten und über verschiedene Resolver zu testen. Ein Eintrag kann bei Google DNS (8.8.8.8) korrekt aufgelöst werden, während Cloudflare DNS (1.1.1.1) noch einen alten Cache zeigt.
Domain-Ablauf
Domains haben Ablaufdaten. Monitoring sollte rechtzeitig warnen – mindestens 30 Tage vor Ablauf, besser 60 Tage. Für kritische Domains empfiehlt sich eine zusätzliche manuelle Prüfung im Kalender, da Domain-Verlust oft schwer und teuer rückgängig zu machen ist.
DNSSEC-Validierung
DNSSEC schützt vor DNS-Cache-Poisoning-Angriffen, indem Einträge kryptographisch signiert werden. Wenn DNSSEC konfiguriert ist, muss Monitoring die Validierung regelmäßig prüfen. Ein abgelaufener DNSSEC-Schlüssel kann dazu führen, dass validierende Resolver die Domain als nicht erreichbar behandeln – auch wenn die Zone technisch korrekt ist.
Monitoring-Architektur: Wo und wie oft prüfen
DNS-Monitoring sollte aus der Perspektive der Nutzer stattfinden, nicht aus der des Servers. Das bedeutet: externe Monitoring-Knoten an verschiedenen Standorten, die dieselben Resolver verwenden, die echte Nutzer verwenden würden.
Empfohlene Prüfintervalle nach Kritikalität:
- Produktive, kundenrelevante Domains: Alle 1–2 Minuten, von mindestens 3 Standorten
- Interne Service-Domains: Alle 5 Minuten, von mindestens 2 Standorten
- Domain-Ablaufdaten: Täglich, mit Alarm ab 60 Tagen vor Ablauf
- DNSSEC-Schlüssel: Täglich, mit Alarm ab 14 Tagen vor Ablauf des Signatur-Zeitraums
Was nach einem DNS-Ausfall zu tun ist
Ein strukturierter Response-Plan für DNS-Ausfälle unterscheidet sich von allgemeinen Incident-Prozessen. Priorität hat immer zuerst die Diagnose, bevor Änderungen vorgenommen werden – DNS-Einträge falsch zu korrigieren kann einen Ausfall verlängern, nicht verkürzen.
Checkliste für DNS-Incidents:
- Von mehreren externen Standorten und Resolvern prüfen – ist das Problem global oder lokal?
- TTL prüfen: Wie lange dauert es, bis eine Korrektur sichtbar wird?
- DNS-Provider-Status prüfen: Gibt es bekannte Probleme beim Registrar oder beim Hosting-Provider?
- Letzte DNS-Änderungen im Audit-Log prüfen: Was wurde wann geändert?
- Rollback planen: Wenn eine Änderung das Problem verursacht hat, was ist der schnellste sichere Weg zurück?
DNS-Monitoring und IT-Sicherheit
DNS ist nicht nur ein Verfügbarkeitsthema, sondern zunehmend auch ein Sicherheitsthema. DNS-Hijacking, Cache-Poisoning und Domain-Squatting sind reale Angriffsvektoren. Monitoring kann dabei helfen, unerwartete Änderungen schnell zu erkennen:
- Alert bei unerwarteten DNS-Änderungen: Wenn ein A-Record plötzlich auf eine unbekannte IP zeigt, sollte sofort ein Alert ausgelöst werden – bevor Nutzer auf manipulierte Server weitergeleitet werden.
- Subdomain-Takeover erkennen: Wenn ein CNAME auf einen Dienst zeigt, dessen Instanz nicht mehr existiert (z. B. eine gelöschte Heroku-App), kann ein Angreifer diese Subdomain übernehmen. Monitoring der CNAME-Ziele auf Erreichbarkeit hilft, solche Schwachstellen zu finden.
- Typosquatting-ähnliche Domains überwachen: Für bekannte Marken oder kritische Dienste lohnt sich die Überwachung ähnlicher Domains, die für Phishing missbraucht werden könnten.
Fazit: DNS-Monitoring ist kein Luxus
DNS-Ausfälle sind häufig, oft überraschend und haben unmittelbare Auswirkungen auf jeden Dienst dahinter. IT-Teams, die nur Server-Uptime überwachen, haben nur einen Teil des Bildes. DNS-Monitoring ist eine verhältnismäßig günstige Maßnahme mit hohem Schutzwert – sowohl für Verfügbarkeit als auch für Sicherheit.
Der praktische Einstieg ist einfach: DNS-Checks für die fünf wichtigsten Domains einrichten, Ablaufdaten überwachen und Alerts definieren. Das allein verhindert bereits eine der häufigsten Ursachen für unnötige Ausfälle. Wer tiefer einsteigen will, findet in DNSSEC-Monitoring und Eintragskorrektheitsprüfungen die nächsten sinnvollen Schritte.
Bildquelle: Pexels – Serverraum / Netzwerkinfrastruktur, lizenzfrei nutzbar
Quellen
- ICANN: DNSSEC Deployment Guide (icann.org)
- Cloudflare Blog: DNS-Sicherheit und häufige Angriffsvektoren (blog.cloudflare.com)
- RIPE NCC: DNS Monitoring Best Practices (ripe.net)