Im Rahmen einer umfassenden System-Aktualisierung hat die Installation eines neuen Linux-Kernels leider unvorhergesehene Probleme verursacht und damit die Stabilität des Servers stark beeinträchtigt. Dadurch wurden mehrere Ausfälle zwischen Freitag (28.3.2008) und Dienstag (1.4.2008) verursacht.
Die Reparaturen sind vorerst abgeschlossen, wir beobachten die Stabilität des Systems momentan sehr genau. Eine genaue Root-Cause-Analysis steht noch aus.
Wir entschuldigen uns für die entstandenen Unannehmlichkeiten.
Technische Details:
Der Linux-Kernel mit "tickless"-Option erzeugt leider nicht genügend Entropie, um den Mailserver mit ausreichend Zufallszahlen für die kryptographischen Funktionen zu versorgen, was dazu führt, dass Verbindungen lange warten müssen und sich ansammeln. In der Folge wird sämtlicher Speicher im System verbraucht, was nach etwa 1 Stunde zu sehr hoher Last im System und schließlich einem Neustart führt.
Vorrübergehend konnte das Problem durch den Einsatz von `rngd` gemildert werden. Nach Deaktivieren der Tickless-Option hat sich die Entropie noch nicht sichtbar gebessert, so daß der `rngd` weiterhin im Einsatz bleibt, jedoch mit erhöhter Produktionsrate.
Wir werden das System in der nächsten Woche mit 2 GB zusätzlichem Hauptspeicher versehen, was die Performance insgesamt nochmal heben sollte. Der Einbau wird eine Downtime von etwa 15 Minuten verursachen und wird noch einmal getrennt angekündigt werden.
Leider verfügt der betroffene Server über keine "lights off"-Konsole, so dass die Wartungsarbeiten am Kernel nur vor Ort im Rechenzentrum durchgeführt werden können, was die hohen Latenzen (~1h) beim Reparieren eines defekten Kernel-Updates verursacht. In Zukunft wollen wir dies auf zwei Wege verbessern: einzelne Systeme durch Virtualisierung stärker voneinander abschotten, sowie nur noch Server mit integrierten "lights off"-Konsolen einkaufen.