Downtime Mailserver am Donnerstag

Am Donnerstag, dem 17.04.2008, müssen wir den Mailserver in der Zeit zwischen 18 und 19 Uhr herunterfahren, um den Hauptspeicher zu erweitern. In der Zeit können keine Mails verschickt oder abgerufen werden. Es ist nicht zu erwarten, dass Mails verloren gehen. Die Mailzustellung wird sich jedoch verzögern.

Der Hintergrund ist, dass der Mailserver in der Vergangenheit sehr stark ausgelastet war. Durch die RAM-Erweiterung werden wir die Leistungsfähigkeit und Zuverlässigkeit erhöhen.

Ungeplante Mailserver-Ausfaelle zwischen 29.3.2008 und 1.4.2008

Im Rahmen einer umfassenden System-Aktualisierung hat die Installation eines neuen Linux-Kernels leider unvorhergesehene Probleme verursacht und damit die Stabilität des Servers stark beeinträchtigt. Dadurch wurden mehrere Ausfälle zwischen Freitag (28.3.2008) und Dienstag (1.4.2008) verursacht.

Die Reparaturen sind vorerst abgeschlossen, wir beobachten die Stabilität des Systems momentan sehr genau. Eine genaue Root-Cause-Analysis steht noch aus.

Wir entschuldigen uns für die entstandenen Unannehmlichkeiten.


Technische Details:

Der Linux-Kernel mit "tickless"-Option erzeugt leider nicht genügend Entropie, um den Mailserver mit ausreichend Zufallszahlen für die kryptographischen Funktionen zu versorgen, was dazu führt, dass Verbindungen lange warten müssen und sich ansammeln. In der Folge wird sämtlicher Speicher im System verbraucht, was nach etwa 1 Stunde zu sehr hoher Last im System und schließlich einem Neustart führt.

Vorrübergehend konnte das Problem durch den Einsatz von `rngd` gemildert werden. Nach Deaktivieren der Tickless-Option hat sich die Entropie noch nicht sichtbar gebessert, so daß der `rngd` weiterhin im Einsatz bleibt, jedoch mit erhöhter Produktionsrate.

Wir werden das System in der nächsten Woche mit 2 GB zusätzlichem Hauptspeicher versehen, was die Performance insgesamt nochmal heben sollte. Der Einbau wird eine Downtime von etwa 15 Minuten verursachen und wird noch einmal getrennt angekündigt werden.

Leider verfügt der betroffene Server über keine "lights off"-Konsole, so dass die Wartungsarbeiten am Kernel nur vor Ort im Rechenzentrum durchgeführt werden können, was die hohen Latenzen (~1h) beim Reparieren eines defekten Kernel-Updates verursacht. In Zukunft wollen wir dies auf zwei Wege verbessern: einzelne Systeme durch Virtualisierung stärker voneinander abschotten, sowie nur noch Server mit integrierten "lights off"-Konsolen einkaufen.

Das "gocept hosting status Blog" ist da

Mit diesem Blog wollen wir unsere Kunden aktuell und transparent ueber Neuigkeiten, Wartungsarbeiten und Ausfälle in unserer Hosting-Infrastruktur informieren. Dazu gehören Ankündigungen von Wartungsarbeiten, Ausfällen, Analysen und Statistiken.

Wir werden hier sowohl nicht-technische Zusammenfassungen, als auch technisch detailliertere Erläuterungen bereitstellen.

Sollten Sie Fragen zu unserem Hosting haben, wenden Sie sich bitte per E-Mail an support@gocept.com.