Umfassende Systemaktualisierung am Freitag 30.04.2010 - Comprehensive system update on Friday 2010-04-30

English version follows: please see below.

Am Freitag dieser Woche werden wir ein reguläres aber umfangreiches Systemupdate auf allen unseren Servern im Rechenzentrum Oberhausen durchführen. Dabei wird sich Downtime von Diensten nicht vermeiden lassen, da Betriebssystemaktualisierungen einen Neustart der Systeme erfordern.

In diesem Rahmen werden alle Dienste innerhalb des Zeitraums zwischen 18:00 und 21:00 betroffen sein. Wir erwarten jedoch, dass Ausfälle einzelner Dienste sich auf jeweils sehr kurze Zeiträume beschränken werden.

Die Aktualisierungen dienen dazu die Sicherheit der Systeme zu gewährleiseten und moderne Softwarepakete, eine leistungsfähigere Umgebung, sowie neue Funktionen anzubieten.

Wir entschuldigen uns für mögliche Unannehmlichkeiten und stehen Ihnen bei Fragen gern per E-Mail unter support@gocept.com zur Verfügung.



On the Friday of this week we will perform a regular but comprehensive system update on all of our servers in the computing centre Oberhausen. Unfortunately we are not able to avoid downtime of services as the operating system updates will require a reboot of the systems.

Due to that all services will be affected for periods during the time frame of 6pm CEST and 9pm CEST. We expect the interruptions of each individual service to be short.

We perform updates to sustain security, modern software packages, a highly productive environment, and to provide you with new features.

We apologize for any inconvenience caused by the update and will gladly respond to any questions you have. To contact us, send an email to support@gocept.com.

Teilweiser Dienstausfall (Sonntag 11.4.2010 4:00-14:00)

English version follows: please see below.

Am gestrigen Sonntag dem 11.4.2010 kam es zwischen 4 und 14 Uhr zu einem Ausfall verschiedener Dienste:
  • Web-Auftritte von Shared-Hosting-Kunden unter Nutzung des Servers shared00.gocept.net waren in dieser Zeit nicht erreichbar.
  • Die Zustellung von E-Mails und der Abruf von E-Mails war unzuverlässig und sporadisch nicht möglich. E-Mails aus dieser Zeit sollten inzwischen zugestellt worden sein.
  • Virtuelle Maschinen einzelner Kunden wurden neugestartet und liefen zeitweise ohne Hardwarebeschleunigung und daher extrem langsam. Dies schränkte die Funktionsfähigkeit der Dienste ein.
Der Ausfall wurde am Sonntag ab 10 Uhr bearbeitet. Die Dienste arbeiten seit Sonntag 14 Uhr wieder uneingeschränkt. Kunden mit eigenen virtuellen Maschinen, die von diesem Ausfall betroffen waren, werden individuell von uns informiert.

Die Ursache des Ausfalls ist noch nicht schlussendlich geklärt, jedoch sind die Einzelereignisse rekonstruiert:
  • Ein Virtualisierungsserver hat sich gegen Sonntag 4 Uhr aufgrund selbstdiagnostizierter Überlast neugestartet. Aufgrund einer unbemerkten Fehlkonfiguration wurden die dort ansässigen virtuellen Maschinen ohne Hardwarebeschleunigung neugestartet, was die Geschwindigkeit auf 1/50 des Normalen beschränkt hat. Dadurch konnten die dort installierten Anwendungen nicht korrekt arbeiten. Die Fehlkonfiguration wurde behoben. Ein erneutes Auftreten dieses Fehlers werden wir durch verbessertes Monitoring sowie eine Verbesserung im Prozess der Betriebssystemwartung verhindern.
  • Die Authentifizierungsdatenbank des Mailservers war von diesem Ausfall betroffen, wodurch der Mailserver nicht mehr zuverlässig funktionierte. Als zukünftige Verbesserung werden wir die virtuelle Maschine, die die Datenbank bereitstellt, auf den gleichen Server verschieben, der auch den Mailserver betreibt. Dadurch wird die Verfügbarkeit des Dienstes erhöht.
  • Der Hauptserver für Systemautomatisierung litt unbemerkt unter einem Mangel an Entropie. Diese wird zur Erzeugung von Zufallszahlen benötigt, die wiederum für Sicherheitsprotokolle eine große Rolle spielen. Dadurch konnten viele Anfragen nur stark verlangsamt beantwortet werden, was einen unbemerkten Absturz des Automatisierungsservers bewirkt hat. Dieser Umstand wurde kurzfristig unter Zuhilfename von Pseudozufallszahlen verbessert. Als langfristige Maßnahme werden wir den Server entlasten und einige Softwaremodule durch zuverlässigere Alternativen ersetzen.
Bisher unbekannt ist die Ursache der Überlast des Applikationsservers, die den Neustart verursacht hat.

Wir entschuldigen uns für die enstandenen Unannehmlichkeiten. Sollten Sie Fragen oder Anregungen haben, würden wir uns freuen von Ihnen zu hören. Sie erreichen uns per E-Mail unter support@gocept.com.



On Sunday 2010-04-11 between 04:00 AM and 02:00 PM CEST we experienced an outage of multiple services:
  • Web sites belonging to shared hosting customers using the server shared00.gocept.net were unreachable.
  • Delivery of and access to emails was unreliable and sporadically unavailable. Emails from that period should have been delivered by now.
  • Some virtual machines have been restarted without hardware acceleration and thus performed very poorly. This limited the availability of the services from those machines.
We started working on the outage on Sunday 10:00 AM (CEST). Full service was restored by 02:00 PM (CEST). Owners of individual virtual machines that were affected are being notified individually by us.

The root cause of the outage has not been resolved finally. However, the individual events leading to the outage have been identified:
  • At Sunday 04:00 AM (CEST) a virtualisation host rebooted due to self-diagnosed overload. Due to an undetected misconfiguration the virtual machines were then started without hardware acceleration limiting them to 1/50th of their regular performance. Due to that the installed applications did not work correctly. The misconfiguration has been corrected. A regression of this problem will be avoided by closer monitoring and an improvement of the system-level update mechanism.
  • The mail server's authentication database was affected by the outage. This caused the mail server to work unreliably. As a future improvement the virtual machine running the authentication database will be run on the same physical machine as the VM running the mail server. This will improve general reliability of the mail server.
  • The main server for system automation suffered an extreme shortage of entropy. Entropy is required for the generation of random numbers which in turn are important for the correct operation of many security protocols. The server could therefore answer many requests only with long delays causing an undetected crash of automation server. We improved the situation by utilizing pseudo random numbers. As a long-term solution we will decrease the load of the automation server and replace some software components with more reliable alternatives.
We still have to find the cause of the overload of the application server which caused the fatal reboot.

We apologize for any inconvenience. If you have any question or comment we'd be happy to hear from you. You can reach us by email at support@gocept.com.