Montag 18. November 2019

Diverse Webhosting-Server: Eingeschränkte Erreichbarkeit

Analyse des Falls

Am Morgen des 18.11.2019 stellten wir auf mehreren Webhosting-Servern eine erhöhte Auslastung fest. Die erhöhte Auslastung führte dazu, dass Websites und E-Mails auf den betroffenen Servern für jeweils kurze Zeit nur schwer oder gar nicht erreichbar waren.

Die gründliche Analyse des Falls hat ergeben, dass ein Ausfall einer Festplatte im zentralen Datenspeicher vom darüberliegenden System (Raid-Controller) nicht korrekt erkannt wurde. Nach aktuellen Erkenntnissen ist dafür ein Bug in der Raid-Controller-Software verantwortlich. Der Neustart des betroffenen Knotenpunkts brachte im konkreten Fall Linderung, gleichzeitig verursacht der Neustart eines Knotenpunkts wiederum zusätzliche Last im gesamten zentralen Datenspeicher. Die entsprechend nötigen Umverteilungsarbeiten haben wir in den vergangenen Tagen zu Randzeiten vorgenommen. Gleichzeitig haben wir die Kapazität des Systems weiter ausgebaut, um Lastspitzen besser abfangen zu können.

Ausblick

Wir haben vor einigen Wochen mit Erweiterungsarbeiten begonnen, die die Leistung des zentralen Datenspeichers noch einmal erhöhen werden. Diese Arbeiten werden voraussichtlich im ersten Quartal 2020 abgeschlossen sein und haben sich aufgrund von Lieferschwierigkeiten der dazu benötigten Hardware verzögert.


Update 22.11.2019, 17:07 Uhr

Die Erreichbarkeit der betroffenen Server ist fortlaufend normal. In Ausnahmefällen können jeweils kurzzeitig noch Fehlermeldungen bei der Verbindung zu E-Mail-Konten auftreten.

Wir werden während dem Wochenende weitere Arbeiten vornehmen, die die Stabilität des Systems zusätzlich verbessern werden. Eine ausführliche Analyse des Falls werden wir nach Abschluss des Falls hier publizieren.


Update 21.11.2019, 14:06 Uhr

Die Erreichbarkeit der betroffenen Server ist weiterhin normal. Vereinzelt kann es noch zu Fehlermeldungen bei der Verbindung zu E-Mail-Konten kommen. In der kommenden Nacht werden wir erneut Arbeiten vornehmen, die die Stabilität des Systems weiter erhöhen.


Update 20.11.2019, 10:40 Uhr

Die Erreichbarkeit der betroffenen Server ist zurzeit wieder normal. Wir haben in der vergangenen Nacht weitere Arbeiten vorgenommen, die den erhöhten Zugriffszeiten und Fehlermeldungen entgegenwirken.

Wir beobachten die Situation weiterhin und werden in der kommenden Nacht weitere Arbeiten vornehmen, die die Stabilität zusätzlich erhöhen.


Update 19.11.2019, 11:40 Uhr

Wir beobachten weiterhin vereinzelt Fehlermeldungen und erhöhte Zugriffszeiten beim Zugriff auf E-Mail-Konten. Weitere Gegenmassnahmen werden zurzeit implementiert.


Update 18.11.2019, 17:11 Uhr

Die Lage hat sich wieder normalisiert. In Einzelfällen kann es noch zu erhöhten Zugriffszeiten und Fehlermeldungen beim Aufruf von Websites sowie beim Versand und Empfang von E-Mails kommen. Wir beobachten die Situation weiterhin genau.


Update 18.11.2019, 16:19 Uhr

Es kommt auf einzelnen Servern weiterhin zu Fehlermeldungen und längeren Zugriffszeiten beim Aufruf von Websites sowie beim Versand und Empfang von E-Mails.


Update 18.11.2019, 14:33 Uhr

Die Auslastung diverser Server ist erneut erhöht, was zu Fehlermeldungen beim Aufruf von Websites sowie beim Versand und Empfang von E-Mails führt. Wir haben weitere Gegenmassnahmen eingeleitet.


Update 18.11.2019, 14:13 Uhr

Die Erreichbarkeit der betroffenen Server hat sich weitestgehend normalisiert. In Ausnahmefällen kann es zu erhöhten Zugriffszeiten auf Websites und E-Mail-Konten kommen, bis die getroffenen Gegenmassnahmen vollständig abgeschlossen sind. Wir beobachten die Situation weiterhin.


Update 18.11.2019, 11:19 Uhr

Die umgesetzten Massnahmen zeigen Wirkung, die Auslastung der betroffenen Server sinkt.


Update 18.11.2019, 10:53 Uhr

Die eingeleiteten Massnahmen sind umgesetzt. Die Erreichbarkeit der betroffenen Server ist zurzeit weiterhin eingeschränkt. Es können Fehlermeldungen beim Aufruf von Websites sowie beim Versand und Empfang von E-Mails auftreten.


Update 18.11.2019, 09:38 Uhr

Die eingeschränkte Erreichbarkeit der Server wird durch eine erhöhte Last im zentralen Datenspeicher verursacht. Wir haben Massnahmen eingeleitet, um die Erreichbarkeit der Server zu normalisieren.


18.11.2019, 08:20 Uhr

Zurzeit sind diverse Server nur eingeschränkt erreichbar. Die Ursache wird untersucht.

Folgende Dienste sind betroffen: Webserver, E-Mailserver, Datenbank.