Dienstag 02. Januar 2018

Diverse Server nicht erreichbar

Ursachenanalyse

Am 02.01.2018 um 14:00 Uhr nahmen wir routinemässige Updates auf Servern unseres zentralen Datenspeichers vor, die wie geplant und ohne Störung durchgeführt wurden. Um 14:13 Uhr meldeten unsere Überwachungsdienste Zugriffschwierigkeiten auf einen der aktualisierten Knoten-Server des Systems. Betroffene Kundenserver schalteten in einen Nur-Lesen-Modus und mussten deshalb neu gestartet werden. Um 16:16 Uhr konnten wir auf allen betroffenen Servern wieder den Normalzustand herstellen.

Wir gingen zu diesem Zeitpunkt von einem Problem in der Abfolge der gemachten Updates aus. Für die noch ausstehenden Updates passten wir deshalb die Routine an. Ab 22:00 Uhr starteten wir die weiteren Updates, die wiederum problemlos durchgeführt werden konnten. Um 23:30 Uhr sahen wir erneut das Phänomen, dass einzelne Server im Nur-Lesen-Modus funktionierten. Die betroffenen Server mussten neu gestartet werden.

Um weitere Ausfälle auszuschliessen, brachen wir die noch zu erledigenden Updates ab und setzten uns mit dem Hersteller des Systems in Verbindung. Eine erste Analyse durch den Hersteller brachte ebenfalls keine Hinweise auf die Ursache des Problems. Wir forschten selbst weiter und fanden die Lösung in der Verteilung der Daten auf dem zentralen Datenspeicher. Grund war offenbar ein Bug in der Software, die für die Verteilung der Daten zuständig ist.

Ausblick

Der Hersteller hat die Dringlichkeit des Bugs erhöht, eine definitive Lösung ist damit in Reichweite. Um in der Zwischenzeit den einwandfreien Betrieb des System gewährleisten zu können, haben wir die Verteilung der Daten auf dem zentralen Datenspeicher manuell angepasst.


Update 02.01.2018, 09:16 Uhr

Um 01:48 Uhr mussten einige Server neugestartet werden, um Nachwehen des Problems entgegenzutreten. Wir beobachten seither die Lage und konnten keine weiteren Probleme feststellen.


Update 02.01.2018, 23:58 Uhr

Sämtliche betroffenen Server sind wieder normal erreichbar. Wir beobachten die Situation weiterhin.


Update 02.01.2018, 23:32 Uhr

Diverse unserer Server sind aktuell nur eingeschränkt erreichbar, was dazu führen kann, dass Ihre Website und E-Mails nur eingeschränkt funktionieren. Wir arbeiten an der Wiederherstellung des Normalbetriebs.


Update 02.01.2018, 16:25 Uhr

Sämtliche betroffenen Server sind wieder normal erreichbar. Wir beobachten die Situation jedoch weiterhin.

Sollten Sie Probleme mit Ihrer Website feststellen, stehen wir Ihnen über die verschiedenen Support-Kanäle gerne zur Seite: https://www.cyon.ch/support/

Ein ausführliche Analyse der Ereignisse folgt in den nächsten Tagen.


Update 02.01.2018, 15:53 Uhr

Ein Grossteil der betroffenen Server ist wieder normal erreichbar. Wir arbeiten weiterhin an der Wiederherstellung des Normalbetriebs für die noch verbleibenden Server.


Update 02.01.2018, 14:52 Uhr

Die betroffenen Server erholen sich schrittweise wieder. Wir untersuchen weiterhin, weshalb der ausgefallene Knoten zu Ausfällen geführt hat.


Update 02.01.2018, 14:36 Uhr

Die Störung wird durch einen ausgefallenen Knoten in unserem zentralen Datenspeicher (Storage) verursacht. Gegenmassnahmen sind eingeleitet.


Zurzeit sind diverse Server nur eingeschränkt erreichbar. Wir untersuchen momentan den Grund für diese Störung.