Nov 20, 2020
Rückblick Ausfall Schullogin am 19.11.2020
Ablaufbericht
- 16:40 Schullogin (SL) DOWN Monitoring schlägt an - schullogin.de nicht erreichbar
- Maßnahmen werden ergriffen - Firewall ist nicht erreichbar, damit die verbundenen Systeme auch nicht
- Telefonkette greift, die Service Mitarbeiter werden informiert
- 16:43 SL UP Firewall ist wieder erreichbar, die Server laufen wieder
- 16:58 SL DOWN die Systeme sind nicht mehr erreichbar
- 17:26 SL UP die Systeme sind von außen alle erreichbar
- 17:42 SL UP Greenlight / Big Blue Button (nach Neustart) wieder einsatzbereit
Hintergrund
Schullogin wirs auf Servern des Sächsischen Bildungsservers (SBS) gehostet. Diese stehen in einem besonderen Bereich des ZIH der TU Dresden.
Das ZIH ist für das Netzwerkmanagement und die Wartung der Netzwerkkomponenten verantwortlich.
Wiederherstellung Schullogin.de
Zur Wieder-In-Betriebnahme von Schullogin.de warteten wir auf einen stabilen Zugang zur Firewall und haben dann den Greenlight-Server und damit die Videokonferenzsoftware BibBlueButton neu gestartet.
Veröffentlichungen
- https://twitter.com/schullogin/status/1329458670153904136?s=20
Analyse des Ausfalls
Problem: Schullogin war für ca. 1h instabil bzw. nicht verfügbar
- Warum war schullogin.de nicht erreichbar?
Das ZIH ist für das Netzwerkmanagement und die Wartung der Netzwerkkomponenten verantwortlich. Die geplante Wartung wurde über den Betriebsstatus der TUD kommuniziert, von unserem technischen Team aber nicht als kritisch erachtet, da bisherige Wartungen nur mit Ausfällen von 1-2 Minuten verbunden waren. - Warum war greenlight und damit BigBlueButton nicht erreichbar?
Greenlight liegt im gleichen Netz wie schullogin.de. - Warum war der Support in der Zeit nicht erreichbar?
Unser Ticketsystem wird über das Gitlab des SBS im gleichen Netzsegment betrieben. Durch den Ausfall hatten wir auch keinen Zugriff mehr auf das Ticketsystem.
Verbessungen
- Zur besseren Kommunikation werden wir unseren Twitterkanal auf der Startseite platzieren.
- Es wird geprüft status.schullogin.de und das Ticketsystem in ein anderes Netzsegment zu verlegen und damit auf anderer Infrastruktur auszuführen.
- Es wird geprüft Schullogin in verschiedene Netzsegmente zu verteilen, um die Ausfallsicherheit zu erhöhen.