Open Source im professionellen Einsatz

Gitlab-Panne bestätigt Murphys Law

01.02.2017

Gitlab ist derzeit nicht erreichbar, weil ein Admin versehentlich Daten gelöscht hat und sich Murphys Law beim Versuch den Fehler zu beheben, voll bestätigt.

205

Die Panne bei Ǵitlab ist ein Lehrstück dafür, wie wieder einmal alles schiefgegangen ist, was schiefgehen konnte. Auslöser ist das Versehen eines Admins, der einen leeren Ordner löschen wollte, weil er ihn für PostgreSQL-Replikationsprobleme verantwortlich wähnte. Beim Löschen allerdings war der Admin -- schon das ist ein Klassiker -- auf einem anderen Rechner eingelogt, als er annahm. Dadurch löschte er auch keinen leeren Ordner, sondern die produktive Datenbank. Das wurde ihm nach wenigen Sekunden klar, aber da war es zu spät. Der größte Teil der Daten war weg.

Natürlich gab es gleich mehrere Backupmechanismen, aber die meisten hatten unbemerkt versagt. Das PostgreSQL-Backup war ausgefallen, weil es mit Binaries gestartet wurde, die nicht mehr kompatibel zur eingesetzten Version waren. Snapshots in Azure existierten, aber nur für die NFS-Server, nicht für die Datenbank. Die Backups auf der Grundlage von Amazons Speicherdienst S3 hatten ebenfalls nicht funktioniert. Ein Monitoring der Backups gab es nicht. Offensichtlich war in letzter Zeit auch das Recovery nicht getestet worden.

Die Wiederherstellung aus älteren LVM-Snapshots wird nun noch einige Zeit in Anspruch nehmen.
Immerhin kann man daraus lernen: Backups müssen unbedingt überwacht und das Recovery regelmäßig getestet werden.

Ähnliche Artikel

comments powered by Disqus

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.