Chaos Kong – Netflix produziert Serverausfälle

Die Entwickler der Videoplattform Netflix haben vor einiger Zeit begonnen, eigene Server während der Produktionszeiten nach dem Zufallsprinzip abzuschießen. Die Erkenntnisse aus diesem extremen Stresstest der eigenen Backup- und Balancingmaßnahmen sind nun veröffentlicht.

War der Beginn der auf den ersten Blick selbstzerstörerischen Maßnahme mit dem Programm Chaos Monkey auf einzelne Server beschränkt, wurde mit Stufe zwei, dem Chaos Kong simuliert wie eine ganze Region der Amazon Web Services (AWS) ausfällt. und dies wieder aus heiterem Himmel, ohne Vorwarnung. Den seltenen Fall, dass die AWS einer Region ausfallen, hat es nun nach Angaben der Netflix-Entwickler in ihrem Blog tatsächlich gegeben. Und Netflix konnte diesen Ausfall, der zwischen sechs und acht Stunden dauerte, dank der Erkenntnisse aus dem Chaos-Kong-Programm ohne größere Probleme überstehen. Die Simulation habe die Administratioren dafür sensibilisiert erste Anzeichen eines drohenden Ausfalls sofort zur >Kenntnis zu nehmen und zu reagieren.

Aus den Erkenntnissen, die allerdings auf die hauseigene Architektur ausgelegt sind, hat Netflix nun eine Best-Praxis-Theorie entwickelt, die als Pinciples of Chaos Engineering in einem im Blog verlinkten Dokument zu finden sind.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben