27 lipca 2010

Walka z powodzią - ciągłość działania w praktyce

Onet opublikował na swoim blogu bardzo ciekawe studium przypadku. Tegoroczna powódź bardzo zagroziła ich głównej serwerowni - by zapewnić ciągłość działania onet.pl trzeba było uruchomić plany kryzysowe. Polecam zarówno lekturę całej historii, jak i przejrzenie galerii zdjęć - szczególnie tych ostatnich.

Marcin Kluczewski - Kierownik Zespołu Administratorów Drugiej Linii Wsparcia w onet.pl zwrócił też uwagę na jedną prawidłowość o której często się zapomina (moje pogrubienie):
"Następnym krokiem, jaki został podjęty w związku z zagrożeniem było przepięcie wszystkich usług i systemów działających produkcyjnie na infrastrukturę zapasową w innych centrach danych. Decyzja była trudna, ponieważ architektura części z przepinanych systemów powodowała, że przepięcie możliwe było „w jedną stronę” a w każdym razie powrót z danym systemem z powrotem do lokalizacji początkowej wiązałby się z dużym nakładem pracy."
No i oczywiście koniecznie trzeba podkreślić tę myśl:
"I na koniec jeszcze jedna ważna uwaga: choćbyśmy mieli najlepsze i najbardziej szczegółowe plany są one niewiele warte, jeżeli nie są przetestowane. Tylko regularne testy zapewnią nas, że plan jest realny i wykonalny, oraz że żadne zmiany, które wykonaliśmy w infrastrukturze nie spowodowały, że stał się on nieaktualny."