Toolverse
Wszystkie skille

incident-responder

autor: sickn33

Specjalista SRE do błyskawicznego reagowania na incydenty produkcyjne i zarządzania awariami

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
sickn33
Kategoria
DevOps

O skillu

Umiejętności eksperta SRE do szybkiego rozwiązywania problemów w systemach produkcyjnych. Obejmuje zarządzanie incydentami, obserwowalność nowoczesnych systemów, analizę błędów i strategie komunikacji podczas awarii. Zawiera procedury oceny wpływu, ustanawiania dowodzenia incydentami, koordynacji zespołu oraz post-mortem bez obwiniania. Aktywuj natychmiast gdy masz krytyczną awarię lub potrzebujesz wsparcia w praktykach SRE.

Jak używać

  1. Aktywuj umiejętność incident-responder w swoim agencie lub narzędziu obsługującym MCP skills, gdy pojawi się incydent produkcyjny wymagający szybkiej reakcji.

  2. W pierwszych 5 minut określ trzy kluczowe aspekty: liczbę użytkowników dotkniętych awarią i ich rozmieszczenie geograficzne, wpływ na przychód i naruszenia SLA, oraz zasięg problemu w systemie (które usługi są dotknięte i jakie są zależności).

  3. Ustanów strukturę dowodzenia incydentami: wyznacz jedną osobę jako Incident Commandera (główny decydent koordynujący odpowiedź), osobę odpowiedzialną za komunikację ze stakeholderami i klientami, oraz lidera technicznego koordynującego śledztwo.

  4. Skorzystaj z umiejętności do uzyskania listy kontrolnej najlepszych praktyk, procedur komunikacji z klientami oraz wytycznych dotyczących budżetu błędów i wzorców niezawodności systemów.

  5. Po ustabilizowaniu systemu przeprowadź post-mortem bez obwiniania, wykorzystując wytyczne umiejętności do dokumentacji przyczyn pierwotnych, lekcji wyciągniętych i działań naprawczych.

  6. W razie potrzeby szczegółowych przykładów implementacji otwórz plik resources/implementation-playbook.md dostępny w repozytorium umiejętności.

Podobne skille