incident-responder
Specjalista SRE do błyskawicznego reagowania na incydenty produkcyjne i zarządzania awariami
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umiejętności eksperta SRE do szybkiego rozwiązywania problemów w systemach produkcyjnych. Obejmuje zarządzanie incydentami, obserwowalność nowoczesnych systemów, analizę błędów i strategie komunikacji podczas awarii. Zawiera procedury oceny wpływu, ustanawiania dowodzenia incydentami, koordynacji zespołu oraz post-mortem bez obwiniania. Aktywuj natychmiast gdy masz krytyczną awarię lub potrzebujesz wsparcia w praktykach SRE.
Jak używać
Aktywuj umiejętność incident-responder w swoim agencie lub narzędziu obsługującym MCP skills, gdy pojawi się incydent produkcyjny wymagający szybkiej reakcji.
W pierwszych 5 minut określ trzy kluczowe aspekty: liczbę użytkowników dotkniętych awarią i ich rozmieszczenie geograficzne, wpływ na przychód i naruszenia SLA, oraz zasięg problemu w systemie (które usługi są dotknięte i jakie są zależności).
Ustanów strukturę dowodzenia incydentami: wyznacz jedną osobę jako Incident Commandera (główny decydent koordynujący odpowiedź), osobę odpowiedzialną za komunikację ze stakeholderami i klientami, oraz lidera technicznego koordynującego śledztwo.
Skorzystaj z umiejętności do uzyskania listy kontrolnej najlepszych praktyk, procedur komunikacji z klientami oraz wytycznych dotyczących budżetu błędów i wzorców niezawodności systemów.
Po ustabilizowaniu systemu przeprowadź post-mortem bez obwiniania, wykorzystując wytyczne umiejętności do dokumentacji przyczyn pierwotnych, lekcji wyciągniętych i działań naprawczych.
W razie potrzeby szczegółowych przykładów implementacji otwórz plik resources/implementation-playbook.md dostępny w repozytorium umiejętności.