Toolverse
Wszystkie skille

k8s-incident

autor: rohitg00

Szybka diagnostyka i reagowanie na incydenty Kubernetes — runbooki i narzędzia do naprawy awarii

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
3

O skillu

Skill do obsługi incydentów w Kubernetesie z gotowymi runbookami i narzędziami diagnostycznymi. Pomaga zidentyfikować i naprawić awarie podów, problemy z węzłami, niedostępność usług i zaburzenia płaszczyzny kontrolnej. Zawiera 15 narzędzi do szybkiej oceny stanu klastra, zbierania logów, analizy zdarzeń i wdrażania rollbacków. Idealne dla operatorów obsługujących produkcyjne klastry Kubernetes w sytuacjach awaryjnych.

Jak używać

  1. Zainstaluj skill k8s-incident w swoim środowisku Claude/Copilot, wskazując repozytorium rohitg00/kubectl-mcp-server.

  2. Gdy zauważysz problem w klastrze (awaria, pod nie uruchamia się, węzeł niedostępny), poproś Claude o "incident response" — skill automatycznie aktywuje się na słowa kluczowe takie jak "incident", "outage", "emergency" czy "down".

  3. Zacznij od szybkiej kontroli zdrowia klastra: skill uruchomi get_nodes() aby sprawdzić stan węzłów, get_pods(namespace="kube-system") aby zweryfikować płaszczyznę kontrolną, oraz get_events() aby zebrać zdarzenia przed wprowadzeniem zmian.

  4. W zależności od typu incydentu postępuj wg runbooka: dla podów w CrashLoopBackOff użyj get_pod_logs(previous=True) aby zobaczyć poprzednie logi, następnie describe_pod() dla szczegółów; dla węzła niedostępnego sprawdź describe_node(); dla niedostępnej usługi zweryfikuj get_endpoints() i get_network_policies().

  5. Zbieraj zdarzenia i logi zanim wprowadzisz zmiany — skill priorytetyzuje dokumentację przed akcjami naprawczymi, aby zachować ścieżkę audytu.

  6. Jeśli to bezpieczne, użyj rollback_deployment() aby przywrócić poprzednią wersję, lub postępuj wg konkretnego runbooka dla Twojego scenariusza (kontrolna płaszczyzna, zasoby, polityki sieciowe).

Podobne skille