Toolverse
Wszystkie skille

langchain-incident-runbook

autor: jeremylongshore

Procedury reagowania na incydenty w produkcji LangChain — diagnozuj awarie i przywracaj usługi

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Testowanie
Wyświetlenia
1

O skillu

Skill zawierający standardowe procedury operacyjne do obsługi incydentów produkcyjnych w aplikacjach LangChain. Pomaga diagnozować awarie dostawców LLM, skoki błędów, opóźnienia, problemy z pamięcią i przekroczenia kosztów. Zawiera klasyfikację poważności (SEV1–SEV4) z czasami odpowiedzi oraz konkretne kroki diagnostyczne do sprawdzenia statusu dostawców i testowania połączeń. Idealny dla zespołów DevOps i inżynierów obsługujących aplikacje oparte na LangChain w środowisku produkcyjnym.

Jak używać

  1. Zainstaluj skill w swoim środowisku Claude Code, Codex lub OpenClaw, upewniając się, że masz dostęp do narzędzi Read, Write, Edit, Bash (curl) i Grep.

  2. Wyzwól skill jedną z fraz: "langchain incident", "langchain outage", "langchain production issue", "langchain emergency", "langchain down" lub "LLM provider outage".

  3. Skill automatycznie klasyfikuje poważność incydentu na podstawie tabeli SEV1–SEV4 — od całkowitej awarii (SEV1, 15 minut odpowiedzi) do problemów o niskim wpływie (SEV4, 24 godziny).

  4. Wykonaj krok detektowania: skill sprawdzi strony statusu OpenAI i Anthropic za pomocą curl, aby potwierdzić, czy problem pochodzi od dostawcy.

  5. Przejdź do diagnostyki: skill uruchomi testy połączeń do ChatOpenAI i ChatAnthropic z timeoutami, aby zidentyfikować konkretne błędy i komunikaty.

  6. Na podstawie wyników diagnostyki postępuj zgodnie z procedurami zawartymi w runbooku — sprawdzaj logi, konfigurację API, limity szybkości lub problemy z zasobami, w zależności od typu incydentu.

Podobne skille