langchain-incident-runbook
Procedury reagowania na incydenty w produkcji LangChain — diagnozuj awarie i przywracaj usługi
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill zawierający standardowe procedury operacyjne do obsługi incydentów produkcyjnych w aplikacjach LangChain. Pomaga diagnozować awarie dostawców LLM, skoki błędów, opóźnienia, problemy z pamięcią i przekroczenia kosztów. Zawiera klasyfikację poważności (SEV1–SEV4) z czasami odpowiedzi oraz konkretne kroki diagnostyczne do sprawdzenia statusu dostawców i testowania połączeń. Idealny dla zespołów DevOps i inżynierów obsługujących aplikacje oparte na LangChain w środowisku produkcyjnym.
Jak używać
Zainstaluj skill w swoim środowisku Claude Code, Codex lub OpenClaw, upewniając się, że masz dostęp do narzędzi Read, Write, Edit, Bash (curl) i Grep.
Wyzwól skill jedną z fraz: "langchain incident", "langchain outage", "langchain production issue", "langchain emergency", "langchain down" lub "LLM provider outage".
Skill automatycznie klasyfikuje poważność incydentu na podstawie tabeli SEV1–SEV4 — od całkowitej awarii (SEV1, 15 minut odpowiedzi) do problemów o niskim wpływie (SEV4, 24 godziny).
Wykonaj krok detektowania: skill sprawdzi strony statusu OpenAI i Anthropic za pomocą curl, aby potwierdzić, czy problem pochodzi od dostawcy.
Przejdź do diagnostyki: skill uruchomi testy połączeń do ChatOpenAI i ChatAnthropic z timeoutami, aby zidentyfikować konkretne błędy i komunikaty.
Na podstawie wyników diagnostyki postępuj zgodnie z procedurami zawartymi w runbooku — sprawdzaj logi, konfigurację API, limity szybkości lub problemy z zasobami, w zależności od typu incydentu.