runtime-skills
Przewodnik best practices do PyTorch, Transformers i FastAPI dla lokalnych modeli ML
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Runtime-skills to zbiór checklist i wzorców kodowania dla Universal Runtime — lokalnego serwera wnioskowania LlamaFarm. Obejmuje zarządzanie urządzeniami (GPU/CPU), optymalizację pamięci, ładowanie modeli Transformers oraz tuning wydajności FastAPI. Skill wspiera tekst generatywny, embeddingi, klasyfikację, NER, reranking i OCR. Rozszerza wspólne praktyki Pythona o specyficzne dla runtime'u wytyczne dla PyTorch, asynchroniczności i bezpieczeństwa.
Jak używać
Zainstaluj Universal Runtime z repozytorium LlamaFarm — wymaga Python 3.11+, PyTorch, Transformers, FastAPI i llama-cpp-python. Skill znajduje się w katalogu
.claude/skills/runtime-skills.Zapoznaj się z checklist'ami w kolejności priorytetów: najpierw przejrzyj shared Python skills (error-handling i security mają priorytet wysoki), następnie runtime-specific pliki: pytorch.md dla zarządzania urządzeniami i czyszczenia pamięci, transformers.md dla ładowania modeli i tokenizacji, fastapi.md dla designu API i streamingu.
Podczas implementacji serwera wnioskowania stosuj wzorce z pytorch.md — zwróć uwagę na device management (GPU vs CPU), dtype consistency i memory cleanup po inferencji.
Dla modeli Transformers (GPT, Llama, Mistral, BERT itp.) użyj checklist z transformers.md — obejmuje prawidłowe ładowanie, tokenizację i konfigurację inferencji.
Przy budowaniu FastAPI endpoints'ów (text generation, embeddings, classification) stosuj wytyczne z fastapi.md — zwłaszcza dla streaming'u i lifecycle management.
Zoptymalizuj wydajność poprzez batching, caching i inne techniki opisane w performance.md — skill zawiera konkretne wzorce dla każdej strategii.