Toolverse
Wszystkie skille

runtime-skills

autor: llama-farm

Przewodnik best practices do PyTorch, Transformers i FastAPI dla lokalnych modeli ML

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Data Science
Wyświetlenia
1

O skillu

Runtime-skills to zbiór checklist i wzorców kodowania dla Universal Runtime — lokalnego serwera wnioskowania LlamaFarm. Obejmuje zarządzanie urządzeniami (GPU/CPU), optymalizację pamięci, ładowanie modeli Transformers oraz tuning wydajności FastAPI. Skill wspiera tekst generatywny, embeddingi, klasyfikację, NER, reranking i OCR. Rozszerza wspólne praktyki Pythona o specyficzne dla runtime'u wytyczne dla PyTorch, asynchroniczności i bezpieczeństwa.

Jak używać

  1. Zainstaluj Universal Runtime z repozytorium LlamaFarm — wymaga Python 3.11+, PyTorch, Transformers, FastAPI i llama-cpp-python. Skill znajduje się w katalogu .claude/skills/runtime-skills.

  2. Zapoznaj się z checklist'ami w kolejności priorytetów: najpierw przejrzyj shared Python skills (error-handling i security mają priorytet wysoki), następnie runtime-specific pliki: pytorch.md dla zarządzania urządzeniami i czyszczenia pamięci, transformers.md dla ładowania modeli i tokenizacji, fastapi.md dla designu API i streamingu.

  3. Podczas implementacji serwera wnioskowania stosuj wzorce z pytorch.md — zwróć uwagę na device management (GPU vs CPU), dtype consistency i memory cleanup po inferencji.

  4. Dla modeli Transformers (GPT, Llama, Mistral, BERT itp.) użyj checklist z transformers.md — obejmuje prawidłowe ładowanie, tokenizację i konfigurację inferencji.

  5. Przy budowaniu FastAPI endpoints'ów (text generation, embeddings, classification) stosuj wytyczne z fastapi.md — zwłaszcza dla streaming'u i lifecycle management.

  6. Zoptymalizuj wydajność poprzez batching, caching i inne techniki opisane w performance.md — skill zawiera konkretne wzorce dla każdej strategii.

Podobne skille