Toolverse
Wszystkie skille

groq-performance-tuning

autor: jeremylongshore

Przyspiesz API Groq poprzez cache'owanie, batching i równoległe żądania

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
11

O skillu

Skill optymalizacji wydajności Groq pomaga w pełni wykorzystać ultraszybką prędkość inferecji LPU. Groq dostarcza przepustowość 280–560 tokenów/s i opóźnienie poniżej 200 ms, ale rzeczywista wydajność zależy od wyboru modelu, rozmiaru promptu, cache'owania i paralelizacji po stronie klienta. Skill zawiera benchmarki dla czterech modeli, mapy szybkości dla różnych przypadków użycia oraz konkretne przykłady kodu do implementacji streaming'u i równoległych żądań.

Jak używać

  1. Zainstaluj skill groq-performance-tuning w swoim środowisku Claude Code, Codex lub OpenClaw. Skill jest kompatybilny z wersjami obsługującymi narzędzia Read, Write i Edit.

  2. Wyzwól skill frazami związanymi z wydajnością Groq, takimi jak "optymalizuj groq", "groq performance", "groq latency", "groq caching", "groq slow" lub "groq speed".

  3. Wybierz odpowiedni model na podstawie wymagań opóźnienia. Dla ścieżek krytycznych pod względem latencji użyj llama-3.1-8b-instant (około 50 ms TTFT), dla ścieżek wymagających wyższej jakości użyj llama-3.3-70b-versatile (około 150 ms TTFT), lub rozważ llama-3.3-70b-specdec dla szybszej przepustowości przy zachowaniu jakości.

  4. Zaimplementuj cache'owanie promptów i wyników, aby uniknąć powtarzających się obliczeń. Skill zawiera przykłady kodu TypeScript pokazujące, jak strukturyzować żądania dla efektywnego cache'owania.

  5. Włącz streaming dla długich odpowiedzi, aby zmniejszyć opóźnienie postrzegane przez użytkownika. Skill dokumentuje, jak konfigurować streaming w SDK Groq.

  6. Rozważ paralelizację żądań, gdy przetwarzasz wiele promptów jednocześnie. Skill zawiera przykłady równoległych żądań, które maksymalizują przepustowość dostępną w Groq.

Podobne skille