Toolverse
Wszystkie skille

sglang

autor: davila7

Szybkie generowanie strukturalne dla dużych modeli językowych z buforowaniem prefiksów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
20

O skillu

SGLang to framework do serwowania modeli językowych z automatycznym buforowaniem prefiksów RadixAttention. Użyj go, gdy potrzebujesz wyjścia w formacie JSON lub regex, dekodowania z ograniczeniami, przepływów pracy dla agentów z wywołaniami funkcji, lub gdy chcesz 5× szybszą inferencję niż vLLM dzięki współdzieleniu prefiksów. Obsługuje 300 000+ GPU w xAI, AMD, NVIDIA i LinkedIn.

Jak używać

  1. Zainstaluj SGLang za pomocą pip: uruchom pip install "sglang[all]". Jeśli chcesz szybszą inferencję z FlashInfer, zamiast tego użyj pip install sglang[all] flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/ (wymaga CUDA 11.8 lub 12.1).

  2. Uruchom serwer SGLang z wybranym modelem. Podstawowe polecenie to python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --port 30000. Buforowanie prefiksów RadixAttention jest domyślnie włączone, co automatycznie przyspiesza powtarzające się części zapytań.

  3. Połącz się z serwerem z poziomu aplikacji klienta, wysyłając żądania HTTP na port 30000. SGLang obsługuje strukturalne wyjścia JSON, wyrażenia regularne i gramatyki, więc możesz określić format odpowiedzi w swoim zapytaniu.

  4. Dla przepływów pracy agentów z wieloma turami rozmowy lub powtarzającymi się systemowymi instrukcjami skorzystaj z prefiksów – SGLang automatycznie będzie je buforować, zmniejszając czas przetwarzania kolejnych żądań.

  5. Monitoruj wydajność: SGLang jest szczególnie efektywny dla zadań wymagających strukturalnych wyjść (JSON, dekodowanie z ograniczeniami) i agentów z funkcjami, gdzie buforowanie prefiksów daje największe przyspieszenie.

Podobne skille