sglang
Szybkie generowanie strukturalne dla dużych modeli językowych z buforowaniem prefiksów
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
SGLang to framework do serwowania modeli językowych z automatycznym buforowaniem prefiksów RadixAttention. Użyj go, gdy potrzebujesz wyjścia w formacie JSON lub regex, dekodowania z ograniczeniami, przepływów pracy dla agentów z wywołaniami funkcji, lub gdy chcesz 5× szybszą inferencję niż vLLM dzięki współdzieleniu prefiksów. Obsługuje 300 000+ GPU w xAI, AMD, NVIDIA i LinkedIn.
Jak używać
Zainstaluj SGLang za pomocą pip: uruchom
pip install "sglang[all]". Jeśli chcesz szybszą inferencję z FlashInfer, zamiast tego użyjpip install sglang[all] flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/(wymaga CUDA 11.8 lub 12.1).Uruchom serwer SGLang z wybranym modelem. Podstawowe polecenie to
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --port 30000. Buforowanie prefiksów RadixAttention jest domyślnie włączone, co automatycznie przyspiesza powtarzające się części zapytań.Połącz się z serwerem z poziomu aplikacji klienta, wysyłając żądania HTTP na port 30000. SGLang obsługuje strukturalne wyjścia JSON, wyrażenia regularne i gramatyki, więc możesz określić format odpowiedzi w swoim zapytaniu.
Dla przepływów pracy agentów z wieloma turami rozmowy lub powtarzającymi się systemowymi instrukcjami skorzystaj z prefiksów – SGLang automatycznie będzie je buforować, zmniejszając czas przetwarzania kolejnych żądań.
Monitoruj wydajność: SGLang jest szczególnie efektywny dla zadań wymagających strukturalnych wyjść (JSON, dekodowanie z ograniczeniami) i agentów z funkcjami, gdzie buforowanie prefiksów daje największe przyspieszenie.