sglang

Name: sglang
Author: davila7

autor: davila7

Szybkie generowanie strukturalne dla dużych modeli językowych z buforowaniem prefiksów

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 20

Repozytorium GitHub

O skillu

SGLang to framework do serwowania modeli językowych z automatycznym buforowaniem prefiksów RadixAttention. Użyj go, gdy potrzebujesz wyjścia w formacie JSON lub regex, dekodowania z ograniczeniami, przepływów pracy dla agentów z wywołaniami funkcji, lub gdy chcesz 5× szybszą inferencję niż vLLM dzięki współdzieleniu prefiksów. Obsługuje 300 000+ GPU w xAI, AMD, NVIDIA i LinkedIn.

Jak używać

Zainstaluj SGLang za pomocą pip: uruchom pip install "sglang[all]". Jeśli chcesz szybszą inferencję z FlashInfer, zamiast tego użyj pip install sglang[all] flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/ (wymaga CUDA 11.8 lub 12.1).
Uruchom serwer SGLang z wybranym modelem. Podstawowe polecenie to python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --port 30000. Buforowanie prefiksów RadixAttention jest domyślnie włączone, co automatycznie przyspiesza powtarzające się części zapytań.
Połącz się z serwerem z poziomu aplikacji klienta, wysyłając żądania HTTP na port 30000. SGLang obsługuje strukturalne wyjścia JSON, wyrażenia regularne i gramatyki, więc możesz określić format odpowiedzi w swoim zapytaniu.
Dla przepływów pracy agentów z wieloma turami rozmowy lub powtarzającymi się systemowymi instrukcjami skorzystaj z prefiksów – SGLang automatycznie będzie je buforować, zmniejszając czas przetwarzania kolejnych żądań.
Monitoruj wydajność: SGLang jest szczególnie efektywny dla zadań wymagających strukturalnych wyjść (JSON, dekodowanie z ograniczeniami) i agentów z funkcjami, gdzie buforowanie prefiksów daje największe przyspieszenie.

Podobne skille

ui-audit

autor: openclaw

Automatyczna ocena interfejsów według sprawdzonych zasad UX — szybko i świadomie.

Bezpieczeństwo

1223

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

senior-security

autor: davila7

Kompleksny zestaw narzędzi do testowania bezpieczeństwa, modelowania zagrożeń i audytów zgodności

Bezpieczeństwo

2482

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678