serving-llms-vllm
Serwuj modele językowe z 24x wyższą przepustowością dzięki PagedAttention i ciągłemu batching'owi.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia wdrażanie produkcyjnych API dla dużych modeli językowych z optymalizacją latencji i przepustowości. vLLM wykorzystuje PagedAttention (cache KV w blokach) oraz ciągłe batching'owanie, aby mieszać żądania prefill i decode. Obsługuje punkty końcowe kompatybilne z OpenAI, kwantyzację (GPTQ/AWQ/FP8) i paralelizm tensorów. Idealny do wdrażania na GPU z ograniczoną pamięcią.
Jak używać
Zainstaluj vLLM poleceniem
pip install vllm. Upewnij się, że masz zainstalowane zależności: torch i transformers.Aby uruchomić serwer kompatybilny z API OpenAI, wykonaj
vllm serve meta-llama/Llama-3-8B-Instruct. Serwer będzie dostępny nahttp://localhost:8000/v1.Wysyłaj zapytania do serwera za pomocą OpenAI SDK. Utwórz klienta z adresem
http://localhost:8000/v1i kluczem API ustawionym na 'EMPTY', następnie użyjclient.chat.completions.create()z nazwą modelu i wiadomościami.Dla wnioskowania offline bez serwera zaimportuj
LLMiSamplingParamsz vllm, załaduj model, ustaw parametry (temperatura, max_tokens), a następnie wywołajllm.generate()z listą promptów.W produkcji skonfiguruj ustawienia serwera w zależności od rozmiaru modelu (np. dla modeli 7B-13B na jednym GPU dostosuj parametry pamięci i batching'u).
Monitoruj metryki wydajności i przepustowości, aby upewnić się, że osiągasz oczekiwaną optymalizację latencji i wykorzystania zasobów GPU.