Toolverse
Wszystkie skille

serving-llms-vllm

autor: davila7

Serwuj modele językowe z 24x wyższą przepustowością dzięki PagedAttention i ciągłemu batching'owi.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
6

O skillu

Umożliwia wdrażanie produkcyjnych API dla dużych modeli językowych z optymalizacją latencji i przepustowości. vLLM wykorzystuje PagedAttention (cache KV w blokach) oraz ciągłe batching'owanie, aby mieszać żądania prefill i decode. Obsługuje punkty końcowe kompatybilne z OpenAI, kwantyzację (GPTQ/AWQ/FP8) i paralelizm tensorów. Idealny do wdrażania na GPU z ograniczoną pamięcią.

Jak używać

  1. Zainstaluj vLLM poleceniem pip install vllm. Upewnij się, że masz zainstalowane zależności: torch i transformers.

  2. Aby uruchomić serwer kompatybilny z API OpenAI, wykonaj vllm serve meta-llama/Llama-3-8B-Instruct. Serwer będzie dostępny na http://localhost:8000/v1.

  3. Wysyłaj zapytania do serwera za pomocą OpenAI SDK. Utwórz klienta z adresem http://localhost:8000/v1 i kluczem API ustawionym na 'EMPTY', następnie użyj client.chat.completions.create() z nazwą modelu i wiadomościami.

  4. Dla wnioskowania offline bez serwera zaimportuj LLM i SamplingParams z vllm, załaduj model, ustaw parametry (temperatura, max_tokens), a następnie wywołaj llm.generate() z listą promptów.

  5. W produkcji skonfiguruj ustawienia serwera w zależności od rozmiaru modelu (np. dla modeli 7B-13B na jednym GPU dostosuj parametry pamięci i batching'u).

  6. Monitoruj metryki wydajności i przepustowości, aby upewnić się, że osiągasz oczekiwaną optymalizację latencji i wykorzystania zasobów GPU.

Podobne skille