serving-llms-vllm

Name: serving-llms-vllm
Author: davila7

autor: davila7

Serwuj modele językowe z 24x wyższą przepustowością dzięki PagedAttention i ciągłemu batching'owi.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 6

Repozytorium GitHub

O skillu

Umożliwia wdrażanie produkcyjnych API dla dużych modeli językowych z optymalizacją latencji i przepustowości. vLLM wykorzystuje PagedAttention (cache KV w blokach) oraz ciągłe batching'owanie, aby mieszać żądania prefill i decode. Obsługuje punkty końcowe kompatybilne z OpenAI, kwantyzację (GPTQ/AWQ/FP8) i paralelizm tensorów. Idealny do wdrażania na GPU z ograniczoną pamięcią.

Jak używać

Zainstaluj vLLM poleceniem pip install vllm. Upewnij się, że masz zainstalowane zależności: torch i transformers.
Aby uruchomić serwer kompatybilny z API OpenAI, wykonaj vllm serve meta-llama/Llama-3-8B-Instruct. Serwer będzie dostępny na http://localhost:8000/v1.
Wysyłaj zapytania do serwera za pomocą OpenAI SDK. Utwórz klienta z adresem http://localhost:8000/v1 i kluczem API ustawionym na 'EMPTY', następnie użyj client.chat.completions.create() z nazwą modelu i wiadomościami.
Dla wnioskowania offline bez serwera zaimportuj LLM i SamplingParams z vllm, załaduj model, ustaw parametry (temperatura, max_tokens), a następnie wywołaj llm.generate() z listą promptów.
W produkcji skonfiguruj ustawienia serwera w zależności od rozmiaru modelu (np. dla modeli 7B-13B na jednym GPU dostosuj parametry pamięci i batching'u).
Monitoruj metryki wydajności i przepustowości, aby upewnić się, że osiągasz oczekiwaną optymalizację latencji i wykorzystania zasobów GPU.

Podobne skille

manim

autor: davila7

Twórz animacje matematyczne w Pythonie – framework do edukacyjnych filmów z równaniami i wykresami

Bezpieczeństwo

1588

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Bezpieczeństwo

11252

google-analytics

autor: davila7

Analizuj dane Google Analytics i odkrywaj możliwości wzrostu Twojej strony

Bezpieczeństwo

1260

content-creator

autor: alirezarezvani

Twórz treści SEO z konsystentnym głosem marki – analizator, optymalizator i szablony w jednym

Bezpieczeństwo

25124