Toolverse
Wszystkie skille

tensorrt-llm

autor: davila7

Przyspieszenie inference'u modeli LLM na GPU NVIDIA — do 100x szybciej niż PyTorch

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
Data Science

O skillu

TensorRT-LLM to biblioteka NVIDIA do optymalizacji inference'u dużych modeli językowych na procesorach graficznych A100 i H100. Osiągaj przepustowość ponad 24 000 tokenów na sekundę, minimalne opóźnienia dla aplikacji real-time oraz obsługę kwantyzacji (FP8, INT4). Idealne do wdrażania w produkcji, gdy potrzebujesz maksymalnej wydajności i skalowania na wielu GPU. Wybierz TensorRT-LLM zamiast vLLM, jeśli pracujesz wyłącznie z sprzętem NVIDIA i chcesz najwyższą prędkość.

Jak używać

  1. Zainstaluj TensorRT-LLM — najłatwiej przez Docker (nvidia/tensorrt_llm:latest) lub pip (pip install tensorrt_llm==1.2.0rc3). Wymagane: CUDA 13.0.0, TensorRT 10.13.2, Python 3.10–3.12. 2. Zaimportuj bibliotekę i zainicjuj model: from tensorrt_llm import LLM, SamplingParams, następnie llm = LLM(model="meta-llama/Meta-Llama-3-8B"). 3. Skonfiguruj parametry próbkowania (sampling_params) — ustaw max_tokens, temperature i top_p zgodnie z potrzebami aplikacji. 4. Przygotuj listę promptów i wywołaj llm.generate(prompts, sampling_params), aby uzyskać odpowiedzi modelu. 5. Przetwórz wyniki — każdy output zawiera atrybut .text z wygenerowanym tekstem. 6. Do wdrożenia w produkcji użyj trtllm-serve do uruchomienia serwera inference'u, który obsługuje równoczesne żądania i skalowanie na wielu GPU.

Podobne skille