tensorrt-llm

Name: tensorrt-llm
Author: davila7

autor: davila7

Przyspieszenie inference'u modeli LLM na GPU NVIDIA — do 100x szybciej niż PyTorch

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Data Science

Repozytorium GitHub

O skillu

TensorRT-LLM to biblioteka NVIDIA do optymalizacji inference'u dużych modeli językowych na procesorach graficznych A100 i H100. Osiągaj przepustowość ponad 24 000 tokenów na sekundę, minimalne opóźnienia dla aplikacji real-time oraz obsługę kwantyzacji (FP8, INT4). Idealne do wdrażania w produkcji, gdy potrzebujesz maksymalnej wydajności i skalowania na wielu GPU. Wybierz TensorRT-LLM zamiast vLLM, jeśli pracujesz wyłącznie z sprzętem NVIDIA i chcesz najwyższą prędkość.

Jak używać

Zainstaluj TensorRT-LLM — najłatwiej przez Docker (nvidia/tensorrt_llm:latest) lub pip (pip install tensorrt_llm==1.2.0rc3). Wymagane: CUDA 13.0.0, TensorRT 10.13.2, Python 3.10–3.12. 2. Zaimportuj bibliotekę i zainicjuj model: from tensorrt_llm import LLM, SamplingParams, następnie llm = LLM(model="meta-llama/Meta-Llama-3-8B"). 3. Skonfiguruj parametry próbkowania (sampling_params) — ustaw max_tokens, temperature i top_p zgodnie z potrzebami aplikacji. 4. Przygotuj listę promptów i wywołaj llm.generate(prompts, sampling_params), aby uzyskać odpowiedzi modelu. 5. Przetwórz wyniki — każdy output zawiera atrybut .text z wygenerowanym tekstem. 6. Do wdrożenia w produkcji użyj trtllm-serve do uruchomienia serwera inference'u, który obsługuje równoczesne żądania i skalowanie na wielu GPU.

Podobne skille

skill-installer

autor: openai

Instaluj umiejętności Codex z oficjalnej listy lub prywatnych repozytoriów GitHub.

Data Science

23118

a-stock-analysis

autor: openclaw

Analizuj notowania giełdowe w czasie rzeczywistym i śledź ruchy głównych graczy na rynku.

Data Science

48153

moon-dev-trading-agents

autor: moondevonyt

48+ agentów AI do autonomicznego handlu kryptowalutami na wielu giełdach

Data Science

102232

xlsx

autor: anthropics

Twórz, edytuj i analizuj arkusze kalkulacyjne z formułami i wykresami

Data Science

40128

prompt-optimizer

autor: solatis

Doskonał prompty dla agentów Claude – wzorce oparte na badaniach naukowych

Data Science

15109

excalidraw

autor: ryanquinn3

Deleguj przetwarzanie diagramów Excalidraw agentom, aby zaoszczędzić kontekst

Data Science

124204