awq-quantization

Name: awq-quantization
Author: davila7

autor: davila7

Kompresuj duże modele AI do 4-bitów z 3x przyspieszeniem i minimalną stratą dokładności

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo

Repozytorium GitHub

O skillu

AWQ to technika kwantyzacji wag oparta na wzorcach aktywacji neuronów, która zmniejsza rozmiar dużych modeli językowych (7B-70B parametrów) do 4 bitów. Osiągasz 3-krotne przyspieszenie inferecji przy zachowaniu dokładności poniżej 5%, szczególnie dla modeli instrukcyjnych i multimodalnych. Rozwiązanie zdobyło nagrodę Best Paper Award na konferencji MLSys 2024. AWQ działa najlepiej z kartami GPU Ampere i nowszymi (A100, H100, RTX 40xx) oraz integracją vLLM do serwowania w produkcji.

Jak używać

Zainstaluj bibliotekę autoawq za pomocą pip install autoawq. Jeśli chcesz zoptymalizowane jądra CUDA i Flash Attention, użyj pip install autoawq[kernels]. Upewnij się, że masz Python 3.8+, CUDA 11.8+ i GPU z compute capability 7.5 lub wyższym.
Pobierz wstępnie skwantyzowany model z repozytorium HuggingFace, na przykład TheBloke/Mistral-7B-Instruct-v0.2-AWQ, który jest już przygotowany w formacie AWQ.
Załaduj model w Pythonie, importując AutoAWQForCausalLM z biblioteki awq oraz AutoTokenizer z transformers. Użyj metody from_quantized() z parametrem fuse_layers=True, aby połączyć warstwy i zwiększyć wydajność.
Przygotuj tokenizer dla wybranego modelu, wczytując go za pomocą AutoTokenizer.from_pretrained() z tą samą nazwą modelu.
Uruchom inferecję, przekazując tekst wejściowy przez tokenizer, a następnie generując odpowiedź modelem. Skwantyzowany model będzie działać szybciej i zajmować mniej pamięci GPU niż wersja pełnej precyzji.
Jeśli pracujesz z vLLM do serwowania w produkcji, upewnij się, że Twoje GPU obsługuje jądra Marlin dla najlepszej wydajności.

Podobne skille

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

accessibility-compliance

autor: wshobson

Twoje interfejsy będą dostępne dla wszystkich — WCAG 2.2, czytniki ekranu, klawiatura

Bezpieczeństwo

2173

security-compliance

autor: davila7

Bezpieczeństwo i zgodność od podstaw — architektura obrony warstwowej, compliance i zarządzanie incydentami

Bezpieczeństwo

1172

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

payload

autor: payloadcms

Asystent Claude do projektów Payload CMS — debugowanie, konfiguracja i optymalizacja API

Bezpieczeństwo

50171

typescript-review

autor: metabase

Automatyczna kontrola kodu TypeScript i JavaScript zgodnie ze standardami projektu

Bezpieczeństwo

17133