Toolverse
Wszystkie skille

awq-quantization

autor: davila7

Kompresuj duże modele AI do 4-bitów z 3x przyspieszeniem i minimalną stratą dokładności

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

O skillu

AWQ to technika kwantyzacji wag oparta na wzorcach aktywacji neuronów, która zmniejsza rozmiar dużych modeli językowych (7B-70B parametrów) do 4 bitów. Osiągasz 3-krotne przyspieszenie inferecji przy zachowaniu dokładności poniżej 5%, szczególnie dla modeli instrukcyjnych i multimodalnych. Rozwiązanie zdobyło nagrodę Best Paper Award na konferencji MLSys 2024. AWQ działa najlepiej z kartami GPU Ampere i nowszymi (A100, H100, RTX 40xx) oraz integracją vLLM do serwowania w produkcji.

Jak używać

  1. Zainstaluj bibliotekę autoawq za pomocą pip install autoawq. Jeśli chcesz zoptymalizowane jądra CUDA i Flash Attention, użyj pip install autoawq[kernels]. Upewnij się, że masz Python 3.8+, CUDA 11.8+ i GPU z compute capability 7.5 lub wyższym.
  2. Pobierz wstępnie skwantyzowany model z repozytorium HuggingFace, na przykład TheBloke/Mistral-7B-Instruct-v0.2-AWQ, który jest już przygotowany w formacie AWQ.
  3. Załaduj model w Pythonie, importując AutoAWQForCausalLM z biblioteki awq oraz AutoTokenizer z transformers. Użyj metody from_quantized() z parametrem fuse_layers=True, aby połączyć warstwy i zwiększyć wydajność.
  4. Przygotuj tokenizer dla wybranego modelu, wczytując go za pomocą AutoTokenizer.from_pretrained() z tą samą nazwą modelu.
  5. Uruchom inferecję, przekazując tekst wejściowy przez tokenizer, a następnie generując odpowiedź modelem. Skwantyzowany model będzie działać szybciej i zajmować mniej pamięci GPU niż wersja pełnej precyzji.
  6. Jeśli pracujesz z vLLM do serwowania w produkcji, upewnij się, że Twoje GPU obsługuje jądra Marlin dla najlepszej wydajności.

Podobne skille