awq-quantization
Kompresuj duże modele AI do 4-bitów z 3x przyspieszeniem i minimalną stratą dokładności
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
AWQ to technika kwantyzacji wag oparta na wzorcach aktywacji neuronów, która zmniejsza rozmiar dużych modeli językowych (7B-70B parametrów) do 4 bitów. Osiągasz 3-krotne przyspieszenie inferecji przy zachowaniu dokładności poniżej 5%, szczególnie dla modeli instrukcyjnych i multimodalnych. Rozwiązanie zdobyło nagrodę Best Paper Award na konferencji MLSys 2024. AWQ działa najlepiej z kartami GPU Ampere i nowszymi (A100, H100, RTX 40xx) oraz integracją vLLM do serwowania w produkcji.
Jak używać
- Zainstaluj bibliotekę autoawq za pomocą pip install autoawq. Jeśli chcesz zoptymalizowane jądra CUDA i Flash Attention, użyj pip install autoawq[kernels]. Upewnij się, że masz Python 3.8+, CUDA 11.8+ i GPU z compute capability 7.5 lub wyższym.
- Pobierz wstępnie skwantyzowany model z repozytorium HuggingFace, na przykład TheBloke/Mistral-7B-Instruct-v0.2-AWQ, który jest już przygotowany w formacie AWQ.
- Załaduj model w Pythonie, importując AutoAWQForCausalLM z biblioteki awq oraz AutoTokenizer z transformers. Użyj metody from_quantized() z parametrem fuse_layers=True, aby połączyć warstwy i zwiększyć wydajność.
- Przygotuj tokenizer dla wybranego modelu, wczytując go za pomocą AutoTokenizer.from_pretrained() z tą samą nazwą modelu.
- Uruchom inferecję, przekazując tekst wejściowy przez tokenizer, a następnie generując odpowiedź modelem. Skwantyzowany model będzie działać szybciej i zajmować mniej pamięci GPU niż wersja pełnej precyzji.
- Jeśli pracujesz z vLLM do serwowania w produkcji, upewnij się, że Twoje GPU obsługuje jądra Marlin dla najlepszej wydajności.
Podobne skille
windows-ui-automation
autor: martinholovsky
accessibility-compliance
autor: wshobson
security-compliance
autor: davila7
brand-voice
autor: anthropics
payload
autor: payloadcms
typescript-review
autor: metabase