hqq-quantization
Kwantyzacja modeli AI bez danych kalibracyjnych – szybko i efektywnie
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
HQQ to narzędzie do kwantyzacji dużych modeli językowych na precyzję 8/4/3/2/1-bit bez potrzeby zbiorów danych kalibracyjnych. Zamiast czekać godziny na GPTQ czy AWQ, kwantyzujesz model w minuty. Obsługuje wiele backendów (PyTorch, TorchAO, Marlin, BitBlas) i integruje się natywnie z HuggingFace Transformers oraz vLLM. Idealne do szybkich eksperymentów, ekstremalnej kompresji modeli i fine-tuningu z LoRA na skwantyzowanych wagach.
Jak używać
Zainstaluj HQQ za pomocą pip install hqq. Jeśli chcesz konkretny backend (np. PyTorch), użyj pip install hqq[torch], pip install hqq[torchao], pip install hqq[bitblas] lub pip install hqq[marlin].
Zaimportuj niezbędne moduły: from hqq.core.quantize import BaseQuantizeConfig, HQQLinear oraz torch.nn as nn.
Zdefiniuj konfigurację kwantyzacji, określając precyzję (8, 4, 3, 2 lub 1 bit) i rozmiar grupy wag. Konfiguracja decyduje o kompromisie między rozmiarem modelu a jakością wyjścia.
Zastosuj HQQLinear do warstw modelu, które chcesz skwantyzować. Proces przebiega bez kalibracji – wystarczy model i konfiguracja.
Jeśli planujesz fine-tuning, użyj LoRA lub PEFT na skwantyzowanych wagach. HQQ jest w pełni kompatybilny z tymi metodami.
Wdrażaj model z vLLM lub HuggingFace Transformers – oba frameworki natywnie wspierają HQQ i automatycznie wykorzystują zoptymalizowany backend do szybszej inferencji.