gptq
Skompresuj duże modele do 4-bitów i uruchom je na zwykłych kartach graficznych bez utraty dokładności.
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
GPTQ to technika kwantyzacji post-treningowej, która zmniejsza rozmiar dużych modeli językowych (70B, 405B) do 4-bitów z minimalną stratą dokładności. Zmniejsza zużycie pamięci GPU czterokrotnie, przyspieszając jednocześnie wnioskowanie 3–4 razy w stosunku do FP16. Idealna do wdrażania na konsumenckich kartach graficznych (RTX 4090, 3090). Integruje się z transformers i PEFT do dostrajania QLoRA.
Jak używać
Zainstaluj AutoGPTQ wraz z zależnościami: uruchom
pip install auto-gptq transformers accelerate. Na Linuksie możesz dodać obsługę Tritona dla szybszych obliczeń:pip install auto-gptq[triton].Załaduj wstępnie skwantyzowany model z HuggingFace Hub. Użyj klasy
AutoGPTQForCausalLMi metodyfrom_quantized(), podając nazwę modelu (np. "TheBloke/Llama-2-7B-Chat-GPTQ") oraz urządzenie docelowe (device="cuda:0").Załaduj tokenizer dla wybranego modelu za pomocą
AutoTokenizer.from_pretrained(), używając tej samej nazwy modelu.Przygotuj tekst wejściowy i zakoduj go tokenizerem, a następnie przekaż do modelu w celu generowania odpowiedzi. Model zwróci logity, które możesz zdekodować z powrotem na tekst.
Jeśli chcesz dostrajać model, połącz GPTQ z PEFT i QLoRA — biblioteka
peftpozwala na efektywne dostrajanie bez znacznego wzrostu zużycia pamięci.Wybierz między GPTQ a alternatywami: jeśli potrzebujesz lepszej dokładności (poniżej 1% straty), rozważ AWQ; jeśli wystarczy 8-bitowa kwantyzacja, użyj bitsandbytes.