Toolverse
Wszystkie skille

gptq

autor: davila7

Skompresuj duże modele do 4-bitów i uruchom je na zwykłych kartach graficznych bez utraty dokładności.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
Data Science

O skillu

GPTQ to technika kwantyzacji post-treningowej, która zmniejsza rozmiar dużych modeli językowych (70B, 405B) do 4-bitów z minimalną stratą dokładności. Zmniejsza zużycie pamięci GPU czterokrotnie, przyspieszając jednocześnie wnioskowanie 3–4 razy w stosunku do FP16. Idealna do wdrażania na konsumenckich kartach graficznych (RTX 4090, 3090). Integruje się z transformers i PEFT do dostrajania QLoRA.

Jak używać

  1. Zainstaluj AutoGPTQ wraz z zależnościami: uruchom pip install auto-gptq transformers accelerate. Na Linuksie możesz dodać obsługę Tritona dla szybszych obliczeń: pip install auto-gptq[triton].

  2. Załaduj wstępnie skwantyzowany model z HuggingFace Hub. Użyj klasy AutoGPTQForCausalLM i metody from_quantized(), podając nazwę modelu (np. "TheBloke/Llama-2-7B-Chat-GPTQ") oraz urządzenie docelowe (device="cuda:0").

  3. Załaduj tokenizer dla wybranego modelu za pomocą AutoTokenizer.from_pretrained(), używając tej samej nazwy modelu.

  4. Przygotuj tekst wejściowy i zakoduj go tokenizerem, a następnie przekaż do modelu w celu generowania odpowiedzi. Model zwróci logity, które możesz zdekodować z powrotem na tekst.

  5. Jeśli chcesz dostrajać model, połącz GPTQ z PEFT i QLoRA — biblioteka peft pozwala na efektywne dostrajanie bez znacznego wzrostu zużycia pamięci.

  6. Wybierz między GPTQ a alternatywami: jeśli potrzebujesz lepszej dokładności (poniżej 1% straty), rozważ AWQ; jeśli wystarczy 8-bitowa kwantyzacja, użyj bitsandbytes.

Podobne skille