gptq

Name: gptq
Author: davila7

autor: davila7

Skompresuj duże modele do 4-bitów i uruchom je na zwykłych kartach graficznych bez utraty dokładności.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Data Science

Repozytorium GitHub

O skillu

GPTQ to technika kwantyzacji post-treningowej, która zmniejsza rozmiar dużych modeli językowych (70B, 405B) do 4-bitów z minimalną stratą dokładności. Zmniejsza zużycie pamięci GPU czterokrotnie, przyspieszając jednocześnie wnioskowanie 3–4 razy w stosunku do FP16. Idealna do wdrażania na konsumenckich kartach graficznych (RTX 4090, 3090). Integruje się z transformers i PEFT do dostrajania QLoRA.

Jak używać

Zainstaluj AutoGPTQ wraz z zależnościami: uruchom pip install auto-gptq transformers accelerate. Na Linuksie możesz dodać obsługę Tritona dla szybszych obliczeń: pip install auto-gptq[triton].
Załaduj wstępnie skwantyzowany model z HuggingFace Hub. Użyj klasy AutoGPTQForCausalLM i metody from_quantized(), podając nazwę modelu (np. "TheBloke/Llama-2-7B-Chat-GPTQ") oraz urządzenie docelowe (device="cuda:0").
Załaduj tokenizer dla wybranego modelu za pomocą AutoTokenizer.from_pretrained(), używając tej samej nazwy modelu.
Przygotuj tekst wejściowy i zakoduj go tokenizerem, a następnie przekaż do modelu w celu generowania odpowiedzi. Model zwróci logity, które możesz zdekodować z powrotem na tekst.
Jeśli chcesz dostrajać model, połącz GPTQ z PEFT i QLoRA — biblioteka peft pozwala na efektywne dostrajanie bez znacznego wzrostu zużycia pamięci.
Wybierz między GPTQ a alternatywami: jeśli potrzebujesz lepszej dokładności (poniżej 1% straty), rozważ AWQ; jeśli wystarczy 8-bitowa kwantyzacja, użyj bitsandbytes.

Podobne skille

threejs

autor: mrgoonie

Twórz interaktywne aplikacje 3D w przeglądarce z Three.js i WebGL

Data Science

1743

quant-analyst

autor: zenobi-us

Zaawansowana analiza ilościowa dla modeli finansowych, handlu algorytmicznego i zarządzania ryzykiem

Data Science

67217

claude-automation-recommender

autor: anthropics

Analizuj kod i odkryj, jakie automatyzacje Claude Code będą dla Ciebie najlepsze

Data Science

1787

skill-installer

autor: openai

Instaluj umiejętności Codex z oficjalnej listy lub prywatnych repozytoriów GitHub.

Data Science

23118

data-storytelling

autor: wshobson

Zamień dane w przekonujące opowieści dla decydentów i inwestorów

Data Science

26105

codex

autor: Lucklyric

Zaawansowane rozumowanie AI do skomplikowanych zadań kodowania i architektury

Data Science

16163