Toolverse
Wszystkie skille

gguf-quantization

autor: davila7

Kwantyzacja modeli AI do wydajnej pracy na procesorach i Apple Silicon bez GPU

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
20

O skillu

GGUF to standardowy format dla llama.cpp, który pozwala uruchamiać duże modele języka na zwykłych komputerach, laptopach i urządzeniach Apple Silicon. Obsługuje elastyczną kwantyzację od 2 do 8 bitów, co zmniejsza rozmiar modelu bez konieczności karty graficznej. Idealny do lokalnego wdrażania AI w narzędziach takich jak LM Studio, Ollama czy text-generation-webui. Umożliwia czysty wnioskowanie w C/C++ bez zależności Pythona.

Jak używać

  1. Sklonuj repozytorium llama.cpp z GitHuba i przejdź do katalogu projektu.
  2. Zbuduj projekt za pomocą make — wybierz wersję dla swojego sprzętu: make dla CPU, make GGML_CUDA=1 dla NVIDIA, lub make GGML_METAL=1 dla Apple Silicon.
  3. Zainstaluj opcjonalne wiązania Pythona poleceniem pip install llama-cpp-python, jeśli planujesz używać modelu z kodu Python.
  4. Pobierz model w formacie GGUF z repozytorium HuggingFace (szukaj tagów GGUF) lub skonwertuj istniejący model za pomocą skryptu konwersji z llama.cpp.
  5. Uruchom model lokalnie za pomocą LM Studio, Ollama lub innego narzędzia obsługującego GGUF, wskazując pobrany plik.
  6. Dostosuj parametry kwantyzacji (Q2_K do Q8_0) w zależności od dostępnej pamięci i wymaganej dokładności — niższe wartości (Q2_K) zużywają mniej RAM, wyższe (Q8_0) zachowują lepszą jakość.

Podobne skille