Toolverse
Wszystkie skille

llama-cpp

autor: zechenzhangAGI

Uruchamiaj modele językowe na CPU i Mac'ach bez karty NVIDIA

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
252

O skillu

Llama.cpp to narzędzie do wnioskowania LLM zoptymalizowane dla procesorów i sprzętu bez NVIDIA. Uruchamiaj modele na zwykłych komputerach, Mac'ach z Apple Silicon (M1/M2/M3), kartach AMD/Intel oraz urządzeniach brzegowych. Obsługuje kwantyzację GGUF (1,5-8 bitów), zmniejszając zużycie pamięci i przyspieszając pracę 4-10 razy w stosunku do PyTorch na CPU. Idealne do wdrażania na Raspberry Pi i systemach wbudowanych bez zależności od Dockera czy Pythona.

Jak używać

  1. Zainstaluj llama.cpp: na macOS/Linux użyj brew install llama.cpp, lub sklonuj repozytorium z GitHub (github.com/ggerganov/llama.cpp) i uruchom make. Jeśli masz Mac z Apple Silicon, dodaj flagę LLAMA_METAL=1, dla AMD GPU użyj LLAMA_HIP=1.

  2. Pobierz model w formacie GGUF z HuggingFace, np. Llama-2-7B-Chat-GGUF. Użyj komendy huggingface-cli download, podając nazwę modelu i wersję kwantyzacji (np. Q4_K_M). Modele zapisz w katalogu models/.

  3. Uruchom proste wnioskowanie: użyj llama-cli z flagą -m wskazującą ścieżkę do modelu, -p z pytaniem lub instrukcją, oraz -n określającą maksymalną liczbę tokenów odpowiedzi (np. 256).

  4. Do interaktywnej rozmowy dodaj flagę --interactive, co pozwoli na wielokrotne pytania bez restartowania programu.

  5. Dla zaawansowanego użytku uruchom tryb serwera (server mode), który umożliwia dostęp do modelu przez API — szczegóły znajdują się w dokumentacji README.

Podobne skille