S
speculative-decoding
Przyspeszy wnioskowanie modeli językowych o 1,5–3,6× dzięki dekodowaniu spekulacyjnemu
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do optymalizacji szybkości wnioskowania LLM-ów przy użyciu technik dekodowania spekulacyjnego, Medusy i lookahead decoding. Zautomatyzuj przyspieszenie modeli bez utraty jakości — idealne do aplikacji real-time, chatbotów i generowania kodu na sprzęcie o ograniczonej mocy obliczeniowej. Obejmuje modele draft, attention oparte na drzewach, iterację Jacobiego i strategie wdrażania w produkcji.
Jak używać
- Zainstaluj wymagane biblioteki: pip install transformers accelerate. 2. Dla Medusy (wielogłowicowe dekodowanie) sklonuj repozytorium: git clone https://github.com/FasterDecoding/Medusa, przejdź do katalogu i uruchom pip install -e . 3. Dla Lookahead Decoding sklonuj https://github.com/hao-ai-lab/LookaheadDecoding, przejdź do folderu i zainstaluj pakiet poleceniem pip install -e . 4. Opcjonalnie zainstaluj vLLM dla zaawansowanego serwowania: pip install vllm. 5. Załaduj model docelowy (duży, wolny) i model draft (szybki, mały) za pomocą AutoModelForCausalLM z transformers. 6. Uruchom dekodowanie spekulacyjne, przekazując oba modele do funkcji generacji — system automatycznie przyspieszy wnioskowanie o 1,5–3,6× bez zmian w architekturze modelu.