Toolverse
Wszystkie skille

speculative-decoding

autor: davila7

Przyspeszy wnioskowanie modeli językowych o 1,5–3,6× dzięki dekodowaniu spekulacyjnemu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Wyświetlenia
1

O skillu

Skill do optymalizacji szybkości wnioskowania LLM-ów przy użyciu technik dekodowania spekulacyjnego, Medusy i lookahead decoding. Zautomatyzuj przyspieszenie modeli bez utraty jakości — idealne do aplikacji real-time, chatbotów i generowania kodu na sprzęcie o ograniczonej mocy obliczeniowej. Obejmuje modele draft, attention oparte na drzewach, iterację Jacobiego i strategie wdrażania w produkcji.

Jak używać

  1. Zainstaluj wymagane biblioteki: pip install transformers accelerate. 2. Dla Medusy (wielogłowicowe dekodowanie) sklonuj repozytorium: git clone https://github.com/FasterDecoding/Medusa, przejdź do katalogu i uruchom pip install -e . 3. Dla Lookahead Decoding sklonuj https://github.com/hao-ai-lab/LookaheadDecoding, przejdź do folderu i zainstaluj pakiet poleceniem pip install -e . 4. Opcjonalnie zainstaluj vLLM dla zaawansowanego serwowania: pip install vllm. 5. Załaduj model docelowy (duży, wolny) i model draft (szybki, mały) za pomocą AutoModelForCausalLM z transformers. 6. Uruchom dekodowanie spekulacyjne, przekazując oba modele do funkcji generacji — system automatycznie przyspieszy wnioskowanie o 1,5–3,6× bez zmian w architekturze modelu.

Podobne skille