speculative-decoding

Name: speculative-decoding
Author: davila7

autor: davila7

Przyspeszy wnioskowanie modeli językowych o 1,5–3,6× dzięki dekodowaniu spekulacyjnemu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Bezpieczeństwo
Wyświetlenia: 1

Repozytorium GitHub

O skillu

Skill do optymalizacji szybkości wnioskowania LLM-ów przy użyciu technik dekodowania spekulacyjnego, Medusy i lookahead decoding. Zautomatyzuj przyspieszenie modeli bez utraty jakości — idealne do aplikacji real-time, chatbotów i generowania kodu na sprzęcie o ograniczonej mocy obliczeniowej. Obejmuje modele draft, attention oparte na drzewach, iterację Jacobiego i strategie wdrażania w produkcji.

Jak używać

Zainstaluj wymagane biblioteki: pip install transformers accelerate. 2. Dla Medusy (wielogłowicowe dekodowanie) sklonuj repozytorium: git clone https://github.com/FasterDecoding/Medusa, przejdź do katalogu i uruchom pip install -e . 3. Dla Lookahead Decoding sklonuj https://github.com/hao-ai-lab/LookaheadDecoding, przejdź do folderu i zainstaluj pakiet poleceniem pip install -e . 4. Opcjonalnie zainstaluj vLLM dla zaawansowanego serwowania: pip install vllm. 5. Załaduj model docelowy (duży, wolny) i model draft (szybki, mały) za pomocą AutoModelForCausalLM z transformers. 6. Uruchom dekodowanie spekulacyjne, przekazując oba modele do funkcji generacji — system automatycznie przyspieszy wnioskowanie o 1,5–3,6× bez zmian w architekturze modelu.

Podobne skille

architect-review

autor: sickn33

Recenzje architektury oprogramowania przez doświadczonego architekta

Bezpieczeństwo

2773

qmd

autor: tobi

Przeszukuj swoje notatki i dokumenty markdown za pomocą hybrydowego silnika wyszukiwania z AI

Bezpieczeństwo

1951

senior-security

autor: davila7

Kompleksny zestaw narzędzi do testowania bezpieczeństwa, modelowania zagrożeń i audytów zgodności

Bezpieczeństwo

2482

google-analytics

autor: davila7

Analizuj dane Google Analytics i odkrywaj możliwości wzrostu Twojej strony

Bezpieczeństwo

1260

feishu-docs

autor: openclaw

Zarządzaj dokumentami Feishu przez API — twórz, edytuj, usuwaj i udostępniaj zawartość programowo.

Bezpieczeństwo

1574

software-security

autor: project-codeguard

Bezpieczny kod od początku — umiejętność dla agentów AI integrująca się z Project CodeGuard

Bezpieczeństwo

1678