nowait-reasoning-optimizer

Name: nowait-reasoning-optimizer
Author: davila7

autor: davila7

Zmniejsz koszty tokenów modeli rozumujących o 27-51% bez utraty dokładności

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: davila7
Kategoria: Testowanie

Repozytorium GitHub

O skillu

Umożliwia technikę NOWAIT do optymalizacji wnioskowania w modelach R1 (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ). Supresuje tokeny autorefleksji podczas generowania tekstu, skracając łańcuchy myślenia (CoT) i zmniejszając zużycie tokenów o 27-51% przy zachowaniu dokładności. Idealne do wdrażania systemów produkcyjnych z ograniczonymi zasobami obliczeniowymi i optymalizacji kosztów wnioskowania.

Jak używać

Sklonuj repozytorium z komponentem umiejętności z gałęzi głównej projektu claude-code-templates. Umiejętność znajduje się w katalogu cli-tool/components/skills/productivity/nowait.
Zainstaluj wymagane zależności dla swojego modelu rozumującego. Upewnij się, że masz dostęp do tokenizera modelu, który będziesz optymalizować (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL lub QvQ).
Zaimportuj NOWAITLogitProcessor z modułu scripts/nowait_processor w swoim kodzie Pythona. Inicjalizuj procesor, przekazując tokenizer Twojego modelu jako argument.
Podczas generowania tekstu przekaż zainicjalizowany procesor do parametru logits_processor metody generate() modelu. Ustaw max_new_tokens na wymaganą wartość (np. 32768 dla dłuższych sekwencji myślenia).
Uruchom model z włączonym procesorem NOWAIT. Technika automatycznie supresuje tokeny autorefleksji (takie jak "Wait", "Hmm", "Alternatively"), skracając wyjście bez konieczności dodatkowego trenowania.
Monitoruj zmianę długości wyjścia i kosztów tokenów. Dla modeli opartych na uczeniu przez wzmacnianie (RL) możesz oczekiwać redukcji 16-60% w zależności od serii modelu. Unikaj stosowania NOWAIT do modeli zdystylowanych (Qwen3-4B/8B/14B), gdzie mogą pojawić się problemy z wydajnością.

Podobne skille

vitest

autor: antfu

Szybkie testy jednostkowe z API kompatybilnym z Jestem, napędzane przez Vite

Testowanie

1236

performing-penetration-testing

autor: jeremylongshore

Zautomatyzuj testy bezpieczeństwa aplikacji webowych i odkryj luki w zabezpieczeniach

Testowanie

1546

langchain

autor: zechenzhangAGI

Framework do budowania aplikacji AI z agentami, łańcuchami i wyszukiwaniem dokumentów

Testowanie

21123

hono

autor: openstatusHQ

Rozwijaj aplikacje Hono szybciej dzięki CLI z wyszukiwaniem dokumentacji i testowaniem żądań

Testowanie

1257

testing-workflow

autor: amo-tech-ai

Testuj aplikacje warstwowo — od bazy danych przez API do interfejsu i pełnych scenariuszy użytkownika.

Testowanie

1076

langgraph-docs

autor: langchain-ai

Dostęp do dokumentacji LangGraph dla precyzyjnych odpowiedzi i wdrożeń

Testowanie

23127