nowait-reasoning-optimizer
Zmniejsz koszty tokenów modeli rozumujących o 27-51% bez utraty dokładności
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia technikę NOWAIT do optymalizacji wnioskowania w modelach R1 (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ). Supresuje tokeny autorefleksji podczas generowania tekstu, skracając łańcuchy myślenia (CoT) i zmniejszając zużycie tokenów o 27-51% przy zachowaniu dokładności. Idealne do wdrażania systemów produkcyjnych z ograniczonymi zasobami obliczeniowymi i optymalizacji kosztów wnioskowania.
Jak używać
Sklonuj repozytorium z komponentem umiejętności z gałęzi głównej projektu claude-code-templates. Umiejętność znajduje się w katalogu cli-tool/components/skills/productivity/nowait.
Zainstaluj wymagane zależności dla swojego modelu rozumującego. Upewnij się, że masz dostęp do tokenizera modelu, który będziesz optymalizować (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL lub QvQ).
Zaimportuj NOWAITLogitProcessor z modułu scripts/nowait_processor w swoim kodzie Pythona. Inicjalizuj procesor, przekazując tokenizer Twojego modelu jako argument.
Podczas generowania tekstu przekaż zainicjalizowany procesor do parametru logits_processor metody generate() modelu. Ustaw max_new_tokens na wymaganą wartość (np. 32768 dla dłuższych sekwencji myślenia).
Uruchom model z włączonym procesorem NOWAIT. Technika automatycznie supresuje tokeny autorefleksji (takie jak "Wait", "Hmm", "Alternatively"), skracając wyjście bez konieczności dodatkowego trenowania.
Monitoruj zmianę długości wyjścia i kosztów tokenów. Dla modeli opartych na uczeniu przez wzmacnianie (RL) możesz oczekiwać redukcji 16-60% w zależności od serii modelu. Unikaj stosowania NOWAIT do modeli zdystylowanych (Qwen3-4B/8B/14B), gdzie mogą pojawić się problemy z wydajnością.