Toolverse
Wszystkie skille

nowait-reasoning-optimizer

autor: davila7

Zmniejsz koszty tokenów modeli rozumujących o 27-51% bez utraty dokładności

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
Testowanie

O skillu

Umożliwia technikę NOWAIT do optymalizacji wnioskowania w modelach R1 (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL, QvQ). Supresuje tokeny autorefleksji podczas generowania tekstu, skracając łańcuchy myślenia (CoT) i zmniejszając zużycie tokenów o 27-51% przy zachowaniu dokładności. Idealne do wdrażania systemów produkcyjnych z ograniczonymi zasobami obliczeniowymi i optymalizacji kosztów wnioskowania.

Jak używać

  1. Sklonuj repozytorium z komponentem umiejętności z gałęzi głównej projektu claude-code-templates. Umiejętność znajduje się w katalogu cli-tool/components/skills/productivity/nowait.

  2. Zainstaluj wymagane zależności dla swojego modelu rozumującego. Upewnij się, że masz dostęp do tokenizera modelu, który będziesz optymalizować (QwQ, DeepSeek-R1, Phi4-Reasoning, Qwen3, Kimi-VL lub QvQ).

  3. Zaimportuj NOWAITLogitProcessor z modułu scripts/nowait_processor w swoim kodzie Pythona. Inicjalizuj procesor, przekazując tokenizer Twojego modelu jako argument.

  4. Podczas generowania tekstu przekaż zainicjalizowany procesor do parametru logits_processor metody generate() modelu. Ustaw max_new_tokens na wymaganą wartość (np. 32768 dla dłuższych sekwencji myślenia).

  5. Uruchom model z włączonym procesorem NOWAIT. Technika automatycznie supresuje tokeny autorefleksji (takie jak "Wait", "Hmm", "Alternatively"), skracając wyjście bez konieczności dodatkowego trenowania.

  6. Monitoruj zmianę długości wyjścia i kosztów tokenów. Dla modeli opartych na uczeniu przez wzmacnianie (RL) możesz oczekiwać redukcji 16-60% w zależności od serii modelu. Unikaj stosowania NOWAIT do modeli zdystylowanych (Qwen3-4B/8B/14B), gdzie mogą pojawić się problemy z wydajnością.

Podobne skille