rwkv-architecture
Hybrydowa architektura RNN+Transformer z liniową złożonością i nieskończonym kontekstem
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
RWKV to innowacyjna architektura łącząca efektywność RNN z możliwością równoległego trenowania jak GPT. Osiąga liniową złożoność czasową O(n), pracuje bez cache'u KV i obsługuje nieskończony kontekst. Projekt Linux Foundation, wdrożony w produkcji u Microsoft (Windows, Office) i NVIDIA (NeMo). Dostępne modele do 14B parametrów, najnowsza wersja RWKV-7 z marca 2025.
Jak używać
Zainstaluj PyTorch z obsługą CUDA: pip install torch --upgrade --extra-index-url https://download.pytorch.org/whl/cu121
Zainstaluj zależności: pip install pytorch-lightning==1.9.5 deepspeed wandb ninja --upgrade
Zainstaluj bibliotekę RWKV: pip install rwkv
Pobierz wstępnie wytrenowany model (np. RWKV-4-Pile-14B) i ustaw ścieżkę w kodzie.
Załaduj model w Pythonie, ustawiając zmienne środowiskowe RWKV_JIT_ON=1 i RWKV_CUDA_ON=1 dla przyspieszenia, następnie inicjalizuj RWKV z wybraną strategią (np. 'cuda fp16').
Użyj modelu w trybie GPT (przetwarzanie równoległe wielu tokenów) lub RNN (sekwencyjne przetwarzanie token po tokenie) — obie metody dają identyczne wyniki logitów, ale RNN jest bardziej efektywny dla generowania tekstu w czasie rzeczywistym.