stable-baselines3

Name: stable-baselines3
Author: K-Dense-AI

autor: K-Dense-AI

Algorytmy uczenia ze wzmacnianiem gotowe do produkcji z prostym API

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor: K-Dense-AI
Kategoria: Bezpieczeństwo
Wyświetlenia: 9

Repozytorium GitHub

O skillu

Stable Baselines3 to biblioteka PyTorch z implementacjami algorytmów uczenia ze wzmacnianiem (PPO, SAC, DQN, TD3, DDPG, A2C). Zapewnia ujednolicone API inspirowane scikit-learn, idealne do standardowych eksperymentów RL, szybkiego prototypowania i nauki algorytmów. Najlepiej sprawdza się w scenariuszach single-agent z środowiskami Gymnasium. Dla zaawansowanych przypadków takich jak trenowanie równoległe, systemy multi-agent czy niestandardowe wektoryzowane środowiska, rozważ pufferlib.

Jak używać

Zainstaluj bibliotekę Stable Baselines3 wraz z zależnościami (PyTorch, Gymnasium). Upewnij się, że masz Python 3.7+.
Utwórz środowisko treningowe za pomocą Gymnasium — możesz użyć predefiniowanego środowiska (np. CartPole-v1) lub stworzyć własne, implementując wymagany interfejs.
Zainicjalizuj model agenta, wybierając odpowiedni algorytm (PPO dla zadań ogólnych, SAC/TD3 dla sterowania ciągłego, DQN dla akcji dyskretnych). Przekaż środowisko i typ polityki (np. MlpPolicy).
Wytrenuj agenta za pomocą metody learn(), określając total_timesteps — pamiętaj, że rzeczywiste trenowanie może przekroczyć tę wartość ze względu na zbieranie batch'y.
Zapisz wytrenowany model za pomocą save() — replaye buffer nie jest zapisywany, aby zaoszczędzić miejsce.
Załaduj model do ewaluacji lub dalszego trenowania, używając statycznej metody load() z podaniem środowiska. Możesz teraz testować agenta na nowych zadaniach lub kontynuować trenowanie.

Podobne skille

brand-voice

autor: anthropics

Utrzymuj spójność marki we wszystkich materiałach marketingowych

Bezpieczeństwo

48158

youtube-watcher

autor: openclaw

Pobierz transkrypcje filmów YouTube i wyciągaj z nich informacje

Bezpieczeństwo

2231

solidity-security

autor: wshobson

Zabezpiecz swoje smart kontrakty przed atakami i lukami w kodzie Solidity

Bezpieczeństwo

10105

gmail-manager

autor: jeffvincent

Zarządzaj swoją skrzynką Gmail bezpośrednio z Claude — wysyłaj, czytaj i wyszukuj maile bez opuszczania czatu.

Bezpieczeństwo

17128

windows-ui-automation

autor: martinholovsky

Automatyzuj aplikacje Windows z bezpiecznym dostępem do UI Automation i Win32 API

Bezpieczeństwo

10115

google-analytics

autor: davila7

Analizuj dane Google Analytics i odkrywaj możliwości wzrostu Twojej strony

Bezpieczeństwo

1260