stable-baselines3
Algorytmy uczenia ze wzmacnianiem gotowe do produkcji z prostym API
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Stable Baselines3 to biblioteka PyTorch z implementacjami algorytmów uczenia ze wzmacnianiem (PPO, SAC, DQN, TD3, DDPG, A2C). Zapewnia ujednolicone API inspirowane scikit-learn, idealne do standardowych eksperymentów RL, szybkiego prototypowania i nauki algorytmów. Najlepiej sprawdza się w scenariuszach single-agent z środowiskami Gymnasium. Dla zaawansowanych przypadków takich jak trenowanie równoległe, systemy multi-agent czy niestandardowe wektoryzowane środowiska, rozważ pufferlib.
Jak używać
Zainstaluj bibliotekę Stable Baselines3 wraz z zależnościami (PyTorch, Gymnasium). Upewnij się, że masz Python 3.7+.
Utwórz środowisko treningowe za pomocą Gymnasium — możesz użyć predefiniowanego środowiska (np. CartPole-v1) lub stworzyć własne, implementując wymagany interfejs.
Zainicjalizuj model agenta, wybierając odpowiedni algorytm (PPO dla zadań ogólnych, SAC/TD3 dla sterowania ciągłego, DQN dla akcji dyskretnych). Przekaż środowisko i typ polityki (np. MlpPolicy).
Wytrenuj agenta za pomocą metody learn(), określając total_timesteps — pamiętaj, że rzeczywiste trenowanie może przekroczyć tę wartość ze względu na zbieranie batch'y.
Zapisz wytrenowany model za pomocą save() — replaye buffer nie jest zapisywany, aby zaoszczędzić miejsce.
Załaduj model do ewaluacji lub dalszego trenowania, używając statycznej metody load() z podaniem środowiska. Możesz teraz testować agenta na nowych zadaniach lub kontynuować trenowanie.
Podobne skille
brand-voice
autor: anthropics
youtube-watcher
autor: openclaw
solidity-security
autor: wshobson
gmail-manager
autor: jeffvincent
windows-ui-automation
autor: martinholovsky
google-analytics
autor: davila7