Toolverse
Wszystkie skille

stable-baselines3

autor: K-Dense-AI

Algorytmy uczenia ze wzmacnianiem gotowe do produkcji z prostym API

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Wyświetlenia
9

O skillu

Stable Baselines3 to biblioteka PyTorch z implementacjami algorytmów uczenia ze wzmacnianiem (PPO, SAC, DQN, TD3, DDPG, A2C). Zapewnia ujednolicone API inspirowane scikit-learn, idealne do standardowych eksperymentów RL, szybkiego prototypowania i nauki algorytmów. Najlepiej sprawdza się w scenariuszach single-agent z środowiskami Gymnasium. Dla zaawansowanych przypadków takich jak trenowanie równoległe, systemy multi-agent czy niestandardowe wektoryzowane środowiska, rozważ pufferlib.

Jak używać

  1. Zainstaluj bibliotekę Stable Baselines3 wraz z zależnościami (PyTorch, Gymnasium). Upewnij się, że masz Python 3.7+.

  2. Utwórz środowisko treningowe za pomocą Gymnasium — możesz użyć predefiniowanego środowiska (np. CartPole-v1) lub stworzyć własne, implementując wymagany interfejs.

  3. Zainicjalizuj model agenta, wybierając odpowiedni algorytm (PPO dla zadań ogólnych, SAC/TD3 dla sterowania ciągłego, DQN dla akcji dyskretnych). Przekaż środowisko i typ polityki (np. MlpPolicy).

  4. Wytrenuj agenta za pomocą metody learn(), określając total_timesteps — pamiętaj, że rzeczywiste trenowanie może przekroczyć tę wartość ze względu na zbieranie batch'y.

  5. Zapisz wytrenowany model za pomocą save() — replaye buffer nie jest zapisywany, aby zaoszczędzić miejsce.

  6. Załaduj model do ewaluacji lub dalszego trenowania, używając statycznej metody load() z podaniem środowiska. Możesz teraz testować agenta na nowych zadaniach lub kontynuować trenowanie.

Podobne skille