mlops-observability
Pełna obserwacja modeli ML – od powtarzalności do alertów w produkcji
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do wdrażania kompleksowej obserwacji systemów machine learning. Dowiedz się, jak zagwarantować powtarzalność wyników, śledzić pochodzenie danych, monitorować dryft i konfigurować alerty. Obejmuje praktyczne wskazówki dotyczące ustalania seedów, wersjonowania danych w MLflow, wykrywania zmian rozkładu za pomocą Evidently oraz integracji powiadomień przez Slack czy PagerDuty. Idealne dla zespołów wdrażających modele w środowisku produkcyjnym.
Jak używać
Zainstaluj wymagane biblioteki Python: MLflow, Evidently, SHAP i plyer. Upewnij się, że masz Docker i narzędzie uv do zarządzania zależnościami.
Gwarantuj powtarzalność wyników, ustawiając seedy dla random, numpy, torch i tensorflow na początku każdego eksperymentu. Zablokuj wersje zależności w pliku uv.lock i używaj Docker do spójności środowiska. Śledź hash commitu git dla każdego uruchomienia.
Śledzenie lineażu danych: utwórz datasety MLflow za pomocą mlflow.data.from_pandas, loguj wejścia kontekstu z mlflow.log_input, wersjonuj pliki danych (np. data/v1.csv) lub użyj DVC do śledzenia zmian.
Skonfiguruj monitorowanie i detekcję dryfu: włącz MLflow Evaluate do walidacji modeli względem progów jakości, użyj Evidently do porównania danych treningowych (reference) z danymi produkcyjnymi (current), włącz metryki systemowe MLflow (CPU/GPU) za pomocą log_system_metrics=True.
Ustaw alerty: dla lokalnych uruchomień użyj plyer do powiadomień na pulpicie, dla produkcji skonfiguruj integrację z PagerDuty (alerty krytyczne) lub Slack (ostrzeżenia), zdefiniuj progi statyczne lub dynamiczne (anomalie).
Wdrażaj w produkcji, regularnie porównując metryki modelu i rozkłady danych, reagując na alerty przed degradacją wydajności.