Toolverse
Wszystkie skille

pytdc

autor: davila7

Gotowe datasety do odkrywania leków i predykcji farmakologicznych z benchmarkami ML

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
DevOps
Wyświetlenia
18

O skillu

PyTDC to platforma open-science z kuratowanymi, gotowymi do pracy z AI datasetami dla odkrywania leków i rozwoju terapii. Dostęp do zbiorów danych obejmujących całą linię produkcyjną terapii: predykcję właściwości molekularnych (ADME, toksyczność), interakcje lek-cel, interakcje lek-lek oraz generowanie nowych molekuł. Każdy dataset zawiera standaryzowane metryki ewaluacji, prawidłowe podziały train/test (scaffold, cold-split) i molekularne orakle do optymalizacji właściwości.

Jak używać

  1. Zainstaluj PyTDC za pomocą pip: uruchom polecenie uv pip install PyTDC w terminalu. Jeśli chcesz zaktualizować do najnowszej wersji, użyj uv pip install PyTDC --upgrade. Wszystkie wymagane zależności (numpy, pandas, scikit-learn i inne) zainstalują się automatycznie.

  2. Zaimportuj odpowiednią kategorię problemu do swojego skryptu Pythona. Wybierz jedną z trzech kategorii: single_pred dla predykcji właściwości molekularnych, multi_pred dla interakcji lek-cel lub lek-lek, albo generation dla generowania nowych molekuł.

  3. Załaduj dataset, tworząc instancję zadania i podając nazwę datasetu. Na przykład: data = Task(name='nazwa_datasetu'), gdzie Task pochodzi z wybranej kategorii problemu.

  4. Podziel dane na zbiory treningowy, walidacyjny i testowy za pomocą metody get_split(). Określ metodę podziału (np. scaffold dla podziału na podstawie szkieletów molekularnych), seed dla powtarzalności i frakcje podziału: split = data.get_split(method='scaffold', seed=1, frac=[0.7, 0.1, 0.2]).

  5. Pobierz dane w preferowanym formacie (DataFrame Pandas lub inny) używając get_data(format='df'). Teraz masz gotowy dataset z prawidłowymi podziałami do trenowania i ewaluacji modelu.

  6. Trenuj swój model uczenia maszynowego na zbiorze treningowym i ewaluuj na zbiorze testowym, korzystając ze standaryzowanych metryk dostępnych w PyTDC dla danego zadania farmakologicznego.

Podobne skille