pytdc
Gotowe datasety do odkrywania leków i predykcji farmakologicznych z benchmarkami ML
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
PyTDC to platforma open-science z kuratowanymi, gotowymi do pracy z AI datasetami dla odkrywania leków i rozwoju terapii. Dostęp do zbiorów danych obejmujących całą linię produkcyjną terapii: predykcję właściwości molekularnych (ADME, toksyczność), interakcje lek-cel, interakcje lek-lek oraz generowanie nowych molekuł. Każdy dataset zawiera standaryzowane metryki ewaluacji, prawidłowe podziały train/test (scaffold, cold-split) i molekularne orakle do optymalizacji właściwości.
Jak używać
Zainstaluj PyTDC za pomocą pip: uruchom polecenie
uv pip install PyTDCw terminalu. Jeśli chcesz zaktualizować do najnowszej wersji, użyjuv pip install PyTDC --upgrade. Wszystkie wymagane zależności (numpy, pandas, scikit-learn i inne) zainstalują się automatycznie.Zaimportuj odpowiednią kategorię problemu do swojego skryptu Pythona. Wybierz jedną z trzech kategorii:
single_preddla predykcji właściwości molekularnych,multi_preddla interakcji lek-cel lub lek-lek, albogenerationdla generowania nowych molekuł.Załaduj dataset, tworząc instancję zadania i podając nazwę datasetu. Na przykład:
data = Task(name='nazwa_datasetu'), gdzie Task pochodzi z wybranej kategorii problemu.Podziel dane na zbiory treningowy, walidacyjny i testowy za pomocą metody
get_split(). Określ metodę podziału (np.scaffolddla podziału na podstawie szkieletów molekularnych), seed dla powtarzalności i frakcje podziału:split = data.get_split(method='scaffold', seed=1, frac=[0.7, 0.1, 0.2]).Pobierz dane w preferowanym formacie (DataFrame Pandas lub inny) używając
get_data(format='df'). Teraz masz gotowy dataset z prawidłowymi podziałami do trenowania i ewaluacji modelu.Trenuj swój model uczenia maszynowego na zbiorze treningowym i ewaluuj na zbiorze testowym, korzystając ze standaryzowanych metryk dostępnych w PyTDC dla danego zadania farmakologicznego.