M
molfeat
Konwertuj struktury chemiczne na cechy dla modeli ML – 100+ featurizerów w jednym narzędziu
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Molfeat to biblioteka Pythona do featuryzacji molekularnej, która ujednolica ponad 100 wstępnie wytrenowanych embeddingów i ręcznie opracowanych featurizerów. Konwertuj łańcuchy SMILES lub molekuły RDKit na reprezentacje numeryczne gotowe do zadań uczenia maszynowego: modelowania QSAR, predykcji właściwości, wirtualnego screeningu czy analizy przestrzeni chemicznej. Narzędzie oferuje szybkie przetwarzanie równoległe, transformatory kompatybilne z scikit-learn i wbudowaną pamięć podręczną.
Jak używać
- Zainstaluj molfeat za pomocą menedżera pakietów: uruchom
uv pip install molfeat. Jeśli potrzebujesz pełnego zestawu featurizerów (w tym modele transformerów takie jak ChemBERTa), użyjuv pip install "molfeat[all]". Dla konkretnych modeli możesz zainstalować tylko potrzebne zależności, np.molfeat[transformer]dla modeli opartych na transformerach. - Zaimportuj klasę Calculator z molfeat.calc – to główny interfejs do featuryzacji. Calculatory to obiekty, które konwertują pojedyncze molekuły na wektory cech. Mogą przyjmować zarówno obiekty RDKit
Chem.Moljak i łańcuchy SMILES. - Wybierz odpowiedni featurizer w zależności od zadania: dla QSAR i predykcji właściwości użyj deskryptorów molekularnych lub ECFP, dla głębokich sieci neuronowych rozważ pretrenowane embeddingi takie jak ChemBERTa, dla wirtualnego screeningu i wyszukiwania podobieństwa użyj fingerprint'ów takich jak MACCS.
- Utwórz instancję wybranego calculatora i przekaż mu molekułę lub SMILES:
features = calculator(smiles_string). Wynik to wektor numeryczny gotowy do użycia w modelu uczenia maszynowego. - Jeśli przetwarzasz wiele molekuł, skorzystaj z wbudowanego przetwarzania równoległego i pamięci podręcznej – molfeat automatycznie optymalizuje wydajność dla dużych zbiorów danych.
- Zintegruj otrzymane cechy z pipelineami scikit-learn lub frameworkami do głębokich sieci neuronowych (TensorFlow, PyTorch) w zależności od wybranego algorytmu uczenia maszynowego.