Toolverse
Wszystkie skille

molfeat

autor: davila7

Konwertuj struktury chemiczne na cechy dla modeli ML – 100+ featurizerów w jednym narzędziu

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
Data Science
Wyświetlenia
3

O skillu

Molfeat to biblioteka Pythona do featuryzacji molekularnej, która ujednolica ponad 100 wstępnie wytrenowanych embeddingów i ręcznie opracowanych featurizerów. Konwertuj łańcuchy SMILES lub molekuły RDKit na reprezentacje numeryczne gotowe do zadań uczenia maszynowego: modelowania QSAR, predykcji właściwości, wirtualnego screeningu czy analizy przestrzeni chemicznej. Narzędzie oferuje szybkie przetwarzanie równoległe, transformatory kompatybilne z scikit-learn i wbudowaną pamięć podręczną.

Jak używać

  1. Zainstaluj molfeat za pomocą menedżera pakietów: uruchom uv pip install molfeat. Jeśli potrzebujesz pełnego zestawu featurizerów (w tym modele transformerów takie jak ChemBERTa), użyj uv pip install "molfeat[all]". Dla konkretnych modeli możesz zainstalować tylko potrzebne zależności, np. molfeat[transformer] dla modeli opartych na transformerach.
  2. Zaimportuj klasę Calculator z molfeat.calc – to główny interfejs do featuryzacji. Calculatory to obiekty, które konwertują pojedyncze molekuły na wektory cech. Mogą przyjmować zarówno obiekty RDKit Chem.Mol jak i łańcuchy SMILES.
  3. Wybierz odpowiedni featurizer w zależności od zadania: dla QSAR i predykcji właściwości użyj deskryptorów molekularnych lub ECFP, dla głębokich sieci neuronowych rozważ pretrenowane embeddingi takie jak ChemBERTa, dla wirtualnego screeningu i wyszukiwania podobieństwa użyj fingerprint'ów takich jak MACCS.
  4. Utwórz instancję wybranego calculatora i przekaż mu molekułę lub SMILES: features = calculator(smiles_string). Wynik to wektor numeryczny gotowy do użycia w modelu uczenia maszynowego.
  5. Jeśli przetwarzasz wiele molekuł, skorzystaj z wbudowanego przetwarzania równoległego i pamięci podręcznej – molfeat automatycznie optymalizuje wydajność dla dużych zbiorów danych.
  6. Zintegruj otrzymane cechy z pipelineami scikit-learn lub frameworkami do głębokich sieci neuronowych (TensorFlow, PyTorch) w zależności od wybranego algorytmu uczenia maszynowego.

Podobne skille