geniml
Uczenie maszynowe na danych genomicznych z plików BED – embeddingi regionów i analiza ATAC-seq
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Geniml to pakiet Pythona do budowania modeli uczenia maszynowego na danych genomicznych z plików BED. Trenuj nienadzorowane embeddingi regionów genomowych, komórek i etykiet metadanych, aby odkrywać podobieństwa między regionami, grupować dane i przygotowywać cechy do dalszych analiz. Idealne do analizy scATAC-seq, budowania consensus peaks i uczenia reprezentacji opartych na dostępności chromatyny.
Jak używać
Zainstaluj geniml za pomocą menedżera pakietów uv, uruchamiając polecenie
uv pip install geniml. Jeśli planujesz używać zależności uczenia maszynowego (PyTorch i inne), zainstaluj wersję rozszerzoną:uv pip install 'geniml[ml]'.Przygotuj swoje pliki BED zawierające interwały genomowe, które chcesz analizować. Upewnij się, że dane są w standardowym formacie BED (kolumny: chromosom, początek, koniec, opcjonalnie dodatkowe informacje).
Tokenizuj pliki BED, używając referencji wszechświata genomowego. Ten krok konwertuje interwały genomowe na tokeny, które mogą być przetwarzane przez model.
Wytrenuj model Region2Vec na tokenizowanych danych, aby uzyskać embeddingi regionów genomowych. Model uczy się nienadzorowanych reprezentacji wektorowych, które odzwierciedlają podobieństwo między regionami na podstawie ich sąsiedztwa i kontekstu.
Wygeneruj embeddingi dla swoich regionów i użyj ich do wyszukiwania podobieństwa, grupowania lub jako cech wejściowych do dalszych modeli uczenia maszynowego. Embeddingi mogą być również wykorzystane do analizy metadanych, jeśli pracujesz z danymi scATAC-seq lub innymi etykietami eksperymentalnymi.
Zapoznaj się z dokumentacją referencyjną w pliku
references/region2vec.md, aby poznać szczegółowe parametry, zaawansowane przepływy pracy i przykłady dostosowane do Twojego przypadku użycia.