Toolverse
Wszystkie skille

arboreto

autor: davila7

Odkryj sieci regulacji genów z danych ekspresji za pomocą algorytmów skalowanych do dużych zbiorów danych.

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Autor
davila7
Kategoria
Data Science

O skillu

Arboreto to biblioteka obliczeniowa do wnioskowania sieci regulacji genów (GRN) z danych ekspresji genów. Wykorzystuje zrównoleglone algorytmy GRNBoost2 i GENIE3, które skalują się od pojedynczych maszyn do klastrów wielowęzłowych. Narzędzie identyfikuje, które czynniki transkrypcji regulują które geny docelowe na podstawie wzorców ekspresji w komórkach, próbkach lub warunkach. Idealne do analizy danych transkriptomiki, w tym RNA-seq (bulk i single-cell), do odkrywania relacji między czynnikami transkrypcji a genami docelowymi oraz interakcji regulacyjnych. Obsługuje rozproszone obliczenia dla dużych zbiorów danych.

Jak używać

  1. Zainstaluj bibliotekę Arboreto za pomocą menedżera pakietów: uv pip install arboreto. Upewnij się, że masz zainstalowaną kompatybilną wersję Pythona i dostęp do danych ekspresji genów w formacie TSV lub CSV.

  2. Przygotuj dane wejściowe: załaduj macierz ekspresji genów jako DataFrame Pandas, gdzie kolumny reprezentują geny, a wiersze reprezentują obserwacje (komórki, próbki lub warunki). Dane powinny być znormalizowane i gotowe do analizy.

  3. Uruchom wnioskowanie sieci regulacji genów za pomocą skryptu basic_grn_inference.py: python scripts/basic_grn_inference.py expression_data.tsv output_network.tsv --tf-file tfs.txt --seed 777. Parametr --tf-file zawiera listę czynników transkrypcji do analizy, a --seed zapewnia powtarzalność wyników.

  4. Alternatywnie, użyj algorytmu GRNBoost2 bezpośrednio w kodzie Python: załaduj dane, zaimportuj grnboost2 z arboreto.algo, uruchom network = grnboost2(expression_data=expression_matrix) i zapisz wyniki do pliku TSV. Pamiętaj o użyciu warunku if name == 'main': ze względu na sposób, w jaki Dask zarządza procesami.

  5. Zinterpretuj wyniki: wyjściowa sieć zawiera kolumny z czynnikami transkrypcji, genami docelowymi i wartościami ważności, które wskazują siłę relacji regulacyjnej. Wyfiltruj wyniki według ważności, aby skoncentrować się na najistotniejszych interakcjach regulacyjnych.

Podobne skille