Toolverse
Wszystkie skille

tcga-bulk-data-preprocessing-with-omicverse

autor: Starlitnightly

Przetwarzaj dane TCGA z GDC, buduj macierze ekspresji i analizuj przeżywalność pacjentów w omicverse

Instalacja

Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.

Instalacja

Szybkie info

Kategoria
Mobile
Wyświetlenia
2

O skillu

Umożliwia załadowanie danych TCGA z portalu GDC Data Portal, zbudowanie znormalizowanych macierzy ekspresji RNA-seq, dołączenie metadanych klinicznych oraz przeprowadzenie analiz przeżywalności Kaplan-Meiera. Skill wykorzystuje bibliotekę omicverse i jej moduł pyTCGA do automatyzacji całego przepływu pracy — od pobrania próbek i arkuszy metadanych, przez inicjalizację danych w formacie AnnData z warstwami surowych zliczeń, FPKM i TPM, aż po eksport wyników analiz przeżywalności dla pojedynczych genów lub całych zestawów genów.

Jak używać

  1. Przygotuj trzy pliki z portalu GDC Data Portal: plik sample sheet (gdc_sample_sheet..tsv), rozpakowany katalog z archiwami ekspresji (gdc_download_/) oraz katalog z plikami klinicznymi (clinical.cart.*/).

  2. Zaimportuj omicverse i zainicjalizuj obiekt pyTCGA, podając ścieżki do pobranych plików. Następnie uruchom metodę adata_init(), która automatycznie zbuduje macierz AnnData zawierającą warstwy surowych zliczeń, FPKM i TPM.

  3. Zapisz zainicjalizowane dane do pliku HDF5 (.h5ad) z kompresją gzip, aby móc je szybko załadować w przyszłości bez konieczności ponownego przetwarzania.

  4. Zainicjalizuj metadane i informacje o przeżywalności, uruchamiając metody adata_meta_init() (mapowanie ID genów na symbole i informacje o pacjentach) oraz survial_init() (przygotowanie danych do analiz przeżywalności).

  5. Przeprowadź analizę przeżywalności dla wybranego genu, podając jego nazwę i warstwę danych (np. 'deseq_normalize'), lub uruchom analizę dla wszystkich genów jednocześnie — pamiętaj, że pełna analiza może trwać kilka minut dla dużych zestawów.

  6. Wyeksportuj ostateczne wyniki, zapisując obiekt AnnData z wynikami analiz przeżywalności do pliku HDF5.

Podobne skille