tcga-bulk-data-preprocessing-with-omicverse
Przetwarzaj dane TCGA z GDC, buduj macierze ekspresji i analizuj przeżywalność pacjentów w omicverse
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Umożliwia załadowanie danych TCGA z portalu GDC Data Portal, zbudowanie znormalizowanych macierzy ekspresji RNA-seq, dołączenie metadanych klinicznych oraz przeprowadzenie analiz przeżywalności Kaplan-Meiera. Skill wykorzystuje bibliotekę omicverse i jej moduł pyTCGA do automatyzacji całego przepływu pracy — od pobrania próbek i arkuszy metadanych, przez inicjalizację danych w formacie AnnData z warstwami surowych zliczeń, FPKM i TPM, aż po eksport wyników analiz przeżywalności dla pojedynczych genów lub całych zestawów genów.
Jak używać
Przygotuj trzy pliki z portalu GDC Data Portal: plik sample sheet (gdc_sample_sheet..tsv), rozpakowany katalog z archiwami ekspresji (gdc_download_/) oraz katalog z plikami klinicznymi (clinical.cart.*/).
Zaimportuj omicverse i zainicjalizuj obiekt pyTCGA, podając ścieżki do pobranych plików. Następnie uruchom metodę adata_init(), która automatycznie zbuduje macierz AnnData zawierającą warstwy surowych zliczeń, FPKM i TPM.
Zapisz zainicjalizowane dane do pliku HDF5 (.h5ad) z kompresją gzip, aby móc je szybko załadować w przyszłości bez konieczności ponownego przetwarzania.
Zainicjalizuj metadane i informacje o przeżywalności, uruchamiając metody adata_meta_init() (mapowanie ID genów na symbole i informacje o pacjentach) oraz survial_init() (przygotowanie danych do analiz przeżywalności).
Przeprowadź analizę przeżywalności dla wybranego genu, podając jego nazwę i warstwę danych (np. 'deseq_normalize'), lub uruchom analizę dla wszystkich genów jednocześnie — pamiętaj, że pełna analiza może trwać kilka minut dla dużych zestawów.
Wyeksportuj ostateczne wyniki, zapisując obiekt AnnData z wynikami analiz przeżywalności do pliku HDF5.