bulk-rna-seq-batch-correction-with-combat
Usuń efekty batch'u z RNA-seq – harmonizuj dane z wielu kohort przed analizą
Instalacja
Wybierz klienta i sklonuj repozytorium do odpowiedniego katalogu skilli.
Instalacja
O skillu
Skill do korekcji efektów batch'u w danych bulk RNA-seq i mikroarray przy użyciu pyComBat. Łączy macierze ekspresji z różnych serii pomiarowych, usuwa systematyczne różnice między batch'ami i eksportuje skorygowane macierze wraz z wizualizacją porównawczą. Idealny dla badaczy pracujących z połączonymi kohortami, gdzie dane pochodzą z różnych laboratoriów lub czasów sekwencjonowania.
Jak używać
Zainstaluj omicverse i wymagane biblioteki (anndata, pandas, matplotlib). Skill wymaga dostępu do funkcji
ov.bulk.batch_correction()z pakietu omicverse.Przygotuj swoje dane: wczytaj każdą macierz ekspresji osobno za pomocą
pd.read_pickle()lubpd.read_csv(). Upewnij się, że wiersze to geny, a kolumny to próbki. Każdą macierz opakuj w obiektanndata.AnnDatai przypisz kolumnębatchwadata.obsz etykietą batch'u (np. '1', '2', '3' lub opisowe nazwy jak 'lab_A', 'lab_B').Połącz macierze na wspólnych genach: użyj
anndata.concat([adata1, adata2, adata3], merge='same'), aby zachować tylko geny obecne we wszystkich batch'ach. Zweryfikuj, że liczba próbek na batch jest zbilansowana.Uruchom korekcję ComBat: wykonaj
ov.bulk.batch_correction(adata, batch_key='batch'). Wartości skorygowane będą przechowywane wadata.layers['batch_correction'], podczas gdy oryginalne dane pozostaną wadata.X.Eksportuj wyniki: wyodrębnij macierz surowych danych za pomocą
adata.to_df().Ti macierz skorygowaną za pomocąadata.to_df(layer='batch_correction').T. Zapisz obie macierze jako pliki CSV lub pickle do dalszej analizy.Porównaj efekt korekcji: wygeneruj wizualizacje przed i po korekcji (np. PCA, heatmapy), aby potwierdzić, że efekty batch'u zostały usunięte bez utraty biologicznego sygnału.