CoGAPS 3: Phân tích dữ liệu đơn bào bằng phương pháp phân tích ma trận không âm Bayesian với cập nhật không đồng bộ và cấu trúc dữ liệu thưa

Thomas D. Sherman1, Tiger Gao2, Elana J. Fertig1,3
1Department of Oncology, Johns Hopkins University School of Medicine, Baltimore, USA
2Department of Computer Science; Johns Hopkins University; Baltimore USA
3Department of Applied Mathematics and Statistics, Johns Hopkins University, Baltimore, USA

Tóm tắt

Tóm tắt Nền tảng Các phương pháp phân tách Bayesian, bao gồm Hoạt động Gene Được Phối Hợp Trong Bộ Mẫu (CoGAPS), đang nổi lên như những công cụ phân tích mạnh mẽ cho dữ liệu đơn bào. Tuy nhiên, những phương pháp này có chi phí tính toán lớn hơn so với các phương pháp dựa trên gradient. Chi phí này thường là rào cản cho việc phân tích các tập dữ liệu đơn bào lớn. Nhiều phương pháp như vậy có thể được chạy song song, cho phép vượt qua rào cản này bằng cách sử dụng phần cứng mạnh mẽ hơn. Tuy nhiên, các hạn chế do phân phối trước trong CoGAPS giới hạn tính khả thi của các phương pháp song song nhằm nâng cao hiệu quả tính toán cho phân tích đơn bào. Kết quả Chúng tôi đã phát triển một khung phần mềm mới cho việc phân tách ma trận song song trong Phiên bản 3 của gói CoGAPS R/Bioconductor để vượt qua những hạn chế về tính toán của phân tách ma trận Bayesian trong việc phân tích dữ liệu đơn bào. Khung phân tách này cung cấp các cập nhật không đồng bộ cho các bước cập nhật tuần tự của thuật toán nhằm nâng cao hiệu quả tính toán. Những tiến bộ trong thuật toán này được kết hợp với kiến trúc phần mềm mới và cấu trúc dữ liệu thưa để giảm thiểu chi phí bộ nhớ cho dữ liệu đơn bào. Kết luận Tất cả lại, phần mềm mới của chúng tôi nâng cao hiệu quả của thuật toán phân tách ma trận Bayesian CoGAPS nhằm có thể phân tích nhiều hơn 1000 lần số tế bào, cho phép phân tách các tập dữ liệu đơn bào lớn.

Từ khóa


Tài liệu tham khảo

Ahn S, et al. Large-scale distributed Bayesian matrix factorization using stochastic gradient MCMC. In: Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining—KDD’15. Sydney: ACM Press; 2015. p. 9–18.

Bo Li, et al. Census of immune cells. Broad Inst. Mass. Inst. Technol. Howard Hughes Med. Inst. https://data.humancellatlas.org/explore/projects/cc95ff89-2e68-4a08-a234-480eca21ce79. Accessed 2019

Clark BS, et al. Single-cell RNA-seq analysis of retinal development identifies NFI factors as regulating mitotic exit and late-born cell specification. Neuron. 2019;102:1111-1126.e5.

Cleary B, et al. Efficient generation of transcriptomic profiles by random composite measurements. Cell. 2017;171:1424-1436.e18.

Duren Z, et al. Integrative analysis of single-cell genomics data by coupled nonnegative matrix factorizations. Proc Natl Acad Sci. 2018;115:7723–8.

Fertig EJ, et al. CoGAPS: an R/C++ package to identify patterns and biological process activity in transcriptomic data. Bioinform Oxf Engl. 2010;26:2792–3.

Kotliar D, et al. Identifying gene expression programs of cell-type identity and cellular activity with single-cell RNA-Seq. eLife. 2019;8:e43803.

Li F, et al. A fast distributed stochastic gradient descent algorithm for matrix factorization. In: JMLR: workshop and conference proceedings. 2014;36:77–87.

Ochs MF, Fertig EJ. Matrix factorization for transcriptional regulatory network inference. In: 2012 IEEE symposium on computational intelligence in bioinformatics and computational biology; 2012. p. 387–96.

Schmidt MN, et al. Bayesian non-negative matrix factorization. In: Adali T, et al., editors. Independent component analysis and signal separation. Lecture notes in computer science. Berlin: Springer; 2009. p. 540–7.

Stein-O’Brien GL, et al. Decomposing cell identity for transfer learning across cellular measurements, platforms, tissues, and species. Cell Syst. 2019;8:395-411.e8.

Stein-O’Brien GL, et al. Enter the matrix: factorization uncovers knowledge from omics. Trends Genet. 2018;34:790–805.

Stein-O’Brien GL, et al. PatternMarkers & GWCoGAPS for novel data-driven biomarkers via whole transcriptome NMF. Bioinform Oxf Engl. 2017;33:1892–4.

Welch JD, et al. Single-cell multi-omic integration compares and contrasts features of brain cell identity. Cell. 2019;177:1873-1887.e17.

Zappia L, et al. Splatter: simulation of single-cell RNA sequencing data. Genome Biol. 2017;18:174.

Zhu X, et al. Detecting heterogeneity in single-cell RNA-Seq data by non-negative matrix factorization. PeerJ. 2017;5:e2888.