Mô hình yếu tố Bayesian rải để xây dựng mạng lưới đồng biểu hiện gen từ dữ liệu đếm RNA đơn bào

BMC Bioinformatics - Tập 21 Số 1 - 2020
Michael Sekula1, Jeremy Gaskins1, Susmita Datta2
1Department of Bioinformatics and Biostatistics, University of Louisville, Louisville, KY, USA
2Department of Biostatistics, University of Florida, Gainesville, FL, USA

Tóm tắt

Tóm tắtĐặt vấn đềMạng lưới đồng biểu hiện gen (GCNs) là công cụ mạnh mẽ giúp các nhà sinh học xem xét các mối liên hệ giữa các gen trong các quá trình sinh học khác nhau. Với sự phát triển của những công nghệ mới, chẳng hạn như giải trình tự RNA đơn bào (scRNA-seq), có nhu cầu phát triển các phương pháp mạng lưới mới phù hợp với các loại dữ liệu mới.Kết quảChúng tôi trình bày một mô hình yếu tố Bayesian rải mới để khám phá cấu trúc mạng lưới liên quan đến các gen trong dữ liệu scRNA-seq. Các yếu tố tiềm ẩn ảnh hưởng đến giá trị biểu hiện gen cho mỗi tế bào và cung cấp tính linh hoạt để giải thích các đặc điểm chung của scRNA-seq: tỷ lệ giá trị bằng không cao, biến đổi giữa các tế bào tăng lên, và phân tán quá mức do các giá trị biểu hiện lớn bất thường. Từ mô hình của chúng tôi, chúng tôi xây dựng một GCN bằng cách phân tích các mối liên hệ dương và âm của các yếu tố được chia sẻ giữa mỗi cặp gen.Kết luậnCác nghiên cứu mô phỏng chứng minh rằng phương pháp của chúng tôi có sức mạnh cao trong việc xác định các mối liên hệ giữa các gen trong khi duy trì tỷ lệ phát hiện sai danh nghĩa. Trong các phân tích dữ liệu thực, mô hình của chúng tôi xác định nhiều tương tác protein-protein đã biết và được dự đoán hơn các mô hình mạng lưới cạnh tranh khác.

Từ khóa


Tài liệu tham khảo

De Smet R, Marchal K. Advantages and limitations of current network inference methods. Nat Rev Microbiol. 2010; 8(10):717–29.

Eisen MB, Spellman PT, Brown PO, Botstein D. Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci USA. 1998; 95(25):14863–8.

Wolfe CJ, Kohane IS, Butte AJ. Systematic survey reveals general applicability of “guilt-by-association” within gene coexpression networks. BMC Bioinformatics. 2005; 6(1):227.

Wang J, Xia S, Arand B, Zhu H, Machiraju R, Huang K, et al. Single-cell co-expression analysis reveals distinct functional modules, co-regulation mechanisms and clinical outcomes. PLoS Comput Biol. 2016; 12(4):e1004892.

Fiers MW, Minnoye L, Aibar S, Bravo González-Blas C, Kalender Atak Z, Aerts S. Mapping gene regulatory networks from single-cell omics data. Brief Funct Genomics. 2018; 17(4):246–54.

Bacher R, Kendziorski C. Design and computational analysis of single-cell RNA-sequencing experiments. Genome Biol. 2016; 17(1):63.

Blencowe M, Arneson D, Ding J, Chen YW, Saleem Z, Yang X. Network modeling of single-cell omics data: Challenges, opportunities, and progresses. Emerg Top Life Sci. 2019; 3(4):379–98.

Chen S, Mar JC. Evaluating methods of inferring gene regulatory networks highlights their lack of performance for single cell gene expression data. BMC Bioinformatics. 2018; 19(1):1–21.

Cario MC, Nelson BL. Modeling and generating random vectors with arbitrary marginal distributions and correlation matrix. Technical Report, Department of Industrial Engineering and Management Sciences, Northwestern University, Evanston, Illinois. 1997.

Miao Z, Deng K, Wang X, Zhang X. DEsingle for detecting three types of differential expression in single-cell RNA-seq data. Bioinformatics. 2018; 34(18):3223–4.

Risso D, Perraudeau F, Gribkova S, Dudoit S, Vert JP. A general and flexible method for signal extraction from single-cell RNA-seq data. Nat Commun. 2018; 9(1):1–17.

Van den Berge K, Perraudeau F, Soneson C, Love MI, Risso D, Vert JP, et al. Observation weights unlock bulk RNA-seq tools for zero inflation and single-cell applications. Genome Biol. 2018; 19(1):1–17.

Touloumis A. Simulating correlated binary and multinomial responses under marginal model specification: The SimCorMultRes package. R J. 2016; 8(2):79.

Yang M, Zamba G, Cavanaugh J. ZIM: Zero-inflated models (ZIM) for count time series with excess zeros. R package version 1.1.0. 2018. https://CRAN.R-project.org/package=ZIM. Accessed 29 June 2020.

Tay TL, Dautzenberg J, Grün D, Prinz M. Unique microglia recovery population revealed by single-cell RNAseq following neurodegeneration. Acta Neuropathol Commun. 2018; 6(1):1–11.

Zeisel A, Muñoz-Manchado AB, Codeluppi S, Lönnerberg P, La Manno G, Juréus A, et al. Cell types in the mouse cortex and hippocampus revealed by single-cell RNA-seq. Science. 2015; 347(6226):1138–42.

R Core Team. R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing. 2018. https://www.R-project.org. Accessed 29 June 2020.

Gelman A, Carlin JB, Stern HS, Rubin DB. Bayesian Data Analysis, 2nd ed. Boca Raton: Chapman and Hall/CRC; 2004.

Specht AT, Li J. LEAP: Constructing gene co-expression networks for single-cell RNA-sequencing data using pseudotime ordering. Bioinformatics. 2016; 33(5):764–6.

Chan TE, Stumpf MP, Babtie AC. Gene regulatory network inference from single-cell data using multivariate information measures. Cell Syst. 2017; 5(3):251–67.

Matsumoto H, Kiryu H, Furusawa C, Ko MS, Ko SB, Gouda N, et al. SCODE: An efficient regulatory network inference algorithm from single-cell RNA-Seq during differentiation. Bioinformatics. 2017; 33(15):2314–21.

Bezanson J, Edelman A Karpinski S, Shah VB. Julia: A fresh approach to numerical computing. SIAM Rev Soc Ind Appl Math. 2017; 59(1):65–98.

Trapnell C, Cacchiarelli D, Grimsby J, Pokharel P, Li S, Morse M, et al. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nat Biotechnol. 2014; 32(4):381.

Huynh-Thu V, Irrthum A, Wehenkel L, Geurts P. Inferring regulatory networks from expression data using tree-based methods. PLoS ONE. 2010; 5(9):e12776.

Kim S. ppcor: An R package for a fast calculation to semi-partial correlation coefficients. Commun Stat Appl Methods. 2015; 22(6):665.

Benjamini Y, Hochberg Y. Controlling the false discovery rate: A practical and powerful approach to multiple testing. J R Stat Soc Series B. 1995; 57(1):289–300.

Scutari M. Learning Bayesian networks with the bnlearn R package. J Stat Softw. 2010; 35(3):1–22.

Szklarczyk D, Franceschini A, Wyder S, Forslund K, Heller D, Huerta-Cepas J, et al. STRING v10: Protein–protein interaction networks, integrated over the tree of life. Nucleic Acids Res. 2014; 43(D1):D447–52.

von Mering C, Jensen LJ, Snel B, Hooper SD, Krupp M, Foglierini M, et al. STRING: Known and predicted protein–protein associations, integrated and transferred across organisms. Nucleic Acids Res. 2005; 33:D433–7.

Lex A, Gehlenborg N, Strobelt H, Vuillemot R, Pfister H. UpSet: Visualization of intersecting sets. IEEE Trans Vis Comput Graph. 2014; 20(12):1983–92.

Delgado FM, Gómez-Vela F. Computational methods for gene regulatory networks reconstruction and analysis: A review. Artif Intell Med. 2019; 95:133–45.

Street K, Risso D, Fletcher RB, Das D, Ngai J, Yosef N, et al. Slingshot: Cell lineage and pseudotime inference for single-cell transcriptomics. BMC Genomics. 2018; 19(1):477.

Celeux G, Chauveau D, Diebolt J. Stochastic versions of the EM algorithm: An experimental study in the mixture case. J Stat Comput Simul. 1996; 55(4):287–314.

Bhattacharya A, Dunson DB. Sparse Bayesian infinite factor models. Biometrika. 2011; 98(2):291–306.