Khôi phục bộ gen từ metagenomes thông qua chiến lược hạn chế, tổng hợp và đánh giá

Nature Microbiology - Tập 3 Số 7 - Trang 836-843
Christian M. K. Sieber1, Alexander J. Probst2, Allison Sharrar2, Brian C. Thomas2, Matthias Hess3, Susannah G. Tringe1, Jillian F. Banfield2
1Department of Energy Joint Genome Institute, Walnut Creek, CA, USA
2Department of Earth and Planetary Science, University of California, Berkeley, CA, USA
3Department of Animal Science, University of California, Davis, CA, USA

Tóm tắt

Tóm tắt

Các cộng đồng vi sinh vật đóng vai trò thiết yếu trong chức năng của hệ sinh thái. Một mục tiêu chính của các nghiên cứu metagenomic là phân tích các con đường chuyển hoá đặc hiệu của sinh vật và tái cấu trúc các mạng tương tác trong cộng đồng. Điều này yêu cầu phải gán chính xác các mảnh genome đã ghép nối vào các bộ gen. Các phương pháp phân loại hiện tại thường không thể tái cấu trúc một số lượng hợp lý các bộ gen và báo cáo nhiều nhóm (bins) có chất lượng và độ hoàn chỉnh thấp. Hơn nữa, hiệu suất của các thuật toán hiện có thay đổi giữa các mẫu và sinh cảnh khác nhau. Tại đây, chúng tôi giới thiệu một chiến lược hạn chế, tổng hợp và đánh giá, gọi là DAS Tool, kết hợp những ưu điểm của một tập hợp linh hoạt các thuật toán phân loại đã được thiết lập. DAS Tool áp dụng cho một cộng đồng được xây dựng đã tạo ra nhiều bins chính xác hơn bất kỳ phương pháp tự động nào. Thực tế, khi được áp dụng cho các mẫu môi trường và mẫu liên quan đến chủ thể với độ phức tạp khác nhau, DAS Tool đã khôi phục được nhiều bộ gen gần như hoàn chỉnh hơn đáng kể, bao gồm cả các nhánh chưa được báo cáo trước đó, so với bất kỳ phương pháp phân loại đơn lẻ nào. Năng lực tái cấu trúc nhiều bộ gen gần như hoàn chỉnh từ dữ liệu metagenomics sẽ thúc đẩy mạnh mẽ các phân tích tập trung vào bộ gen của các hệ sinh thái.

Từ khóa


Tài liệu tham khảo

Tyson, G. W. et al. Community structure and metabolism through reconstruction of microbial genomes from the environment. Nature 428, 37–43 (2004).

Teeling, H., Meyerdierks, A., Bauer, M., Amann, R. & Glöckner, F. O. Application of tetranucleotide frequencies for the assignment of genomic fragments. Environ. Microbiol. 6, 938–947 (2004).

Abe, T. et al. A novel bioinformatic strategy for unveiling hidden genome signatures of eukaryotes: self-organizing map of oligonucleotide frequency. Genome Inform. 13, 12–20 (2002).

Dick, G. J. et al. Community-wide analysis of microbial genome sequence signatures. Genome Biol. 10, R85 (2009).

Anantharaman, K., Breier, J. A. & Dick, G. J. Metagenomic resolution of microbial functions in deep-sea hydrothermal plumes across the Eastern Lau Spreading Center. ISME J. 10, 225–239 (2016).

Hug, L. A. et al. Critical biogeochemical functions in the subsurface are associated with bacteria from new phyla and little studied lineages. Env. Microbiol. 18, 159–173 (2015).

Sharon, I. et al. Time series community genomics analysis reveals rapid shifts in bacterial species, strains, and phage during infant gut colonization. Genome Res. 23, 111–120 (2013).

Albertsen, M. et al. Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes. Nat. Biotechnol. 31, 533–538 (2013).

Alneberg, J. et al. Binning metagenomic contigs by coverage and composition. Nat. Methods 11, 1144–1146 (2014).

Kang, D. D., Froula, J., Egan, R. & Wang, Z. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities. PeerJ 3, e1165 (2015).

Lu, Y. Y., Chen, T., Fuhrman, J. A. & Sun, F. COCACOLA: binning metagenomic contigs using sequence COmposition, read CoverAge, CO-alignment and paired-end read LinkAge. Bioinformatics 33, 791–798 (2017).

Graham, E. D., Heidelberg, J. F. & Tully, B. J. BinSanity: unsupervised clustering of environmental microbial assemblies using coverage and affinity propagation. PeerJ 5, e3035 (2017).

Wu, Y.-W. W., Simmons, B. A. & Singer, S. W. MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets. Bioinformatics 32, 605–607 (2015).

Lin, H.-H. & Liao, Y.-C. Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes. Sci. Rep. 6, 24175 (2016).

Parks, D. H., Imelfort, M., Skennerton, C. T., Hugenholtz, P. & Tyson, G. W. CheckM: assessing the quality of microbial genomes recovered from isolates, single cells, and metagenomes. Genome Res. 25, 1043–1055 (2015).

Simao, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V. & Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics 31, 3210–3212 (2015).

Probst, A. J. et al. Genomic resolution of a cold subsurface aquifer community provides metabolic insights for novel microbes adapted to high CO2 concentrations. Environ. Microbiol. 19, 459–474 (2017).

Song, W.-Z. & Thomas, T. Binning_refiner: improving genome bins through the combination of different binning programs. Bioinformatics 33, 1873–1875 2017).

Sczyrba, A. et al. Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software. Nat. Methods 14, 1063–1071 (2017).

Di Rienzi, S. C. et al. The human gut and groundwater harbor non-photosynthetic bacteria belonging to a new candidate phylum sibling to Cyanobacteria. Elife 2, e01102 (2013).

Hawley, E. R. et al. Metagenomes from two microbial consortia associated with Santa Barbara seep oil. Mar. Genomics 18, 97–99 (2014).

Hawley, E. R. et al. Metagenomic analysis of microbial consortium from natural crude oil that seeps into the marine ecosystem offshore Southern California. Stand. Genom. Sci. 9, 1259–1274 (2014).

Quast, C. et al. The SILVA ribosomal RNA gene database project: improved data processing and web-based tools. Nucleic Acids Res. 41, D590–D596 (2013).

Butterfield, C. N. et al. Proteogenomic analyses indicate bacterial methylotrophy and archaeal heterotrophy are prevalent below the grass root zone. PeerJ 4, e2687 (2016).

R Core Team. R: A Language and Environment for Statistical Computing (R Foundation for Statistical Computing, 2015).

Weston, S. & Calaway, R. doMC: Foreach Parallel Adaptor for ‘parallel’ (2015); https://cran.r-project.org/web/packages/doMC

Dowle, M., Srinivasan, A., Short, T., Saporta, S. L. & Antonyan, E. data.table: Extension of Data.frame (2015); https://cran.r-project.org/web/packages/data.table

Wickham, H. ggplot2: Elegant Graphics for Data Analysis (Springer-Verlag, New York, 2009).

Hyatt, D., Locascio, P. F., Hauser, L. J. & Uberbacher, E. C. Gene and translation initiation site prediction in metagenomic sequences. Bioinformatics 28, 2223–2230 (2012).

Brown, C. T. et al. Unusual biology across a group comprising more than 15% of domain Bacteria. Nature 523, 208–211 (2015).

Edgar, R. C. Search and clustering orders of magnitude faster than BLAST. Bioinformatics 26, 2460–2461 (2010).

Buchfink, B., Xie, C. & Huson, D. H. Fast and sensitive protein alignment using DIAMOND. Nat. Methods 12, 59–60 (2015).

Altschul, S. F., Gish, W., Miller, W., Myers, E. W. & Lipman, D. J. Basic local alignment search tool. J. Mol. Biol. 215, 403–410 (1990).

Singer, E. et al. Next generation sequencing data of a defined microbial mock community. Sci. Data 3, 160081 (2016).

Peng, Y., Leung, H. C. M., Yiu, S. M. & Chin, F. Y. L. IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth. Bioinformatics 28, 1420–1428 (2012).

Langmead, B. & Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat. Methods 9, 357–359 (2012).

Ultsch, A. & Mörchen, F. ESOM-Maps: Tools for Clustering, Visualization, and Classification with Emergent SOM (2005); http://databionic-esom.sourceforge.net

Wrighton, K. C. et al. Fermentation, hydrogen, and sulfur metabolism in multiple uncultivated bacterial phyla. Science 337, 1661–1665 (2012).

Kanehisa, M. & Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28, 27–30 (2000).

Suzek, B. E., Huang, H., McGarvey, P., Mazumder, R. & Wu, C. H. UniRef: comprehensive and non-redundant UniProt reference clusters. Bioinformatics 23, 1282–1288 (2007).

UniProt Consortium. UniProt: a hub for protein information. Nucleic Acids Res. 43, D204–D212 (2015).

Edgar, R. C. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics 5, 113 (2004).

Stamatakis, A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics 30, 1312–1313 (2014).

Miller, M. A., Pfeiffer, W. & Schwartz, T. Creating the CIPRES Science Gateway for inference of large phylogenetic trees. Gatew. Comput. Environ. Work. (GCE) 2010, 1–8 (2010).

Nawrocki, E. P. Structural RNA Homology Search and Alignment using Covariance Models All Theses and Dissertations (ETDs) (Washington University in Saint Louis, School of Medicine, 2009).

Paradis, E., Claude, J. & Strimmer, K. APE: analyses of phylogenetics and evolution in R language. Bioinformatics 20, 289–290 (2004).