CheckM: đánh giá chất lượng của bộ genome vi sinh vật được phục hồi từ các mẫu cô lập, tế bào đơn lẻ và metagenome

Genome Research - Tập 25 Số 7 - Trang 1043-1055 - 2015
Donovan H. Parks1, Michael Imelfort1, Connor T. Skennerton1, Philip Hugenholtz1,2, Gene W. Tyson1,3
11Australian Centre for Ecogenomics, School of Chemistry and Molecular Biosciences, The University of Queensland, St. Lucia, QLD 4072, Queensland, Australia
22Institute for Molecular Bioscience, The University of Queensland, St. Lucia, QLD 4072, Queensland, Australia
33Advanced Water Management Centre, The University of Queensland, St. Lucia, QLD 4072, Queensland, Australia

Tóm tắt

Sự phục hồi quy mô lớn của các bộ genome từ các mẫu cô lập, tế bào đơn lẻ và dữ liệu metagenome đã trở nên khả thi nhờ những tiến bộ trong các phương pháp tính toán và giảm đáng kể chi phí giải trình tự. Mặc dù sự mở rộng này của các bộ genome nháp đang cung cấp thông tin chính yếu về tính đa dạng tiến hóa và chức năng của đời sống vi sinh vật, việc hoàn thiện tất cả các bộ reference genome hiện có đã trở thành không khả thi. Việc đưa ra các suy luận sinh học chính xác từ các genome nháp đòi hỏi ước lượng chính xác mức độ hoàn chỉnh và ô nhiễm của chúng. Các phương pháp hiện tại để đánh giá chất lượng genome là dựa theo cách riêng và thường sử dụng một số lượng hạn chế các gene “marker” được bảo tồn trên tất cả các genome vi khuẩn hoặc vi khuẩn cổ. Tại đây, chúng tôi giới thiệu CheckM, một phương pháp tự động để đánh giá chất lượng của một genome sử dụng một tập hợp rộng hơn các gene marker đặc thù cho vị trí của một genome trong cây reference genome và thông tin về vị trí đồng bộ của các gene này. Chúng tôi chứng minh hiệu quả của CheckM bằng cách sử dụng dữ liệu tổng hợp và nhiều loại genome chiết xuất từ mẫu cô lập, tế bào đơn lẻ và metagenome. CheckM được chứng minh là cung cấp các ước lượng chính xác về mức độ hoàn chỉnh và ô nhiễm của genome và vượt trội so với các phương pháp hiện có. Sử dụng CheckM, chúng tôi xác định một loạt các lỗi đang ảnh hưởng đến các genome mẫu cô lập công khai hiện có và chứng minh rằng các genome được thu nhận từ tế bào đơn lẻ và dữ liệu metagenome có sự khác biệt đáng kể về chất lượng. Để tạo điều kiện sử dụng các genome nháp, chúng tôi đề xuất một tiêu chí khách quan về chất lượng genome có thể được sử dụng để lựa chọn các genome phù hợp cho các phân tích tập trung vào gene và genome của các cộng đồng vi sinh vật.

Từ khóa

#genome #CheckM #vi sinh vật #ô nhiễm #hoàn chỉnh #metagenome #tế bào đơn lẻ #phương pháp tự động

Tài liệu tham khảo

10.1093/nar/gks406

10.1038/nbt.2579

10.1038/nmeth.1358

10.1126/science.1180614

10.7717/peerj.243

2010, Community-wide analysis of microbial genome sequences signatures, Genome Biol, 10:, R85

2014, Taxator-tk: precise taxonomic assignment of metagenomes by fast approximation of evolutionary neighborhoods, Bioinformatics, 31:, 817

10.1038/ismej.2011.189

10.1038/nbt1360

10.1093/nar/gkt1223

2013, QUAST: quality assessment tool for genome assemblies, Bioinformatics, 15:, 1072

10.1093/nar/gkg128

10.1038/nature12375

10.1093/bioinformatics/bts429

10.7717/peerj.603

10.1371/journal.pone.0087924

10.1128/JB.187.18.6258-6264.2005

10.1038/nrmicro2350

10.1101/gr.032102

10.1093/nar/gkt963

10.1186/1471-2105-11-538

10.1038/ismej.2011.139

10.1038/nmeth.2575

10.1111/j.1462-2920.2009.02083.x

10.1186/1471-2105-12-328

10.1038/nmeth0311-191

10.1093/molbev/msp077

10.1038/nature12352

10.1101/gr.131383.111

10.1038/ncomms3304

10.7717/peerj.740

10.1126/science.1247023

10.1101/gr.142315.112

10.1073/pnas.1217107110

10.1128/JB.05667-11

10.1093/gbe/evu073

10.1093/bioinformatics/btq228

10.1073/pnas.1304246110

10.1038/nature06244

10.1038/nature02340

10.1093/oxfordjournals.molbev.a003851

10.1126/science.1224041

10.1093/bioinformatics/bts079

10.1038/nature08656

Wu D , Doroud L , Eisen JA . 2013. TreeOTU: operational taxonomic unit classification based on phylogenetic trees. arXiv 1308.6333v1.

10.1007/BF00160154

2013, A genomic update on clostridial phylogeny: gram-negative spore formers and other misplaced clostridia, Environ Microbiol, 15:, 2631, 10.1111/1462-2920.12173