CheckM: đánh giá chất lượng của bộ genome vi sinh vật được phục hồi từ các mẫu cô lập, tế bào đơn lẻ và metagenome
Tóm tắt
Sự phục hồi quy mô lớn của các bộ genome từ các mẫu cô lập, tế bào đơn lẻ và dữ liệu metagenome đã trở nên khả thi nhờ những tiến bộ trong các phương pháp tính toán và giảm đáng kể chi phí giải trình tự. Mặc dù sự mở rộng này của các bộ genome nháp đang cung cấp thông tin chính yếu về tính đa dạng tiến hóa và chức năng của đời sống vi sinh vật, việc hoàn thiện tất cả các bộ reference genome hiện có đã trở thành không khả thi. Việc đưa ra các suy luận sinh học chính xác từ các genome nháp đòi hỏi ước lượng chính xác mức độ hoàn chỉnh và ô nhiễm của chúng. Các phương pháp hiện tại để đánh giá chất lượng genome là dựa theo cách riêng và thường sử dụng một số lượng hạn chế các gene “marker” được bảo tồn trên tất cả các genome vi khuẩn hoặc vi khuẩn cổ. Tại đây, chúng tôi giới thiệu CheckM, một phương pháp tự động để đánh giá chất lượng của một genome sử dụng một tập hợp rộng hơn các gene marker đặc thù cho vị trí của một genome trong cây reference genome và thông tin về vị trí đồng bộ của các gene này. Chúng tôi chứng minh hiệu quả của CheckM bằng cách sử dụng dữ liệu tổng hợp và nhiều loại genome chiết xuất từ mẫu cô lập, tế bào đơn lẻ và metagenome. CheckM được chứng minh là cung cấp các ước lượng chính xác về mức độ hoàn chỉnh và ô nhiễm của genome và vượt trội so với các phương pháp hiện có. Sử dụng CheckM, chúng tôi xác định một loạt các lỗi đang ảnh hưởng đến các genome mẫu cô lập công khai hiện có và chứng minh rằng các genome được thu nhận từ tế bào đơn lẻ và dữ liệu metagenome có sự khác biệt đáng kể về chất lượng. Để tạo điều kiện sử dụng các genome nháp, chúng tôi đề xuất một tiêu chí khách quan về chất lượng genome có thể được sử dụng để lựa chọn các genome phù hợp cho các phân tích tập trung vào gene và genome của các cộng đồng vi sinh vật.
Từ khóa
#genome #CheckM #vi sinh vật #ô nhiễm #hoàn chỉnh #metagenome #tế bào đơn lẻ #phương pháp tự độngTài liệu tham khảo
2010, Community-wide analysis of microbial genome sequences signatures, Genome Biol, 10:, R85
2014, Taxator-tk: precise taxonomic assignment of metagenomes by fast approximation of evolutionary neighborhoods, Bioinformatics, 31:, 817
2013, QUAST: quality assessment tool for genome assemblies, Bioinformatics, 15:, 1072
Wu D , Doroud L , Eisen JA . 2013. TreeOTU: operational taxonomic unit classification based on phylogenetic trees. arXiv 1308.6333v1.