BUSCO: Đánh giá tính hoàn chỉnh của việc lắp ráp gen và chú thích bằng các ortholog đơn bản sao

Bioinformatics (Oxford, England) - Tập 31 Số 19 - Trang 3210-3212 - 2015
Felipe A. Simão1, Robert M. Waterhouse1, Panagiotis Ioannidis1, Evgenia V. Kriventseva1, Evgeny M. Zdobnov1
1Department of Genetic Medicine and Development, University of Geneva Medical School and Swiss Institute of Bioinformatics, rue Michel-Servet 1, 1211 Geneva, Switzerland

Tóm tắt

Tóm tắt

Động lực: Genomics đã cách mạng hóa nghiên cứu sinh học, nhưng việc đánh giá chất lượng của các chuỗi lắp ráp kết quả thì phức tạp và chủ yếu bị giới hạn trong các biện pháp kỹ thuật như N50.

Kết quả: Chúng tôi đề xuất một biện pháp để đánh giá định lượng tính hoàn chỉnh của việc lắp ráp và chú thích gen dựa trên những kỳ vọng có thông tin từ tiến hóa về nội dung gen. Chúng tôi đã triển khai quy trình đánh giá trong phần mềm mã nguồn mở, với các bộ Benchmarking Universal Single-Copy Orthologs, gọi tắt là BUSCO.

Khả năng tiếp cận và triển khai: Phần mềm được triển khai bằng Python và các tập dữ liệu có thể tải về từ http://busco.ezlab.org.

Liên hệ: [email protected]

Thông tin bổ sung: Dữ liệu bổ sung có sẵn tại Bioinformatics online.

Từ khóa


Tài liệu tham khảo

Clark, 2013, ALE: a generic assembly likelihood evaluation framework for assessing the accuracy of genome and metagenome assemblies, Bioinformatics, 29, 435, 10.1093/bioinformatics/bts723

Eddy, 2011, Accelerated profile HMM searches, PLoS Comput. Biol., 7, e1002195, 10.1371/journal.pcbi.1002195

Gurevich, 2013, QUAST: quality assessment tool for genome assemblies, Bioinformatics, 29, 1072, 10.1093/bioinformatics/btt086

Hunt, 2013, REAPR: a universal tool for genome assembly evaluation, Genome Biol., 14, R47, 10.1186/gb-2013-14-5-r47

Keller, 2011, A novel hybrid gene prediction method employing protein multiple sequence alignments, Bioinformatics, 27, 757, 10.1093/bioinformatics/btr010

Mende, 2013, Accurate and universal delineation of prokaryotic species, Nat. Methods, 10, 881, 10.1038/nmeth.2575

Parra, 2007, CEGMA: a pipeline to accurately annotate core genes in eukaryotic genomes, Bioinformatics, 23, 1061, 10.1093/bioinformatics/btm071

Parra, 2009, Assessing the gene space in draft genomes, Nucleic Acids Res., 37, 289, 10.1093/nar/gkn916

Simpson, 2014, Exploring genome characteristics and sequence quality without a reference, Bioinformatics, 30, 1228, 10.1093/bioinformatics/btu023

Waterhouse, 2011, Correlating traits of gene retention, sequence divergence, duplicability and essentiality, Genome Biol. Evol., 3, 75, 10.1093/gbe/evq083

Waterhouse, 2013, OrthoDB: a hierarchical catalog of animal, fungal and bacterial orthologs, Nucleic Acids Res., 41, D358, 10.1093/nar/gks1116