BUSCO: Đánh giá tính hoàn chỉnh của việc lắp ráp gen và chú thích bằng các ortholog đơn bản sao
Tóm tắt
Động lực: Genomics đã cách mạng hóa nghiên cứu sinh học, nhưng việc đánh giá chất lượng của các chuỗi lắp ráp kết quả thì phức tạp và chủ yếu bị giới hạn trong các biện pháp kỹ thuật như N50.
Kết quả: Chúng tôi đề xuất một biện pháp để đánh giá định lượng tính hoàn chỉnh của việc lắp ráp và chú thích gen dựa trên những kỳ vọng có thông tin từ tiến hóa về nội dung gen. Chúng tôi đã triển khai quy trình đánh giá trong phần mềm mã nguồn mở, với các bộ Benchmarking Universal Single-Copy Orthologs, gọi tắt là BUSCO.
Khả năng tiếp cận và triển khai: Phần mềm được triển khai bằng Python và các tập dữ liệu có thể tải về từ http://busco.ezlab.org.
Liên hệ: [email protected]
Thông tin bổ sung: Dữ liệu bổ sung có sẵn tại Bioinformatics online.
Từ khóa
Tài liệu tham khảo
Clark, 2013, ALE: a generic assembly likelihood evaluation framework for assessing the accuracy of genome and metagenome assemblies, Bioinformatics, 29, 435, 10.1093/bioinformatics/bts723
Eddy, 2011, Accelerated profile HMM searches, PLoS Comput. Biol., 7, e1002195, 10.1371/journal.pcbi.1002195
Gurevich, 2013, QUAST: quality assessment tool for genome assemblies, Bioinformatics, 29, 1072, 10.1093/bioinformatics/btt086
Hunt, 2013, REAPR: a universal tool for genome assembly evaluation, Genome Biol., 14, R47, 10.1186/gb-2013-14-5-r47
Keller, 2011, A novel hybrid gene prediction method employing protein multiple sequence alignments, Bioinformatics, 27, 757, 10.1093/bioinformatics/btr010
Mende, 2013, Accurate and universal delineation of prokaryotic species, Nat. Methods, 10, 881, 10.1038/nmeth.2575
Parra, 2007, CEGMA: a pipeline to accurately annotate core genes in eukaryotic genomes, Bioinformatics, 23, 1061, 10.1093/bioinformatics/btm071
Parra, 2009, Assessing the gene space in draft genomes, Nucleic Acids Res., 37, 289, 10.1093/nar/gkn916
Simpson, 2014, Exploring genome characteristics and sequence quality without a reference, Bioinformatics, 30, 1228, 10.1093/bioinformatics/btu023
Waterhouse, 2011, Correlating traits of gene retention, sequence divergence, duplicability and essentiality, Genome Biol. Evol., 3, 75, 10.1093/gbe/evq083