Phân tích cây phả hệ từ dữ liệu thứ tự gen với sự lặp lại lớn

Springer Science and Business Media LLC - Tập 18 - Trang 13-20 - 2017
Lingxi Zhou1, Yu Lin2, Bing Feng1, Jieyi Zhao3, Jijun Tang4,1
1Department of Computer Science and Engineering, University of South Carolina, Columbia, USA
2Research School of Computer Science, Australian National University, Canberra, Australia
3University of Texas School of Biomedical Informatics at Houston, Houston, USA
4School of Computer Science and Engineering, Tianjin University, Tianjin, China

Tóm tắt

Sự thay đổi thứ tự gen, dưới các hình thức tái sắp xếp, chèn thêm, xóa bỏ và sao chép, đã được sử dụng như một nguồn dữ liệu mới cho việc tái tạo cây phả hệ. Vì những thay đổi này hiếm khi xảy ra so với các đột biến chuỗi, chúng cho phép suy diễn cây phả hệ trở lại sâu trong thời gian tiến hóa. Hiện có nhiều phương pháp tính toán để tái tạo cây phả hệ thứ tự gen, bao gồm các phương pháp tối đa giản lược và tối đa khả năng. Tuy nhiên, cả hai phương pháp này đều gặp khó khăn trong việc xử lý các bộ gen lớn với nhiều gen bị sao chép, đặc biệt khi có sự sao chép toàn bộ bộ gen. Trong bài viết này, chúng tôi trình bày ba phương pháp đơn giản nhưng mạnh mẽ dựa trên phương pháp tối đa khả năng (ML) mà mã hóa nhiều khía cạnh của cả thông tin gần kề gen và nội dung gen cho việc tái tạo cây phả hệ. Các thí nghiệm rộng rãi trên các bộ dữ liệu mô phỏng cho thấy phương pháp mới của chúng tôi đạt được cây phả hệ chính xác nhất so với các phương pháp hiện có. Chúng tôi cũng đánh giá phương pháp của mình trên dữ liệu toàn bộ gen thực từ mười một loài động vật có vú. Gói phần mềm này có thể truy cập công khai tại http://www.geneorder.org . Các phương pháp mã hóa mới của chúng tôi đã thành công trong việc kết hợp thông tin đa hình của các gần kề gen và nội dung gen vào một khung ML, và cho thấy kết quả hứa hẹn trong việc tái tạo cây phả hệ cho dữ liệu toàn bộ gen trong bối cảnh có sự sao chép lớn.

Từ khóa

#thứ tự gen #phân tích cây phả hệ #tái sắp xếp #sao chép gen #phương pháp tối đa khả năng

Tài liệu tham khảo

Felsenstein J, Felenstein J. Inferring phylogenies. Sunderland: Sinauer Associates; 2004. Fertin G. Combinatorics of genome rearrangements. Cambridge: MIT press; 2009. Bader D, Moret B, Warnow T, Wyman S, Yan M. GRAPPA (Genome Rearrangements Analysis under Parsimony and other Phylogenetic Algorithms). www.cs.unm.edu/~moret/GRAPPA/. Bourque G, Pevzner PA. Genome-scale evolution: reconstructing gene orders in the ancestral species. Genome Res. 2002; 12(1):26–36. Cosner M, Jansen R, Moret B, Raubeson L, Wang L, Warnow T, et al. A new fast heuristic for computing the breakpoint phylogeny and a phylogenetic analysis of a group of highly rearranged chloroplast genomes. In: Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology. San Diego: 2000. p. 104–15. Moret BM, Wang LS, Warnow T, Wyman SK. New approaches for reconstructing phylogenies from gene order data. Bioinformatics. 2001; 17(suppl 1):S165–S173. Edwards A, Nei M, Takezaki N, Sitnikova T, et al. Assessing molecular phylogenies. Science. 1995; 267(5195):253. Swofford DL. PAUP 4.0: Phylogenetic analysis using parsimony (and other methods). Sunderland. 1999. Hu F, Lin Y, Tang J. MLGO: phylogeny reconstruction and ancestral inference from gene-order data. BMC Bioinforma. 2014; 15(1):1. Zhou L, Hoskins W, Zhao J, Tang J. Ancestral reconstruction under weighted maximum matching. In: Bioinformatics and Biomedicine (BIBM), 2015 IEEE International Conference on. Washington, D.C: IEEE: 2015. p. 1448–55. Hu F, Zhou L, Tang J In: Cai Z, Eulenstein O, Janies D, Schwartz D, editors. Reconstructing Ancestral Genomic Orders Using Binary Encoding and Probabilistic Models. Springer Berlin Heidelberg: Berlin, Heidelberg: 2013. p. 17–27. Hu F, Zhou J, Zhou L, Tang J. Probabilistic reconstruction of ancestral gene orders with insertions and deletions. Comput Biol Bioinforma, IEEE/ACM Trans. 2014; 11(4):667–72. Zhou L, Feng B, Yang N, Tang J. Ancestral reconstruction with duplications using binary encoding and probabilistic model. In: Proceedings of 7th International conference on Bioinformatics and Computational Biology (BICoB). Honolulu: 2015. p. 97–104. Yang N, Hu F, Zhou L, Tang J. Reconstruction of ancestral gene orders using probabilistic and gene encoding approaches. PloS ONE. 2014; 9(10):e108796. Goloboff PA, Farris JS, Nixon KC. TNT, a free program for phylogenetic analysis. Cladistics. 2008; 24(5):774–86. Xu AW, Moret BME In: Przytycka TM, Sagot MF, editors. GASTS: Parsimony Scoring under Rearrangements. Springer Berlin Heidelberg: Berlin, Heidelberg: 2011. p. 351–63. Felsenstein J. Evolutionary trees from DNA sequences: a maximum likelihood approach. J Mol Evol. 1981; 17(6):368–76. Stamatakis A. RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models. Bioinformatics. 2006; 22(21):2688–90. Hu F, Gao N, Zhang M, Tang J. Maximum likelihood phylogenetic reconstruction using gene order encodings. In: 2011 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB). Paris: IEEE: 2011. p. 1–6. Lin Y, Hu F, Tang J, Moret BM. Maximum likelihood phylogenetic reconstruction from high-resolution whole-genome data and a tree of 68 eukaryotes. In: Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. USA: NIH Public Access: 2013. p. 285. Lin Y, Rajan V, Moret BM. Bootstrapping phylogenies inferred from rearrangement data. Algoritm Mol Biol. 2012; 7(1):1. Lin Y, Rajan V, Moret BM. TIBA: a tool for phylogeny inference from rearrangement data with bootstrap analysis. Bioinformatics. 2012; 28(24):3324–5. Lin Y, Moret BM. A new genomic evolutionary model for rearrangements, duplications, and losses that applies across eukaryotes and prokaryotes. J Comput Biol. 2011; 18(9):1055–64. Cunningham F, Amode MR, Barrell D, Beal K, Billis K, Brent S, et al. Ensembl 2015. Nucleic Acids Res. 2015; 43(D1):D662–D669. Robinson DF, Foulds LR. Comparison of phylogenetic trees. Math Biosci. 1981; 53(1-2):131–47. Luo H, Arndt W, Zhang Y, Shi G, Alekseyev MA, Tang J, et al. Phylogenetic analysis of genome rearrangements among five mammalian orders. Mol Phylogenet Evol. 2012; 65(3):871–82. Madsen O, Scally M, Douady CJ, Kao DJ, DeBry RW, Adkins R, et al.Parallel adaptive radiations in two major clades of placental mammals. Nature. 2001; 409(6820):610–4. Murphy WJ, Eizirik E, Johnson WE, Zhang YP, Ryder OA, O’Brien SJ. Molecular phylogenetics and the origins of placental mammals. Nature. 2001; 409(6820):614–8. Amrine-Madsen H, Koepfli KP, Wayne RK, Springer MS. A new phylogenetic marker, apolipoprotein B, provides compelling evidence for eutherian relationships. Mol Phylogenet Evol. 2003; 28(2):225–40. Huttley GA, Wakefield MJ, Easteal S. Rates of genome evolution and branching order from whole genome analysis. Mol Biol Evol. 2007; 24(8):1722–30. Wildman DE, Uddin M, Opazo JC, Liu G, Lefort V, Guindon S, et al. Genomics, biogeography, and the diversification of placental mammals. Proc Natl Acad Sci. 2007; 104(36):14395–400. Cannarozzi G, Schneider A, Gonnet G. A phylogenomic study of human, dog, and mouse. PLoS Comput Biol. 2007; 3(1):e2. Zhou L, Lin Y, Feng B, Zhao J, Tang J. Phylogeny Reconstruction from Whole-Genome Data Using Variable Length Binary Encoding. In: Bioinformatics Research and Applications: 12th International Symposium, ISBRA 2016, Minsk, Belarus, June 5-8, 2016, Proceedings. vol 9683. Berlin Heidelberg: Springer: 2016. p. 345.