OrthoMCL: Nhận diện Nhóm Ortholog cho Bộ Gene Sinh vật Nhân thực
Tóm tắt
Việc nhận diện các nhóm ortholog rất có ích cho việc chú thích bộ gene, nghiên cứu tiến hóa gene/protein, so sánh bộ gene, và nhận diện các chuỗi giới hạn theo phân loại. Tuy nhiên, các phương pháp đã được khai thác thành công cho phân tích bộ gene vi khuẩn lại gặp khó khăn khi áp dụng cho sinh vật nhân thực, do kích thước lớn của các bộ gene này có thể chứa nhiều gene paralog và thông tin chuỗi thường không đầy đủ. OrthoMCL cung cấp một phương pháp có khả năng mở rộng để xây dựng các nhóm ortholog trên nhiều loài sinh vật nhân thực, sử dụng thuật toán Nhóm Markov để nhóm các ortholog và paralog giả định. Phương pháp này thực hiện tương tự với thuật toán INPARANOID khi áp dụng cho hai bộ gene, nhưng có thể mở rộng để phân nhóm ortholog từ nhiều loài. Các cụm OrthoMCL nhất quán với những nhóm được nhận diện bởi EGO, nhưng việc nhận diện cải tiến của paralog "gần đây" cho phép hợp nhất các nhóm EGO chồng chéo đại diện cho cùng một gene. So sánh với các chú thích EC được gán trước đó đề xuất mức độ tin cậy cao, ngụ ý tính tiện ích cho việc chú thích bộ gene sinh vật nhân thực tự động. OrthoMCL đã được áp dụng cho bộ dữ liệu proteome từ bảy bộ gene có sẵn công khai (người, ruồi giấm, giun kẽm, nấm men,
Từ khóa
#Ortholog #Eukaryotic Genomes #OrthoMCL #Comparative Genomics #Gene Annotation #Markov Cluster Algorithm #Paralog Recognition #Proteome AnalysisTài liệu tham khảo
2000, Genome Biol., 1, research0009.1
Shi, J. and Malik, J. 1997. Normalized cuts and image segmentation. Proc. IEEE Conf. Comp. Vision Pattern Recognit. 731â737.
Van Dongen, S. 2000. âGraph clustering by flow simulation.â Ph.D thesis, University of Utrecht, The Netherlands.
http://www.cbil.upenn.edu/gene-family; Putative ortholog groups generated by OrthoMCL, University of Pennsylvania.
http://www.ncbi.nlm.nih.gov/COG/; The Clusters of Orthologous Groups (COG) database, NCBI.
http://www.allgenes.org; The human and mouse gene index, University of Pennsylvania.
http://www.tigr.org/tdb/tgi/; TIGR Gene Indices.
http://www.tigr.org/tdb/tgi/ego/index.shtml; Eukaryotic Gene Orthologs (EGO), TIGR.
http://us.expasy.org/enzyme; The ENZYME database, Bairoch A.
http://blast.wustl.edu/; BLAST2, Washington University.
http://www.ebi.ac.uk/clustalw/; CLUSTALW alignment, EBI.
http://micans.org/mcl/; Markov Cluster Algorithm, Stijn van Dongen.
http://www.cgb.ki.se/inparanoid/; INPARANOID program.
http://www.plasmodb.org/, The Plasmodium Genome Database, University of Pennsylvania.
http://www.fruitfly.org; The Berkeley Drosophila Genome Project (BDGP).
http://genome-www.stanford.edu/Saccharomyces/; The Saccharomyces Genome Database (SGD).
http://www.sanger.ac.uk/Projects/C_elegans/; The C. elegans Genome Project.
http://www.genome.wisc.edu/; Escherichia coli Genome Project, University of Wisconsin.
http://www.ensembl.org/; Ensembl, Sanger.
http://www.tigr.org/tdb/e2k1/ath1/; TIGR, Arabidopsis thaliana Database.