OrthoMCL: Nhận diện Nhóm Ortholog cho Bộ Gene Sinh vật Nhân thực

Genome Research - Tập 13 Số 9 - Trang 2178-2189 - 2003
Li Li1, Christian J. Stoeckert2, David S. Roos2
1Department of Biology and Genetics, Center for Bioinformatics, and Genomics Institute, University of Pennsylvania, Philadelphia, Pennsylvania 19104, USA.
2Departments of Biology and Genetics, Center for Bioinformatics, and Genomics Institute, University of Pennsylvania, Philadelphia, Pennsylvania 19104, USA

Tóm tắt

Việc nhận diện các nhóm ortholog rất có ích cho việc chú thích bộ gene, nghiên cứu tiến hóa gene/protein, so sánh bộ gene, và nhận diện các chuỗi giới hạn theo phân loại. Tuy nhiên, các phương pháp đã được khai thác thành công cho phân tích bộ gene vi khuẩn lại gặp khó khăn khi áp dụng cho sinh vật nhân thực, do kích thước lớn của các bộ gene này có thể chứa nhiều gene paralog và thông tin chuỗi thường không đầy đủ. OrthoMCL cung cấp một phương pháp có khả năng mở rộng để xây dựng các nhóm ortholog trên nhiều loài sinh vật nhân thực, sử dụng thuật toán Nhóm Markov để nhóm các ortholog và paralog giả định. Phương pháp này thực hiện tương tự với thuật toán INPARANOID khi áp dụng cho hai bộ gene, nhưng có thể mở rộng để phân nhóm ortholog từ nhiều loài. Các cụm OrthoMCL nhất quán với những nhóm được nhận diện bởi EGO, nhưng việc nhận diện cải tiến của paralog "gần đây" cho phép hợp nhất các nhóm EGO chồng chéo đại diện cho cùng một gene. So sánh với các chú thích EC được gán trước đó đề xuất mức độ tin cậy cao, ngụ ý tính tiện ích cho việc chú thích bộ gene sinh vật nhân thực tự động. OrthoMCL đã được áp dụng cho bộ dữ liệu proteome từ bảy bộ gene có sẵn công khai (người, ruồi giấm, giun kẽm, nấm men, Arabidopsis, ký sinh trùng sốt rét Plasmodium falciparum, và Escherichia coli). Giao diện Web cho phép truy vấn dựa trên các gene cá nhân hoặc các mẫu hình phát sinh loài do người dùng định nghĩa (http://www.cbil.upenn.edu/gene-family). Phân tích các cụm bao gồm các gene của P. falciparum nhận diện nhiều enzyme chưa được chú thích đầy đủ trong quá trình chú thích sơ bộ của bộ gene ký sinh trùng này.

Từ khóa

#Ortholog #Eukaryotic Genomes #OrthoMCL #Comparative Genomics #Gene Annotation #Markov Cluster Algorithm #Paralog Recognition #Proteome Analysis

Tài liệu tham khảo

10.1093/bioinformatics/18.7.908

10.1038/75556

10.1093/nar/gkg081

10.1038/nature01099

10.1126/science.282.5396.2022

2001, IBM Systems J., 40, 512, 10.1147/sj.402.0512

10.1146/annurev.bi.64.070195.001443

10.1093/nar/30.7.1575

10.1038/37132

10.2307/2412448

10.1016/S0168-9525(00)02005-9

10.1016/S0168-9525(02)02650-1

10.1016/S0958-1669(99)00035-X

10.1038/nature01097

10.1101/gr.180801

10.1093/emboj/20.3.330

10.1126/science.278.5338.609

10.1038/419490a

10.1126/science.275.5305.1485

10.1101/gr.212002

1998, Genome Res., 8, 590, 10.1101/gr.8.6.590

10.1023/A:1004031323748

2000, Genome Biol., 1, research0009.1

10.1093/nar/28.1.141

10.1093/nar/29.1.159

10.1006/jmbi.2000.5197

10.1016/S0169-4758(98)01367-2

10.1126/science.287.5461.2204

10.1101/gr.222902

Shi, J. and Malik, J. 1997. Normalized cuts and image segmentation. Proc. IEEE Conf. Comp. Vision Pattern Recognit. 731–737.

10.1126/science.278.5338.631

10.1093/nar/28.1.33

10.1093/nar/29.1.22

10.1093/nar/22.22.4673

Van Dongen, S. 2000. “Graph clustering by flow simulation.” Ph.D thesis, University of Utrecht, The Netherlands.

10.1016/S0378-1119(99)00298-X

http://www.cbil.upenn.edu/gene-family; Putative ortholog groups generated by OrthoMCL, University of Pennsylvania.

http://www.ncbi.nlm.nih.gov/COG/; The Clusters of Orthologous Groups (COG) database, NCBI.

http://www.allgenes.org; The human and mouse gene index, University of Pennsylvania.

http://www.tigr.org/tdb/tgi/; TIGR Gene Indices.

http://www.tigr.org/tdb/tgi/ego/index.shtml; Eukaryotic Gene Orthologs (EGO), TIGR.

http://us.expasy.org/enzyme; The ENZYME database, Bairoch A.

http://blast.wustl.edu/; BLAST2, Washington University.

http://www.ebi.ac.uk/clustalw/; CLUSTALW alignment, EBI.

http://micans.org/mcl/; Markov Cluster Algorithm, Stijn van Dongen.

http://www.cgb.ki.se/inparanoid/; INPARANOID program.

http://www.plasmodb.org/, The Plasmodium Genome Database, University of Pennsylvania.

http://www.fruitfly.org; The Berkeley Drosophila Genome Project (BDGP).

http://genome-www.stanford.edu/Saccharomyces/; The Saccharomyces Genome Database (SGD).

http://www.sanger.ac.uk/Projects/C_elegans/; The C. elegans Genome Project.

http://www.genome.wisc.edu/; Escherichia coli Genome Project, University of Wisconsin.

http://www.ensembl.org/; Ensembl, Sanger.

http://www.tigr.org/tdb/e2k1/ath1/; TIGR, Arabidopsis thaliana Database.