Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Một phương pháp phân nhóm kết hợp để nhận diện các họ protein trong 114 bộ gen vi sinh vật
Tóm tắt
Việc phân nhóm các protein thành các cụm dựa trên chuỗi là một bước cơ bản trong nhiều phân tích sinh tin học (ví dụ, dự đoán cấu trúc hoặc chức năng dựa trên tính tương đồng). Các phương pháp phân cụm tiêu chuẩn như phân cụm theo liên kết đơn ghi lại lịch sử của các hình thái cụm theo ngưỡng, nhưng trên thực tế, tính hữu ích của chúng bị hạn chế vì các chuỗi không liên quan gia nhập các cụm trước khi các nhóm có ý nghĩa sinh học được cấu thành đầy đủ, ví dụ như là kết quả của những khớp với các miền được gọi là đa hình. Việc sử dụng thuật toán Phân cụm Markov tránh được tình trạng không cụ thể này, nhưng không bảo tồn được thông tin về hình thái hay ngưỡng của các họ protein. Chúng tôi mô tả một cách tiếp cận kết hợp cho việc phân cụm dựa trên chuỗi của các protein, kết hợp các lợi thế của cả phân cụm tiêu chuẩn và phân cụm Markov. Chúng tôi đã thực hiện cách tiếp cận kết hợp này trên một môi trường cơ sở dữ liệu quan hệ và mô tả ứng dụng của nó trong việc phân cụm một tập con lớn của PDB, và 328577 protein từ 114 bộ gen vi sinh vật đã được giải mã hoàn chỉnh. Để chứng minh tính hữu dụng với các vấn đề khó khăn, chúng tôi chỉ ra rằng phân cụm kết hợp cho phép chúng tôi cấu thành họ protein giống nhau của các tiểu đơn vị mô tơ quay F1 ATP synthase thành một nhóm phân loại theo bậc duy nhất, có thể giải thích sinh học, mà không thể đạt được chỉ bằng cách sử dụng phân cụm theo liên kết đơn hoặc phân cụm Markov riêng lẻ. Chúng tôi mô tả việc xác thực phương pháp này bằng cách phân cụm kết hợp PDB và ánh xạ các họ và miền SCOP lên các cụm kết quả. Phân cụm kết hợp (Markov theo sau là liên kết đơn) kết hợp các lợi thế của thuật toán Phân cụm Markov (tránh được các cụm không cụ thể do kết quả khớp với các miền đa hình) và phân cụm theo liên kết đơn (bảo tồn thông tin hình thái theo chức năng của ngưỡng). Trong các cụm Markov riêng lẻ, phân cụm theo liên kết đơn là một công cụ chính xác hơn, phân biệt các tiểu cụm có liên quan sinh học. Cách tiếp cận kết hợp của chúng tôi do đó cung cấp một phương pháp tính toán hiệu quả cho việc nhận diện tự động các họ protein cho phân tích sinh hệ phân loại.
Từ khóa
#Phân nhóm #protein #họ protein #sinh tin học #PDB #thuật toán Phân cụm Markov #phân loại sinh hệTài liệu tham khảo
Ragan MA, Charlebois RL: Distributional profiles of homologous open reading frames among bacterial phyla: implications for vertical and lateral transmission. Intl J Syst Evol Microbiol 2002, 52: 777–787. 10.1099/ijs.0.02026-0
Raymond J, Zhaxybayeva O, Gogarten JP, Gerdes SY, Blankenship RE: Whole-genome analysis of photosynthetic prokaryotes. Science 2002, 298: 1616–1620. 10.1126/science.1075558
Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV: The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucl Acids Res 2001, 29: 22–28. 10.1093/nar/29.1.22
Enright AJ, Van Dongen S, Ouzounis CA: An efficient algorithm for large-scale detection of protein families. Nucl Acids Res 2002, 30: 1575–1584. 10.1093/nar/30.7.1575
Heger A, Holm L: Exhaustive enumeration of protein domain families. J Mol Biol 2003, 328: 749–767. 10.1016/S0022-2836(03)00269-9
Park J, Teichmann SA: DIVCLUS: an automatic method in the GEANFAMMER package that finds homologous domains in single- and multi-domain proteins. Bioinformatics 1998, 14: 144–150. 10.1093/bioinformatics/14.2.144
Servant F, Bru C, Carrere S, Courcelle E, Gouzy J, Peyruc D, Kahn D: ProDom: automated clustering of homologous domains. Brief Bioinform 2002, 3: 246–251.
Yona G, Linial N, Linial M: ProtoMap: automatic classification of protein sequences and hierarchy of protein families. Nucl Acids Res 2000, 28: 49–55. 10.1093/nar/28.1.49
Krause A, Stoye J, Vingron M: The SYSTERS protein sequence cluster set. Nucl Acids Res 2000, 28: 270–272. 10.1093/nar/28.1.270
Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucl Acids Res 1997, 25: 3389–3402. 10.1093/nar/25.17.3389
Sokal RR, Sneath PHA: Principles of Numerical Taxonomy. London: Freeman 1963.
Pearson WR, Lipman DJ: Improved tools for biological sequence analysis. Proc Natl Acad Sci USA 1988, 85: 2444–2448.
Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D: Detecting protein function and protein-protein interactions from genome sequences. Science 1999, 285: 751–753. 10.1126/science.285.5428.751
Smith TF, Zhang X: The challenges of genome sequence annotation or "The devil is in the details". Nat Biotechnol 1997, 15: 1222–1223.
Karplus K, Barrett C, Hughey R: Hidden Markov models for detecting remote protein homologies. Bioinformatics 1998, 14: 846–856. 10.1093/bioinformatics/14.10.846
Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer ELL: The Pfam Protein Families Database. Nucl Acids Res 2002, 30: 276–280. 10.1093/nar/30.1.276
van Dongen S: Graph clustering by flow simulation. PhD thesis. University of Utrecht 2000. [http://micans.org/mcl/lit/svdthesis.pdf.gz]
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucl Acids Res 2000, 28: 235–242. 10.1093/nar/28.1.235
Lo Conte L, Brenner SE, Hubbard TJP, Chothia C, Murzin AG: SCOP database in 2002: refinements accommodate structural genomes. Nucl Acids Res 2002, 30: 264–267. 10.1093/nar/30.1.264
Stock D, Leslie AGW, Walker JE: Molecular architecture of the rotary motor in ATP synthase. Science 1999, 286: 1700–1705. 10.1126/science.286.5445.1700
Fitch WM: Aspects of molecular evolution. Annu Rev Genet 1973, 7: 343–380. 10.1146/annurev.ge.07.120173.002015
Bansal AK, Bork P, Stuckey PJ: Automated pair-wise comparisons of microbial genomes. Math Modelling Sci Comput 1998, 9: 1–23.
