Một thuật toán giải mã mới cho các mô hình Markov ẩn cải thiện dự đoán cấu trúc của các protein màng loại beta

BMC Bioinformatics - Tập 6 - Trang 1-7 - 2005
Piero Fariselli1, Pier Luigi Martelli1, Rita Casadio1
1Department of Biology, University of Bologna via Irnerio 42, Bologna, Italy

Tóm tắt

Dự đoán cấu trúc của protein màng vẫn là một bài toán tính toán đầy thách thức. Các mô hình Markov ẩn (HMM) đã được áp dụng thành công cho bài toán dự đoán cấu trúc protein màng. Trong một nhiệm vụ dự đoán, HMM được trang bị một thuật toán giải mã nhằm gán đường đi trạng thái xác suất cao nhất, và từ đó gán nhãn, cho một chuỗi chưa biết. Thuật toán Viterbi và thuật toán giải mã hậu (posterior) là hai thuật toán phổ biến nhất. Thuật toán Viterbi rất hiệu quả khi một đường đi thống trị, trong khi thuật toán giải mã hậu, mặc dù không đảm bảo duy trì ngữ pháp HMM, lại hiệu quả hơn khi có nhiều đường đi đồng thời có xác suất tương tự. Một lựa chọn tốt thứ ba là thuật toán 1-best, đã cho thấy hiệu quả tương đương hoặc tốt hơn so với Viterbi. Trong bài báo này, chúng tôi giới thiệu thuật toán giải mã posterior-Viterbi (PV) mới, kết hợp giữa thuật toán giải mã hậu và Viterbi. PV là một quy trình hai bước: trước tiên xác định xác suất hậu của mỗi trạng thái và sau đó đánh giá đường đi hậu tốt nhất qua mô hình bằng thuật toán Viterbi. Chúng tôi chứng minh rằng giải mã PV hoạt động tốt hơn các thuật toán khác khi được thử nghiệm trên bài toán dự đoán cấu trúc của protein màng loại beta-barrel.

Từ khóa

#mô hình Markov ẩn #protein màng #dự đoán cấu trúc #giải mã #thuật toán Viterbi

Tài liệu tham khảo

Schulz G: Beta-barrel membrane proteins. Curr Opin Struct Biol 2000, 10: 443–447. 10.1016/S0959-440X(00)00120-2 Casadio R, Fariselli P, PL M: In silico prediction of the structure of membrane proteins: Is it feasible. Brief Bioinf 2003, 4: 341–348. 10.1093/bib/4.4.341 Casadio R, Jacoboni I, Messina A, V DP: A 3D model of the voltage-dependent anion channel (VDAC). FEBS Lett 2003, 520: 1–7. 10.1016/S0014-5793(02)02758-8 Casadio R, Fariselli P, Finocchiaro G, Martelli P: Fishing new proteins in the twilight zone of genomes: The test case of outer membrane proteins in Escherichia coli K12, Escherichia coli O157:H7, and other Gram-negative bacteria. Protein Sci 2003, 11: 1158–1168. 10.1110/ps.0223603 Bagos P, Liakopoulos T, SJ H: Evaluation of methods for predicting the topology of -barrel outer membrane proteins and a consensus prediction method. BMC Bioinformatics 2005, 1: 1–7. Krogh A, Brown M, Mian I, Sjolander K, Haussler D: Hidden Markov models in computational biology: Applications to protein modeling. Journal of Molecular Biology 1994, 235: 1501–1531. 10.1006/jmbi.1994.1104 Baldi P, Chauvin Y, Hunkapiller T, McClure M: Hidden Markov Models of Biological Primary Sequence Information. PNAS USA 1994, 91: 1059–1063. 10.1073/pnas.91.3.1059 Mamitsuka H: Predicting peptides that bind to MHC molecules using supervised learning of hidden Markov models. Proteins 1998, 33: 460–474. 10.1002/(SICI)1097-0134(19981201)33:4<460::AID-PROT2>3.0.CO;2-M Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy S, Griffiths-Jones S, Howe K, Marshall M, Sonnhammer E: The Pfam Protein Families Database. Nucleic Acids Research 2002, 30: 276–280. 10.1093/nar/30.1.276 Tusnady G, Simon I: Principles governing amino acid composition of integral membrane proteins: application to topology prediction. J Mol Biol 1998, 283: 489–506. 10.1006/jmbi.1998.2107 Krogh A, Larsson B, von Heijne G, Sonnhammer E: Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol 2001, 305: 567–580. 10.1006/jmbi.2000.4315 Martelli P, Fariselli P, Krogh A, Casadio R: A sequence-profile-based HMM for predicting and discriminating beta barrel membrane proteins. Bioinformaticsi 2002, 18: S46-S53. Martelli P, Fariselli P, Casadio R: An ENSEMBLE machine learning approach for the prediction of all-alpha membrane proteins. Bioinformatics 2003, 19: i205-i211. 10.1093/bioinformatics/btg1027 Liu Q, Zhu Y, Wang B, Li Y: A HMM-based method to predict the transmembrane regions of beta-barrel membrane proteins. Comput Biol Chem 2003, 27: 69–76. 10.1016/S0097-8485(02)00051-7 Viklund H, Elofsson A: Best alpha-helical transmembrane protein topology predictions are achieved using hidden Markov models and evolutionary information. Protein Sci 2004, 13: 1908–1917. 10.1110/ps.04625404 Bagos P, Liakopoulos T, Spyropoulos I, SJ H: PRED-TMBB: a web server for predicting the topology of beta-barrel outer membrane proteins. Nucleic Acids Res 2004, 32: W400-W404. 10.1093/nar/gkh417 Bigelow H, Petrey D, Liu J, Przybylski D, B R: Predicting transmembrane beta-barrels in proteomes. Nucleic Acids Res 2004, 32: 2566–2577. 10.1093/nar/gkh580 Baldi P, Brunak S: Bioinformatics: the Machine Learning Approach. Cambridge: MIT Press; 2001. Durbin R, Eddy S, Krogh A, Mitchinson G: Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge: Cambridge Univ Press; 1998. Krogh A: Two methods for improving performance of a HMM and their application for gene finding. In Proceedings of the Fifth International Conference on Intelligent Systems for Molecular Biology. ISCB, AAAI Press; 1997:179–186. Fariselli P, Finelli M, Marchignoli D, Martelli P, Rossi I, R C: MaxSubSeq: an algorithm for segment-length optimization. The case study of the transmembrane spanning segments. Bioinformatics 2003, 19: 500–505. 10.1093/bioinformatics/btg023 Holmes I, Durbin R: Dynamic programming alignment accuracy. J Comput Biol 1998, 5: 493–504. Altschul S, Madden T, Schaffer A, Zhang J, Zhang Z, Miller W, DJ L: Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucleic Acid Res 1997, 25: 3389–3402. 10.1093/nar/25.17.3389 Krogh A: Hidden Markov models for labeled sequences. In Proceedings 12th International Conference on Pattern Recognition. Singapore. IEEE Comp Soc Press; 1994:140–144. Tusnady G, Dosztanyi Z, Simon I: Transmembrane proteins in the Protein Data Bank: identification and classification. Bioinformatics 2004, 20: 2964–2972. 10.1093/bioinformatics/bth340 Zemla A, Venclovas C, Fidelis K, B R: A modified definition of Sov, a segment-based measure for protein secondary structure prediction assessment. Proteins 1999, 34: 220–223. 10.1002/(SICI)1097-0134(19990201)34:2<220::AID-PROT7>3.0.CO;2-K