Dự đoán Peptide Tín hiệu Sử dụng Mạng Nơ-ron Hàm Cơ sở Sinh học và Cây Quyết định

Springer Science and Business Media LLC - Tập 5 - Trang 13-19 - 2012
Ateesh Sidhu1, Zheng Rong Yang2
1Biological Science, University of Warwick, Coventry, UK
2Department of Computer Science, University of Exeter, Exeter, UK

Tóm tắt

Việc xác định peptide tín hiệu cực kỳ quan trọng trong việc thiết kế thuốc. Việc xác định chính xác các peptide tín hiệu là bước quan trọng đầu tiên để thay đổi hướng của các protein nhắm mục tiêu và sử dụng thuốc thiết kế để nhắm vào một bào quan cụ thể nhằm khắc phục một khiếm khuyết. Vì phương pháp xác định thực nghiệm là phương pháp chính xác nhất, nhưng tốn kém và mất nhiều thời gian, nên một hệ thống tự động hiệu quả và tiết kiệm được rất nhiều sự quan tâm. Trong bài báo này, chúng tôi đề xuất sử dụng một mạng nơ-ron thích nghi, gọi là mạng nơ-ron hàm cơ sở sinh học, và cây quyết định để dự đoán các peptide tín hiệu. Mô hình mạng nơ-ron hàm cơ sở sinh học và cây quyết định đạt được độ chính xác lần lượt là 97,16% và 97,63%, cho thấy rằng các phương pháp này hoạt động tốt trong việc dự đoán các peptide tín hiệu. Hơn nữa, cây quyết định đã chỉ ra rằng vị trí P1′, điều quan trọng trong việc hình thành các peptide tín hiệu, thường gồm leucine hoặc alanine. Điều này phù hợp với mô hình ghép nối (P3-P1-P1′).

Từ khóa

#peptide tín hiệu #mạng nơ-ron #cây quyết định #thiết kế thuốc #dự đoán peptide

Tài liệu tham khảo

Hagmann M. On the track of Ebola’s hideout. Science 1999; 286: 666 Nakai K. Protein sorting signals and prediction of subcellular localisation. Adv Protein Chem 2000; 54: 277–344 Geirasch L. Signal peptides. Biochemistry 1989; 28: 923–30 Nielsen H, Engelbrecht J, Brunak S, et al. Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Eng 1997; 10: 1–6 Voet DV, Voet JG. Biochemistry. 2nd ed. New York: J Wiley, 1995: 308–9 von Heijne G. Patterns of amino acids near signal peptide cleavage sites. Eur J Biochem 1983; 133: 17–21 von Heijne G. Signal peptides: the limit of variation. J Mol Biol 1985; 184: 99–105 Chou KC. Using subsite coupling to predict signal peptides. Protein Eng 2001; 14: 75–9 von Heijne G. A new method for predicting signal sequence cleavage sites. Nucleic Acids Res 1986; 14: 4683–90 Nielsen H, Brunak S, von Heijne G. Machine learning approaches for the prediction of signal peptides and other protein sorting signals. Protein Eng 1999; 12: 3–9 Thomson R, Hodgman C, Yang ZR, et al. Characterising proteolytic cleavage site activity using bio-basis function neural network. Bioinformatics 2003; 19: 1741–7 Yang ZR, Thomson R. Bio-basis function neural network for prediction of protease cleavage sites in proteins. IEEE Trans Neural Netw 2005; 16: 263–74 Qian N, Sejnowski TJ. Predicting the secondary structure of globular proteins using neural network models. J Mol Biol 1988; 202: 865–84 Dayhoff MO. Survey of new data and computer methods of analysis: atlas of protein sequence and structure. 5 Suppl. 3. Washington, DC: Georgetown University, 1978 Yang ZR, Chou KC. Predicting the O-linkage sites in glycoproteins using bio-basis function neural networks. Bioinformatics 2004; 20: 903–8 Berry E, Dalby A, Yang ZR. Reduced bio basis function neural network for identification of protein phosphorylation sites: comparison with pattern recognition algorithms. Comput Biol Chem 2004; 28: 75–85 Yang ZR, Berry E. Reduced bio-basis function neural networks for protease cleavage site prediction. J Bioinform Comput Biol 2004; 2: 511–31 Cai YD, Chou KC. Artificial neural network model for predicting HIV protease cleavage site in protein. Adv Eng Software 1998; 29: 119–28 Yang ZR. Prediction of caspase cleavage sites using Bayesian bio-basis function neural networks. Bioinformatics 2005; 21: 1831–7 Thomson R, Esnouf R. Prediction of natively disordered regions in proteins using a bio-basis function neural network. In: Yang ZR, Everson R, Yin HJ, editors. 5th International Conference on Intelligent Data Engineering and Automated Learning. Lecture Notes in Computer Science. Volume 3177. Berlin: Springer, 2004; 109–17 Yang ZR, Thomson R, McNeil P, et al. RONN: the bio-basis function neural network technique applied to the detection of natively disordered regions in proteins. Bioinformatics 2005; 21: 3369–76 Narayanan A, Wu XK, Yang ZR. Mining viral protease data to extract cleavage knowledge. Bioinformatics 2002; 18Suppl. 1: S5–13 Boulesteix A, Tutz G, Strimmer K. A CART-based approach to discover emerging patterns in microarray data. Bioinformatics 2003; 19: 2465–72 Kretschmann E, Fleischmann W, Apweiler R. Automatic rule generation for protein annotation with the C4.5 data mining applied on SWISS-PROT. Bioinformatics 2001; 17: 920–6 Quinlan JR. C4.5: programs for machine learning. San Francisco: Morgan Kaufmann, 1993 King O, Lee JC, Dudley AM, et al. Predicting phenotype from patterns of annotation. Bioinformatics 2003; 19Suppl. 1: i183–9 Krishnan VG, Westhead DR. A comparative study of machine-learning methods to predict the effects of single nucleotide polymorphisms on protein function. Bioinformatics 2003; 19: 2199–209 Li J, Liu H, Ng S, et al. Discovery of significant rules for classifying cancer diagnosis data. Bioinformatics 2003; 19Suppl. 2: 1193–102 Clare A, King RD. Predicting gene function in Saccharomyces cerevisiae. Bioinformatics 2003; 19Suppl. 2: II42–9 Freund Y, Mason L. The alternating decision tree learning algorithm. In: Bratko I, editor. Proceedings of the Sixteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1999: 124–33 Middendorf M, Kundaje A, Wiggins C, et al. Predicting genetic regulatory response using classification. Bioinformatics 2004; 20Suppl. 1: 1232–40 Selbig J, Mevissen T, Lengauer T. Decision tree-based formation of consensus protein secondary structure prediction. Bioinformatics 1999; 15: 1039–46 Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 1992; 89: 10915–9 Doolittle RF. Similar amino acid sequences: chance or ancestry. Science 1981; 214: 149–59 Fitch WM, Smith TF. Optimal sequence alignments. Proc Natl Acad Sci U S A 1983; 80: 1382–6 Gonnet GH, Cohen MA, Benner SA. Exhaustive matching of the entire protein sequence database. Science 1992; 256: 1443–5 Grantham J. Amino acid difference formulas to help explain protein evolution. Science 1974; 185: 862–4 Jones DT, Taylor WR, Thornton JM. The rapid generation of mutation data matrices from protein sequences. Comput Appl Biosci 1992; 8: 275–82 Jones DT. Protein secondary structure prediction based in position-specific scoring matrices. J Mol Biol 1999; 292: 195–202 Rao JK. New scoring matrix for amino acid residue exchanges based on residue characteristic physical parameters. Int J Pept Protein Res 1987; 29: 276–81 Johnson MS, Overington JP. A structural basis for sequence comparisons: an evaluation of scoring methodologies. J Mol Biol 1993; 233: 716–38 Alberts B, Bray D, Johnson A, et al. Essential cell biology: an introduction to the molecular biology of the cell. New York: Garland Publishing, 1998: 26