Dự đoán sự rối loạn protein bằng cách phân tích trình tự axit amin

Springer Science and Business Media LLC - Tập 9 - Trang 1-8 - 2008
Jack Y Yang1, Mary Qu Yang2
1Harvard Medical School, Harvard University, Cambridge, USA
2National Human Genome Research Institute, National Institutes of Health, Bethesda, USA

Tóm tắt

Nhiều vùng protein và một số protein hoàn chỉnh không có cấu trúc bậc ba xác định, mà instead xuất hiện dưới dạng những tập hợp rối loạn động trong các hoàn cảnh sinh lý hóa khác nhau. Những protein và vùng protein này được gọi là Protein không có cấu trúc rõ ràng (IUP). IUP đã được liên kết với một loạt các chức năng protein, cùng với vai trò trong các bệnh lý đặc trưng bởi sự gấp khúc và tích tụ protein không đúng cách. Việc xác định IUP là một nhiệm vụ quan trọng trong gen học cấu trúc và chức năng. Chúng tôi đã trích xuất các đặc điểm hữu ích từ các trình tự và phát triển các thuật toán học máy cho nhiệm vụ trên. Chúng tôi so sánh trình dự đoán IUP của mình với PONDRs (chủ yếu là các trình dự đoán dựa trên mạng nơ-ron), disEMBL (cũng dựa trên mạng nơ-ron) và Globplot (dựa trên xu hướng rối loạn). Chúng tôi nhận thấy rằng việc bổ sung các đặc điểm thu được từ các thuộc tính sinh lý hóa của các axit amin (chẳng hạn như độ kị nước, độ phức tạp, v.v.) và sử dụng phương pháp hợp lực đã chứng tỏ là có lợi. Trình dự đoán IUP là một công cụ phần mềm khả thi để xác định các vùng protein IUP và các protein.

Từ khóa

#Protein không có cấu trúc rõ ràng #IUP #dự đoán protein #học máy #bệnh lý gấp khúc protein.

Tài liệu tham khảo

Radivojac P, Chawla NV, Dunker AK, Obradovic Z: Classification and Knowledge Discovery in Protein Databases. J Biomed Inform. 2004, 37: 224-239. 10.1016/j.jbi.2004.07.008. Dunker AK, Obradovic Z: The protein trinity – linking function and disorder. Nature Biotechnology. 2001, 19: 805-806. 10.1038/nbt0901-805. Romero P, Dunker AK: Identifying Disordered Regions in Proteins from Amino Acid Sequences. Proceeding of ICNN. 1997, 90-5. Dunker AK, Radivojac P, Obradovic Z: Intrinsic disorder and protein function. Biochemistry. 2002, 41 (21): 6573-82. 10.1021/bi012159+. Uversky VN, Fink A: Protein Misfolding, Aggregation and Conformational Diseases. 2005, Springer Linding R, Jensen LJ, Diella F, Bork P, Gibson TJ, Russel RB: Protein Disorder Prediction: Implications Structural Proteomics. Structure. 2001, 11: 1453-1459. 10.1016/j.str.2003.10.002. Linding R, Russell RB, Neduva V, Gibson TJ: GlobPlot: exploring protein sequences for globularity and disorder. Nucleic Acids Res. 2003, 13: 3701-3708. 10.1093/nar/gkg519. Yang MQ, Ersoy OK, Yang JY: Sequential bifurcation approach to learning protein functional classes. Advances in Bioinformatics and its Applications, Vol. 8 of Series in Mathematical Biology & Medicine. 2004, World Scientific, 264-75. Yang JY, Yang MQ: A hybrid unsupervised-supervised learning method to predict protein disorder. First Indiana Bioinformatics Conference. IU School of Medicine, Indiana. 2004, University Purdue University Indianapolis; Mary Yang MQ: PhD thesis. 2005, Purdue University, West. Lafayette main campus Kyte J, Doolittle R: Display hydropathic character. JMB. 1982, 157- Duda RO, Hart PE: Pattern Classification. 2000, Wiley Schapire RE: The strength of weak learnability. Machine Learning. 1990, 5: 197-227. Freund Y, Schapire R: Boosting approach to machine learning. Nonlinear Estimation and Classification. 2003, Springer Codrington C: Boosting with Confidence Information. ICML. 2001