Mô hình hóa ab initio của các protein nhỏ bằng các mô phỏng TASSER lặp lại
Tóm tắt
Dự đoán cấu trúc protein ba chiều từ chuỗi axit amin là một vấn đề quan trọng chưa được giải quyết trong sinh học cấu trúc tính toán. Vấn đề này trở nên tương đối dễ hơn nếu các protein đồng hình gần gũi đã được giải quyết, vì các mô hình độ phân giải cao có thể được xây dựng bằng cách căn chỉnh các chuỗi mục tiêu với các cấu trúc đồng hình đã được giải quyết. Tuy nhiên, đối với các chuỗi không có hình dạng tương tự trong thư viện Protein Data Bank (PDB), các mô hình phải được dự đoán từ đầu. Tiến bộ trong việc mô hình hóa cấu trúc
Chúng tôi đã phát triển I-TASSER bằng cách thực hiện lặp lại phương pháp TASSER, được sử dụng trong việc kiểm tra gấp cho ba tiêu chuẩn của các protein nhỏ. Đầu tiên, dữ liệu về 16 protein nhỏ (< 90 dư vị) được sử dụng để tạo ra các mô hình I-TASSER với độ lệch căn bản Cα trung bình (RMSD) là 3.8Å, trong đó 6 mô hình có Cα-RMSD < 2.5Å. Kết quả tổng thể tương đương với mô phỏng ROSETTA toàn nguyên tử, nhưng thời gian xử lý trung tâm (CPU) của I-TASSER ngắn hơn nhiều (150 ngày CPU so với 5 giờ CPU). Thứ hai, dữ liệu về 20 protein nhỏ (< 120 dư vị) được sử dụng. I-TASSER đã gấp bốn trong số đó với Cα-RMSD < 2.5Å. Độ lệch căn bản Cα-RMSD trung bình của các mô hình I-TASSER là 3.9Å, trong khi nó là 5.9Å khi sử dụng phần mềm TOUCHSTONE-II. Cuối cùng, 20 protein nhỏ không đồng hình (< 120 dư vị) được lấy từ thư viện PDB. Độ lệch căn bản Cα-RMSD trung bình là 3.9Å đối với tiêu chuẩn thứ ba, với bảy trường hợp có Cα-RMSD < 2.5Å.
Các kết quả mô phỏng của chúng tôi cho thấy rằng I-TASSER có thể dự đoán một cách nhất quán các hình thức chính xác và đôi khi là các mô hình độ phân giải cao đối với các protein đơn miền nhỏ. So với các phương pháp mô hình hóa
Từ khóa
Tài liệu tham khảo
Baker D, Sali A: Protein structure prediction and structural genomics. Science. 2001, 294 (5540): 93-96. 10.1126/science.1065659.
Skolnick J, Fetrow JS, Kolinski A: Structural genomics and its importance for gene function analysis. Nat Biotechnol. 2000, 18 (3): 283-287. 10.1038/73723.
Sali A, Blundell TL: Comparative protein modelling by satisfaction of spatial restraints. J Mol Biol. 1993, 234 (3): 779-815. 10.1006/jmbi.1993.1626.
Fiser A, Do RK, Sali A: Modeling of loops in protein structures. Protein Sci. 2000, 9 (9): 1753-1773.
Bowie JU, Luthy R, Eisenberg D: A method to identify protein sequences that fold into a known three-dimensional structure. Science. 1991, 253: 164-170. 10.1126/science.1853201.
Jones DT, Taylor WR, Thornton JM: A new approach to protein fold recognition. Nature. 1992, 358 (6381): 86-89. 10.1038/358086a0.
Xu Y, Xu D: Protein threading using PROSPECT: design and evaluation. Proteins. 2000, 40 (3): 343-354. 10.1002/1097-0134(20000815)40:3<343::AID-PROT10>3.0.CO;2-S.
Zhou H, Zhou Y: Fold recognition by combining sequence profiles derived from evolution and from depth-dependent structural alignment of fragments. Proteins. 2005, 58 (2): 321-328. 10.1002/prot.20308.
Skolnick J, Kihara D, Zhang Y: Development and large scale benchmark testing of the PROSPECTOR 3.0 threading algorithm. Protein. 2004, 56: 502-518. 10.1002/prot.20106.
Liwo A, Lee J, Ripoll DR, Pillardy J, Scheraga HA: Protein structure prediction by global optimization of a potential energy function. Proceedings of the National Academy of Sciences of the United States of America. 1999, 96 (10): 5482-5485. 10.1073/pnas.96.10.5482.
Simons KT, Kooperberg C, Huang E, Baker D: Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions. J Mol Biol. 1997, 268 (1): 209-225. 10.1006/jmbi.1997.0959.
Zhang Y, Kolinski A, Skolnick J: TOUCHSTONE II: A new approach to ab initio protein structure prediction. Biophysical journal. 2003, 85: 1145-1164.
Bradley P, Misura KM, Baker D: Toward high-resolution de novo structure prediction for small proteins. Science. 2005, 309 (5742): 1868-1871. 10.1126/science.1113801.
Klepeis JL, Wei Y, Hecht MH, Floudas CA: Ab initio prediction of the three-dimensional structure of a de novo designed protein: a double-blind case study. Proteins. 2005, 58 (3): 560-570. 10.1002/prot.20338.
Klepeis JL, Floudas CA: ASTRO-FOLD: a combinatorial and global optimization framework for Ab initio prediction of three-dimensional structures of proteins from the amino acid sequence. Biophys J. 2003, 85 (4): 2119-2146.
Skolnick J, Kolinski A: A unified approach to the prediction of protein structure and function. Adv Chem Phys. 2002, 120: 131-192.
Floudas CA, Fung HK, McAllister SR, Monnigmann M, Rajgaria R: Advances in Protein Structure Prediction and De Novo Protein Design: A Review. Chemical Engineering Science. 2006, 61: 966-988. 10.1016/j.ces.2005.04.009.
Zhang Y, Skolnick J: Tertiary structure predictions on a comprehensive benchmark of medium to large size proteins. Biophysical journal. 2004, 87: 2647-2655. 10.1529/biophysj.104.045385.
Simons KT, Strauss C, Baker D: Prospects for ab initio protein structural genomics. J Mol Biol. 2001, 306: 1191-1199. 10.1006/jmbi.2000.4459.
Zhang Y, Skolnick J: Automated structure prediction of weakly homologous proteins on a genomic scale. Proceedings of the National Academy of Sciences of the United States of America. 2004, 101: 7594-7599. 10.1073/pnas.0305695101.
Simons KT, Ruczinski I, Kooperberg C, Fox BA, Bystroff C, Baker D: Improved recognition of native-like protein structures using a combination of sequence-dependent and sequence-dependent and sequence-independent features of proteins. Proteins. 1999, 34: 82-95. 10.1002/(SICI)1097-0134(19990101)34:1<82::AID-PROT7>3.0.CO;2-A.
Zhang Y, Skolnick J: Scoring function for automated assessment of protein structure template quality. Proteins. 2004, 57: 702-710. 10.1002/prot.20264.
Zhang Y, Skolnick J: The protein structure prediction problem could be solved using the current PDB library. Proceedings of the National Academy of Sciences of the United States of America. 2005, 102: 1029-1034. 10.1073/pnas.0407152101.
Zhang Y, Hubner I, Arakaki A, Shakhnovich E, Skolnick J: On the origin and completeness of highly likely single domain protein structures. Proceedings of the National Academy of Sciences of the United States of America. 2006, 103: 2605-2610. 10.1073/pnas.0509379103.
Zhang Y: Protein structure prediction by I-TASSER at CASP7. Invited talk given at CASP7 conference: 2006; Asilomar Conference Center, Pacific Grove, CA. 2006
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic acids research. 2000, 28: 235-242. 10.1093/nar/28.1.235.
Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic acids research. 1997, 25: 3389-3402. 10.1093/nar/25.17.3389.
Jones DT: Protein secondary structure prediction based on position-specific scoring matrices. J Mol Biol. 1999, 292: 195-202. 10.1006/jmbi.1999.3091.
Kabsch W, Sander C: Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers. 1983, 22: 2577-2637. 10.1002/bip.360221211.
Needleman SB, Wunsch CD: A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970, 48 (3): 443-453. 10.1016/0022-2836(70)90057-4.
Domingues FS, Lackner P, Andreeva A, Sippl MJ: Structure-based evaluation of sequence comparison and fold recognition alignment accuracy. J Mol Biol. 2000, 297 (4): 1003-1013. 10.1006/jmbi.2000.3615.
Zhang Y, Kihara D, Skolnick J: Local energy landscape flattening: Parallel hyperbolic Monte Carlo sampling of protein folding. Proteins. 2002, 48: 192-201. 10.1002/prot.10141.
Chen H, Zhou HX: Prediction of solvent accessibility and sites of deleterious mutations from protein sequence. Nucleic acids research. 2005, 33 (10): 3193-3199. 10.1093/nar/gki633.
Ahmad S, Gromiha MM, Sarai A: Real value prediction of solvent accessibility from amino acid sequence. Proteins. 2003, 50 (4): 629-635. 10.1002/prot.10328.
Frishman D, Argos P: Knowledge-based protein secondary structure assignment. Proteins. 1995, 23 (4): 566-579. 10.1002/prot.340230412.
Hopp TP, Woods KR: Prediction of protein antigenic determinants from amino acid sequences. Proc Natl Acad Sci USA. 1981, 78: 3824-3828. 10.1073/pnas.78.6.3824.
Kyte J, Doolittle RF: A simple method for displaying the hydropathic character of a protein. J Mol Biol. 1982, 157 (105–132):
Zhang Y, Skolnick J: SPICKER: A clustering approach to identify near-native protein folds. J Comput Chem. 2004, 25 (6): 865-871. 10.1002/jcc.20011.
Zhang Y, Arakaki A, Skolnick J: TASSER: An automated method for the prediction of protein tertiary structures in CASP6. Proteins. 2005, 61 (Suppl 7): 91-98. 10.1002/prot.20724.
Zhang Y, Skolnick J: TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic acids research. 2005, 33 (7): 2302-2309. 10.1093/nar/gki524.
Feig M, Rotkiewicz P, Kolinski A, Skolnick J, Brooks CL: Accurate reconstruction of all-atom protein representations from side-chain-based low-resolution models. Proteins. 2000, 41 (1): 86-97. 10.1002/1097-0134(20001001)41:1<86::AID-PROT110>3.0.CO;2-Y.
Canutescu AA, Shelenkov AA, Dunbrack RL: A graph-theory algorithm for rapid protein side-chain prediction. Protein Sci. 2003, 12 (9): 2001-2014. 10.1110/ps.03154503.
Tress M, Ezkurdia I, Grana O, Lopez G, Valencia A: Assessment of predictions submitted for the CASP6 comparative modeling category. Proteins. 2005, 61 (Suppl 7): 27-45. 10.1002/prot.20720.
Petrey D, Xiang Z, Tang CL, Xie L, Gimpelev M, Mitros T, Soto CS, Goldsmith-Fischman S, Kernytsky A, Schlessinger A, et al: Using multiple structure alignments, fast model building, and energetic analysis in fold recognition and homology modeling. Proteins. 2003, 53 (Suppl 6): 430-435. 10.1002/prot.10550.
Delano WL: (Delano Scientific, San Carlos, CA, USA, 2002).