Sử dụng sinh tin học cấu trúc để nghiên cứu tác động của các SNP không đồng nghĩa và đột biến bệnh: phạm vi và giới hạn

BMC Bioinformatics - Tập 10 Số S8 - 2009
Joke Reumers1, Joost Schymkowitz1, Frédéric Rousseau1
1Switch Laboratory, VIB, Vrije Universiteit Brussel, Pleinlaan 2, 1050, Brussels, Belgium

Tóm tắt

Tóm tắt Thông tin nền Kết nối các hiệu ứng cấu trúc của đột biến với các kết quả chức năng là một vấn đề lớn trong sinh tin học cấu trúc, và nhiều công cụ cũng như nghiên cứu đã chỉ ra rằng các đặc điểm cấu trúc cụ thể như độ ổn định và độ chôn vùi của dư lượng có thể được sử dụng để phân biệt các biến thể trung lập và đột biến liên quan đến bệnh. Kết quả Chúng tôi đã nghiên cứu 39 đặc điểm cấu trúc trên một tập hợp SNPs và đột biến bệnh từ cơ sở dữ liệu Kiến thức Uniprot có thể được ánh xạ trên các cấu trúc tinh thể chất lượng cao và cho thấy rằng không có đặc điểm nào trong số này có thể được sử dụng như một tiêu chí phân loại duy nhất để tách biệt hai tập dữ liệu. Hơn nữa, chúng tôi đã xem xét quy trình chú thích từ đột biến đến kết quả và xác định những điểm yếu ở từng bước. Kết luận Mặc dù các kết quả chú thích xuất sắc từ nhiều nhóm nghiên cứu khẳng định tiềm năng lớn của việc sử dụng sinh tin học cấu trúc để điều tra các cơ chế nền tảng cho bệnh, việc diễn giải các chú thích như vậy không phải lúc nào cũng có thể được suy diễn sang các nghiên cứu biến thể trên quy mô proteome. Những khó khăn cho các nghiên cứu quy mô lớn có thể được tìm thấy cả ở cấp độ kỹ thuật, tức là sự khan hiếm của dữ liệu và sự không đầy đủ của bộ công cụ cấu trúc, và ở cấp độ khái niệm, tức là việc diễn giải đúng các kết quả trong bối cảnh tế bào.

Từ khóa


Tài liệu tham khảo

Sunyaev S, Lathe Wr, Bork P: Integration of genome data and protein structures: prediction of protein folds, protein interactions and "molecular phenotypes" of single nucleotide polymorphisms. Curr Opin Struct Biol 2001, 11: 125–130. 10.1016/S0959-440X(00)00175-5

Chasman D, Adams RM: Predicting the functional consequences of non-synonymous single nucleotide polymorphisms: Structure-based assessment of amino acid variation. J Mol Biol 2001, 307(2):683–706. 10.1006/jmbi.2001.4510

Ferrer-Costa C, Orozco M, de la Cruz X: Characterization of disease-associated single amino acid polymorphisms in terms of sequence and structure properties. J Mol Biol 2002, 315(4):771–786. 10.1006/jmbi.2001.5255

Stitziel NO, Tseng YY, Pervouchine D, Goddeau D, Kasif S, Liang J: Structural location of disease-associated single-nucleotide polymorphisms. J Mol Biol 2003, 327(5):1021–1030. 10.1016/S0022-2836(03)00240-7

Yue P, Li Z, Moult J: Loss of protein structure stability as a major causative factor in monogenic disease. J Mol Biol 2005, 353(2):459–473. 10.1016/j.jmb.2005.08.020

Worth CL, Burke DF, Blundell TL: Estimating the effects of single nucleotide polymorphisms on protein structure: how good are we at identifying likely disease associated mutations? Proceedings of Molecular Interactions – Bringing Chemistry to Life 2006.

Burke DF, Worth CL, Priego EM, Cheng T, Smink LJ, Todd JA, Blundell TL: Genome bioinformatic analysis of nonsynonymous SNPs. BMC Bioinformatics 2007, 8: 301. 10.1186/1471-2105-8-301

Worth CL, Bickerton GRJ, Schreyer A, Forman JR, Cheng TMK, Lee S, Gong S, Burke DF, Blundell TL: A structural bioinformatics approach to the analysis of nonsynonymous single nucleotide polymorphisms (nsSNPs) and their relation to disease. J Bioinform Comput Biol 2007, 5(6):1297–1318. 10.1142/S0219720007003120

Guerois R, Nielsen JE, Serrano L: Predicting changes in the stability of proteins and protein complexes: A study of more than 1000 mutations. J Mol Biol 2002, 320(2):369–387. 10.1016/S0022-2836(02)00442-4

Tokuriki N, Stricher F, Schymkowitz J, Serrano L, Tawfik DS: The stability effects of protein mutations appear to be universally distributed. J Mol Biol 2007, 369(5):1318–1332. 10.1016/j.jmb.2007.03.069

Steward RE, MacArthur MW, Laskowski RA, Thornton JM: Molecular basis of inherited diseases: a structural perspective. Trends Genet 2003, 19(9):505–513. 10.1016/S0168-9525(03)00195-1

DePristo M, Weinreich D, Hartl D: Missense meanderings in sequence space: A biophysical view of protein evolution. Nature Reviews Genetics 2005. AOP. AOP.

Simons KT, Bonneau R, Ruczinski I, Baker D: Ab initio protein structure prediction of CASP III targets using ROSETTA. Proteins 1999., (Suppl 3):

Serrano L, Guerois R: Fold-X: An algorithm to predict and engineer folding pathways. Abstr Pap Am Chem Soc 2001, 221: U395-U395.

Fujitsuka Y, Chikenji G, Takada S: SimFold energy function for de novo protein structure prediction: consensus with Rosetta. Proteins 2006, 62(2):381–398. 10.1002/prot.20748

Soti C, Csermely P: Protein stress and stress proteins: implications in aging and disease. J Biosci 2007., 32:

Van Durme J, Maurer-Stroh S, Wilkinson H, Rousseau F, Schymkowitz J: Accurate prediction of the sequence determinants of DnaK-peptide binding via a method that integrates homology modelling and experimental data. 2009, in press.

Carvalho MA, Marsillac SM, Karchin R, Manoukian S, Grist S, Swaby R, Urmenyi T, Rondinelli E, Silva R, Gayol L, Baumbach L, Sutphen R, Pickard-Brzosowicz J, Nathanson K, Sali A, Goldgar D, Couch F, Radice P, Monteiro AN: Determination of cancer risk associated with germ line BRCA1 missense variants by functional analysis. Cancer Res 2007, 67(4):1494–1501. 10.1158/0008-5472.CAN-06-3297

Ramensky V, Bork P, Sunyaev S: Human non-synonymous SNPs: server and survey. Nucleic Acid Res 2002, 30(17):3894–3900. 10.1093/nar/gkf493

Worth CL, Blundell TL: Estimating the effects of SNPs on protein structure: loss of protein interactions and stability as indicators of mis-function and disease-association. Curr Top Biochem Res 2008, in press.

Yue P, Melamud E, Moult J: SNPs3D: candidate gene and SNP selection for association studies. BMC Bioinformatics 2006, 7: 166. 10.1186/1471-2105-7-166

Ng PC, Henikoff S: Predicting deleterious amino acid substitutions. Genome Res 2001, 11(5):863–874. 10.1101/gr.176601

Bao L, Cui Y: Prediction of the phenotypic effects of non-synonymous single nucleotide polymorphisms using structural and evolutionary information. Bioinformatics 2005, 21(10):2185–2190. 10.1093/bioinformatics/bti365

Reumers J, Conde L, Medina I, Maurer-Stroh S, Van Durme J, Dopazo J, Rousseau F, Schymkowitz J: Joint annotation of coding and non-coding single nucleotide polymorphisms and mutations in the SNPeffect and PupaSuite databases. Nucleic Acids Res 2008, (36 Database):D825–9.

Ng PC, Henikoff S: SIFT: predicting amino acid changes that affect protein function. Nucleic Acid Res 2003, 31(13):3812–3814. 10.1093/nar/gkg509

Prlic A, Down TA, Hubbard TJ: Adding some SPICE to DAS. Bioinformatics 2005, 21(Suppl 2):ii40–1. 10.1093/bioinformatics/bti1106

Yip YL, Famiglietti M, Gos A, Duek PD, David FPA, Gateau A, Bairoch A: Annotating single amino acid polymorphisms in the UniProt/Swiss-Prot knowledgebase. Hum Mutat 2008, 29(3):361–366. 10.1002/humu.20671

UniProt Consortium: The Universal Protein Resource (UniProt). Nucleic Acids Res 2007, (35 Database):D193–7. 10.1093/nar/gkl929

Schymkowitz JWH, Rousseau F, Martins IC, Ferkinghoff-Borg J, Stricher F, Serrano L: Prediction of water and metal binding sites and their affinities by using the Fold-X force field. Proc Natl Acad Sci USA 2005, 102(29):10147–10152. 10.1073/pnas.0501980102

Fernandez-Escamilla AM, Rousseau F, Schymkowitz J, Serrano L: Prediction of sequence-dependent and mutational effects on the aggregation of peptides and proteins. Nat Biotechnol 2004, 22(10):1302–1306. 10.1038/nbt1012

Maurer-Stroh S, Debulpaep M, Kuemmerer N, Lopez de la Paz M, Martins I, Reumers J, Copland A, Serpell L, Serrano L, Rousseau F, Schymkowitz J: An exploration of the sequence determinants of amyloid formation and the development of the WALTZ prediction algorithm. 2009, in press.

Schymkowitz J, Borg J, Stricher F, Nys R, Rousseau F, Serrano L: The FoldX web server: an online force field. Nucleic Acid Res 2005, 33: W382-W388. 10.1093/nar/gki387

Vriend G: What If – a molecular modeling and drug design program. J Mol Graph 1990, 8: 52. 10.1016/0263-7855(90)80070-V

Thompson MJ, Sievers SA, Karanicolas J, Ivanova MI, Baker D, Eisenberg D: The 3D profile method for identifying fibril-forming segments of proteins. Proc Natl Acad Sci USA 2006, 103: 4074–4078. 10.1073/pnas.0511295103

McCarty JS, Rudiger S, Schonfeld HJ, Schneider-Mergener J, Nakahigashi K, Yura T, Bukau B: Regulatory region C of the E. coli heat shock transcription factor, sigma32, constitutes a DnaK binding site and is conserved among eubacteria. J Mol Biol 1996, 256(5):829–37. 10.1006/jmbi.1996.0129

Matthews BW: Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochim Biophys Acta 1975, 405(2):442–451.

Zweig MH, Campbell G: Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin Chem 1993, 39(4):561–577.