Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Dự đoán vị trí liên kết DNA của protein từ chuỗi amino acid
Tóm tắt
Hiểu rõ các chi tiết phân tử của sự tương tác giữa protein và DNA là rất quan trọng để giải mã cơ chế điều hòa gen. Chúng tôi trình bày một phương pháp học máy để xác định các vị trí amino acid liên quan đến sự tương tác giữa protein và DNA. Bắt đầu với một bộ phân loại Naïve Bayes được huấn luyện để dự đoán xem một amino acid cho trước có phải là vị trí liên kết DNA hay không, dựa trên danh tính của nó và danh tính của các hàng xóm trong chuỗi. Đầu vào của bộ phân loại bao gồm danh tính của vị trí mục tiêu và 4 hàng xóm trong chuỗi ở mỗi bên của vị trí mục tiêu. Bộ phân loại được huấn luyện và đánh giá (sử dụng phương pháp kiểm tra chéo loại một) trên một tập hợp không trùng lặp gồm 171 protein. Kết quả của chúng tôi cho thấy khả năng xác định các vị trí ở giao diện dựa trên thông tin chuỗi địa phương. Bộ phân loại đạt được độ chính xác tổng thể là 71% với hệ số tương quan là 0,24, độ đặc hiệu 35% và độ nhạy 53% trong việc xác định các vị trí ở giao diện như được đánh giá bởi kiểm tra chéo loại một. Chúng tôi cho thấy rằng hiệu suất của bộ phân loại được cải thiện bằng cách sử dụng độ entropi chuỗi của vị trí mục tiêu (độ entropi của cột tương ứng trong sự căn chỉnh nhiều lần thu được bằng cách căn chỉnh chuỗi mục tiêu với các homolog của nó) như là một đầu vào bổ sung. Bộ phân loại đạt được độ chính xác tổng thể là 78% với hệ số tương quan 0,28, độ đặc hiệu 44% và độ nhạy 41% trong việc xác định các vị trí ở giao diện. Việc kiểm tra các dự đoán trong bối cảnh của các cấu trúc 3 chiều của protein cho thấy tính hiệu quả của phương pháp này trong việc xác định các vị trí liên kết DNA từ thông tin chuỗi. Trong 33% (56/171) của các protein, bộ phân loại xác định các vị trí tương tác bằng cách nhận diện đúng ít nhất một nửa số vị trí ở giao diện. Trong 87% (149/171) của các protein, bộ phân loại nhận diện đúng ít nhất 20% số vị trí ở giao diện. Điều này gợi ý khả năng sử dụng các bộ phân loại như vậy để xác định các mô típ liên kết DNA tiềm năng và để thu được những hiểu biết có thể hữu ích về mối tương quan trong chuỗi của sự tương tác giữa protein và DNA. Các bộ phân loại Naïve Bayes được huấn luyện để xác định các vị trí liên kết DNA bằng cách sử dụng thông tin chuỗi cung cấp một phương pháp tính toán hiệu quả trong việc xác định các vị trí liên kết DNA tiềm tàng trong các protein liên kết DNA và nhận diện các mô típ liên kết DNA tiềm năng.
Từ khóa
#Protein-DNA interaction #Machine learning #Naïve Bayes classifier #DNA-binding residues #Sequence entropyTài liệu tham khảo
Ghosh D, Papavassiliou AG: Transcription factor therapeutics: long-shot or lodestone. Curr Med Chem 2005, 12: 691–701.
Blancafort P, Segal DJ, Barbas CFIII: Designing transcription factor architectures for drug discovery. Mol Pharmacol 2004, 66: 1361–1371. 10.1124/mol.104.002758
Pabo CO, Sauer RT: Transcription factors: structural families and principles of DNA recognition. Annu Rev Biochem 1992, 61: 1053–1095. 10.1146/annurev.bi.61.070192.005201
Laity JH, Lee BM, Wright PE: Zinc finger proteins: new insights into structural and functional diversity. Current Opinion in Structural Biology 2001, 11: 39–46. 10.1016/S0959-440X(00)00167-6
Lawson CL, Swigon D, Murakami KS, Darst SA, Berman HM, Ebright RH: Catabolite activator protein: DNA binding and transcription activation. Current Opinion in Structural Biology 2004, 14: 10–20. 10.1016/j.sbi.2004.01.012
Muller CW: Transcription factors: global and detailed views. Current Opinion in Structural Biology 2001, 11: 26–32. 10.1016/S0959-440X(00)00163-9
Radlinska M, Kondrzycka-Dada A, Piekarowicz A, Bujnicki JM: Identification of amino acids important for target recognition by the DNA:m5C methyltransferase M.NgoPII by alanine-scanning mutagenesis of residues at the protein-DNA interface. Proteins 2005, 58: 263–270. 10.1002/prot.20297
Griffith KL, Wolf JRE: A comprehensive alanine scanning mutagenesis of the Escherichia coli transcriptional activator SoxS: identifying amino acids important for DNA binding and transcription activation. Journal of Molecular Biology 2002, 322: 237–257. 10.1016/S0022-2836(02)00782-9
Geyer H, Geyer R, Pingoud V: A novel strategy for the identification of protein-DNA contacts by photocrosslinking and mass spectrometry. Nucleic Acids Res 2004, 32: e132. 10.1093/nar/gnh131
Jones S, Shanahan HP, Berman HM, Thornton JM: Using electrostatic potentials to predict DNA-binding sites on DNA-binding proteins. Nucl Acids Res 2003, 31: 7189–7198. 10.1093/nar/gkg922
Shanahan HP, Garcia MA, Jones S, Thornton JM: Identifying DNA-binding proteins using structural motifs and the electrostatic potential. Nucl Acids Res 2004, 32: 4732–4741. 10.1093/nar/gkh803
Tsuchiya Y, Kinoshita K, Nakamura H: Structure-based prediction of DNA-binding sites on proteins using the empirical preference of electrostatic potential and the shape of molecular surfaces. Proteins 2004, 55: 885–894. 10.1002/prot.20111
Keil M, Exner TE, Brickmann J: Pattern recognition strategies for molecular surfaces: III. Binding site prediction with a neural network. J Comput Chem 2004, 25: 779–789. 10.1002/jcc.10361
Ahmad S, Gromiha MM, Sarai A: Analysis and prediction of DNA-binding proteins and their binding residues based on composition, sequence and structural information. Bioinformatics 2004, 20: 477–486. 10.1093/bioinformatics/btg432
Ahmad S, Sarai A: PSSM-based prediction of DNA binding sites in proteins. BMC Bioinformatics 2005, 6: 33. 10.1186/1471-2105-6-33
Prediction of DNA-binding residues by PSSM and sequence homology http://wwwnetasaorg/dbs-pssm/
Kim JS, DeGiovanni A, Jancarik J, Adams PD, Yokota H, Kim R, Kim SH: Crystal structure of DNA sequence specificity subunit of a type I restriction-modification enzyme and its functional implications. PNAS 2005, 102: 3248–3253. 10.1073/pnas.0409851102
Jones S, Thornton JM: Prediction of protein-protein interaction sites using patch analysis. J Mol Biol 1997, 272: 133–143. 10.1006/jmbi.1997.1233
Sen TZ, Kloczkowski A, Jernigan RL, Yan C, Honavar V, Ho KM, Wang CZ, Ihm Y, Cao H, Gu X, Dobbs D: Predicting binding sites of hydrolase-inhibitor complexes by combining several methods. BMC Bioinformatics 2005, 5: 205. 10.1186/1471-2105-5-205
Yan C, Dobbs D, Honavar V: A two-stage classifier for identification of protein-protein interface residues. Bioinformatics 2004, 20: i371-i378. 10.1093/bioinformatics/bth920
Yan C, Honavar V, Dobbs D: Identification of interface residues in protease-inhibitor and antigen-antibody complexes: a support vector machine approach. Neural Computing & Applications 2004, 13: 123–129.
Terribilini M, Lee JH, Yan C, Jernigan RL, Honavar V, Dobbs D: Prediction of RNA-binding sites in proteins based on amino acid sequence. Submitted Submitted
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Research 2000, 28: 235–242. 10.1093/nar/28.1.235
Wang G, Dunbrack RLJ: PISCES: a protein sequence culling server. Bioinformatics 2003, 19: 1589–1591. 10.1093/bioinformatics/btg224
PDB derived data ftp://ftprcsborg/pub/pdb/derived_data/
Gene ontology annotation http://wwwebiacuk/GOA/
Hubbard SJ: NACCESS. Department of Biochemistry and Molecular Biology, University College, London.; 1993.
Witten IH, Frank E: Data mining: practical machine learning tools and techniques with Java implements. San Mateo, CA, Morgan Kaufmann; 1999.
Weka 3: Data mining software in Java http://wwwcswaikatoacnz/~ml/weka/
Buntine W: Theory refinement on Bayesian networks: ; Los Angeles, CA. ; 1991:52–60.
Sander C, Schneider R: Database of homology derived protein structures and the structural meaning of sequence alignment. Proteins 1991, 9: 56–68. 10.1002/prot.340090107
Rocchia W, Alexov E, Honig B: Extending the applicability of the nonlinear Poisson-Boltzmann equation: multiple dielectric constants and multivalent ions. Journal of Physical Chemistry 2001, B 105: 6507–6514.
Rocchia W, Sridharan S, Nicholls A, Alexov E, Chiabrera A, Honig B: Rapid grid-based construction of the molecular surface for both molecules and geometric objects: applications to the finite difference Poisson-Boltzmann method. Journal of Computational Chemistry 2002, 23: 128–137. 10.1002/jcc.1161
Eisenberg D, Weiss RM, Terwilliger TC: The hydrophobicity moment detects periodicity in protein hydrophobicity. Proc Natl Acad Sci USA 1984., 81:
Baldi P, Brunak S, Chauvin Y, Andersen CAF: Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics 2000, 16: 412–424. 10.1093/bioinformatics/16.5.412
Hulo N, Bairoch A, Bulliard V, Cerutti L, De Castro E, Langendijk-Genevaux PS, Pagni M, Sigrist CJA: The PROSITE database. Nucl Acids Res 2006, 34: D227–230. 10.1093/nar/gkj063
ps_scan program ftp://caexpasyorg/databases/prosite/tools/ps_scan/
Martz E: Protein Explorer: easy yet powerful macromolecular visualization. Trends Biochem Sci 2002, 27: 107–109. 10.1016/S0968-0004(01)02008-4