Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Chọn lọc tự nhiên của các thuộc tính cấu trúc và chức năng của protein: góc nhìn từ biến dị đơn nucleotide
Tóm tắt
Tốc độ tiến hóa phân tử của các gen mã hóa protein phụ thuộc vào độ nghiêm ngặt của các ràng buộc chức năng hoặc cấu trúc. Tỷ lệ Ka/Ks thường được sử dụng như một chỉ số của các ràng buộc chọn lọc và thường được tính toán từ các căn chỉnh giữa các loài. Việc tích lũy dữ liệu biến dị đơn nucleotide (SNP) gần đây đã cho phép xác định tỷ lệ Ka/Ks cho sự biến dị (tỷ lệ SNP A/S). Sử dụng dữ liệu từ cơ sở dữ liệu dbSNP, chúng tôi đã thực hiện khảo sát quy mô lớn đầu tiên về tỷ lệ SNP A/S cho các thuộc tính cấu trúc và chức năng khác nhau. Chúng tôi xác nhận rằng tỷ lệ SNP A/S có mối tương quan lớn với Ka/Ks cho sự phân ly. Chúng tôi quan sát thấy các ràng buộc chọn lọc mạnh hơn đối với các protein có mức biểu hiện mRNA cao hoặc mô hình biểu hiện rộng, không có các gen bổ sung, xuất hiện sớm hơn trong tiến hóa, có các vùng không có cấu trúc nguyên thủy, nằm trong tế bào chất và nhân hoặc liên quan đến các bệnh ở người. Ở cấp độ tồn dư, chúng tôi phát hiện ra mức độ biến đổi cao hơn cho các tồn dư tiếp xúc với dung môi, nằm trong cấu hình vòng, các vùng không có cấu trúc nguyên thủy hoặc các vùng có độ phức tạp thấp, hoặc nằm trong các peptide tín hiệu của các protein được tiết ra. Phân tích của chúng tôi cũng cho thấy rằng histone và protein kinase là một trong những họ protein chịu ràng buộc chọn lọc mạnh nhất, trong khi các thụ thể khứu giác và vị giác là một trong những nhóm biến đổi nhiều nhất. Nghiên cứu của chúng tôi gợi ý rằng tỷ lệ SNP A/S là một đo lường vững chắc cho các ràng buộc chọn lọc. Mối tương quan giữa tỷ lệ SNP A/S và các biến khác cung cấp cái nhìn quý giá về sự chọn lọc tự nhiên của các thuộc tính cấu trúc hoặc chức năng khác nhau, đặc biệt là đối với các gen đặc hữu của con người và các ràng buộc trong dòng giống con người.
Từ khóa
#biến dị đơn nucleotide #chọn lọc tự nhiên #Ka/Ks #protein #gen mã hóa protein #ràng buộc chọn lọcTài liệu tham khảo
Hurst LD: The Ka/Ks ratio: diagnosing the form of sequence evolution. Trends Genet. 2002, 18: 486-10.1016/S0168-9525(02)02722-1.
Li W-H: Molecular Evolution. 1997, Sunderland, Massachusetts: Sinauer Associates, Inc.
Jordan IK, Rogozin IB, Wolf YI, Koonin EV: Essential genes are more evolutionarily conserved than are nonessential genes in bacteria. Genome Res. 2002, 12: 962-968. 10.1101/gr.87702. Article published online before print in May 2002.
Zhang L, Li WH: Mammalian housekeeping genes evolve more slowly than tissue-specific genes. Mol Biol Evol. 2004, 21: 236-239. 10.1093/molbev/msh010.
Mouse Genome Sequencing Consortium, Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, Agarwala R, Ainscough R, Alexandersson M, An P, Antonarakis SE, Attwood J, Baertsch R, Bailey J, Barlow K, Beck S, Berry E, Birren B, Bloom T, Bork P, Botcherby M, Bray N, Brent MR, Brown DG, Brown SD, Bult C, Burton J, Butler J, Campbell RD, Carninci P, et al: Initial sequencing and comparative analysis of the mouse genome. Nature. 2002, 420: 520-562. 10.1038/nature01262.
Sherry ST, Ward MH, Kholodov M, Baker J, Phan L, Smigielski EM, Sirotkin K: dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001, 29: 308-311. 10.1093/nar/29.1.308.
Jiang R, Duan J, Windemuth A, Stephens JC, Judson R, Xu C: Genome-wide evaluation of the public SNP databases. Pharmacogenomics. 2003, 4: 779-789. 10.1517/phgs.4.6.779.22821.
Freudenberg-Hua Y, Freudenberg J, Winantea J, Kluck N, Cichon S, Bruss M, Propping P, Nöthen MM: Systematic investigation of genetic variability in 111 human genes-implications for studying variable drug response. Pharmacogenomics J. 2005, 5: 183-192. 10.1038/sj.tpj.6500306.
Kimura M: The neutral theory of molecular evolution. Evolution of Genes and Proteins. Edited by: Nei M, Koehn RK. 1983, Sunderland, Massachusetts: Sinauer Associates, Inc., 208-233.
Fay JC, Wyckoff GJ, Wu CI: Positive and negative selection on the human genome. Genetics. 2001, 158: 1227-1234.
Zhang L, Li WH: Human SNPs reveal no evidence of frequent positive selection. Mol Biol Evol. 2005, 22: 2504-2507. 10.1093/molbev/msi240.
Chimpanzee Sequencing and Analysis Consortium: Initial sequence of the chimpanzee genome and comparison with the human genome. Nature. 2005, 437: 69-87. 10.1038/nature04072.
Ensembl. [http://www.ensembl.org]
Gibbons JD: Nonparametric Measures of Association. 1993, Newbury Park: Sage Publications
Altschul SF, Madden TL, Shäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped Blast and PSI-Blast: a new generation of protein database search programs. Nucleic Acids Res. 1997, 25: 3389-3402. 10.1093/nar/25.17.3389.
Rocha EP, Danchin A: An analysis of determinants of amino acids substitution rates in bacterial proteins. Mol Biol Evol. 2004, 21: 108-116. 10.1093/molbev/msh004.
Pál C, Papp B, Hurst LD: Highly expressed genes in yeast evolve slowly. Genetics. 2001, 158: 927-931.
Subramanian S, Kumar S: Gene expression intensity shapes evolutionary rates of the proteins encoded by the vertebrate genome. Genetics. 2004, 168: 373-381. 10.1534/genetics.104.028944.
Drummond DA, Raval A, Wilke CO: A single determinant dominates the rate of yeast protein evolution. Mol Biol Evol. 2006, 23: 327-337. 10.1093/molbev/msj038.
Drummond DA, Bloom JD, Adami C, Wilke CO, Arnold FH: Why highly expressed proteins evolve slowly. Proc Natl Acad Sci USA. 2005, 102: 14338-14343. 10.1073/pnas.0504070102.
Plotkin JB, Fraser HB: Assessing the determinants of evolutionary rates in the presence of noise. Mol Biol Evol. 2007, 24: 1113-1121. 10.1093/molbev/msm044.
Duret L, Mouchiroud D: Determinants of substitution rates in mammalian genes: expression pattern affects selection intensity but not mutation rate. Mol Biol Evol. 2000, 17: 68-74.
Lercher MJ, Chamary JV, Hurst LD: Genomic regionality in rates of evolution is not explained by clustering of genes of comparable expression profile. Genome Res. 2004, 14: 1002-1013. 10.1101/gr.1597404.
Su AI, Wiltshire T, Batalov S, Lapp H, Ching KA, Block D, Zhang J, Soden R, Hayakawa M, Kreiman G, Cooke MP, Walker JR, Hogenesch JB: A gene atlas of the mouse and human protein-encoding transcriptomes. Proc Natl Acad Sci USA. 2004, 101: 6062-6067. 10.1073/pnas.0400782101.
Kondrashov FA, Rogozin IB, Wolf YI, Koonin EV: Selection in the evolution of gene duplications. Genome Biol. 2002, 3: research0008.1-0008.9. 10.1186/gb-2002-3-2-research0008.
Lynch M, Conery JS: The evolutionary fate and consequences of duplicate genes. Science. 2000, 290: 1151-1155. 10.1126/science.290.5494.1151.
Wheeler DL, Barrett T, Benson DA, Bryant SH, Canese K, Chetvernin V, Church DM, DiCuccio M, Edgar R, Federhen S, Geer LY, Kapustin Y, Khovayko O, Landsman D, Lipman DJ, Madden TL, Maglott DR, Ostell J, Miller V, Pruitt KD, Schuler GD, Sequeira E, Sherry ST, Sirotkin K, Souvorov A, Starchenko G, Tatusov RL, Tatusova TA, Wagner L, Yaschenko E: Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 2007, 35 (Database issue): D5-D12. 10.1093/nar/gkl1031.
HomoloGene. [http://www.ncbi.nlm.nih.gov/sites/entrez?db=homologene]
Albà MM, Castresana J: Inverse relationship between evolutionary rate and age of mammalian genes. Mol Biol Evol. 2005, 22: 598-606. 10.1093/molbev/msi045.
Albà MM, Castresana J: On homology searches by protein Blast and the characterization of the age of genes. BMC Evol Biol. 2007, 7: 53-10.1186/1471-2148-7-53.
Elhaik E, Sabath N, Graur D: The "inverse relationship between evolutionary rate and age of mammalian genes" is an artifact of increased genetic distance with rate of evolution and time of divergence. Mol Biol Evol. 2006, 23: 1-3. 10.1093/molbev/msj006.
Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G: Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 2000, 25: 25-29. 10.1038/75556.
Lemos B, Bettencourt BR, Meiklejohn CD, Hartl DL: Evolution of proteins and gene expression levels are coupled in Drosophila and are independently associated with mRNA abundance, protein length, and number of protein-protein interactions. Mol Biol Evol. 2005, 22: 1345-1354. 10.1093/molbev/msi122.
Larracuente AM, Sackton TB, Greenberg AJ, Wong A, Singh ND, Sturgill D, Zhang Y, Oliver B, Clark AG: Evolution of protein-coding genes in Drosophila. Trends Genet. 2008, 24: 114-123. 10.1016/j.tig.2007.12.001.
Zhang J: Protein-length distributions for the three domains of life. Trends Genet. 2000, 16: 107-109. 10.1016/S0168-9525(99)01922-8.
Liao BY, Scott NM, Zhang J: Impacts of gene essentiality, expression pattern, and gene compactness on the evolutionary rate of mammalian proteins. Mol Biol Evol. 2006, 23: 2072-2080. 10.1093/molbev/msl076.
Lipman DJ, Souvorov A, Koonin EV, Panchenko AR, Tatusova TA: The relationship of protein conservation and sequence length. BMC Evol Biol. 2002, 2: 20-10.1186/1471-2148-2-20.
Ferrer-Costa C, Orozco M, de la Cruz X: Characterization of disease-associated single amino acid polymorphisms in terms of sequence and structure properties. J Mol Biol. 2002, 315: 771-786. 10.1006/jmbi.2001.5255.
Wang Z, Moult J: SNPs, protein structure, and disease. Hum Mutat. 2001, 17: 263-270. 10.1002/humu.22.
Rost B: How to use protein 1D structure predicted by PROFphd. The Proteomics Protocols Handbook. Edited by: Walker JE. 2005, Totowa NJ: Humana, 875-901.
Jones DT: Protein secondary structure prediction based on position-specific scoring matrices. J Mol Biol. 1999, 292: 195-202. 10.1006/jmbi.1999.3091.
Dunker AK, Lawson JD, Brown CJ, Williams RM, Romero P, Oh JS, Oldfield CJ, Campen AM, Ratliff CM, Hipps KW, Ausio J, Nissen MS, Reeves R, Kang C, Kissinger CR, Bailey RW, Griswold MD, Chiu W, Garner EC, Obradovic Z: Intrinsically disordered protein. J Mol Graph Model. 2001, 19: 26-59. 10.1016/S1093-3263(00)00138-8.
Ward JJ, Sodhi JS, McGuffin LJ, Buxton BF, Jones DT: Prediction and functional analysis of native disorder in proteins from the three kingdoms of life. J Mol Biol. 2004, 337: 635-645. 10.1016/j.jmb.2004.02.002.
Liu J, Tan H, Rost B: Loopy proteins appear conserved in evolution. J Mol Biol. 2002, 322: 53-64. 10.1016/S0022-2836(02)00736-2.
Dunker AK, Cortese MS, Romero P, Iakoucheva LM, Uversky VN: Flexible nets. The roles of intrinsic disorder in protein interaction networks. FEBS J. 2005, 272: 5129-5148. 10.1111/j.1742-4658.2005.04948.x.
Wootton JC, Federhen S: Analysis of compositionally biased regions in sequence databases. Methods Enzymol. 1996, 266: 554-571.
Ramensky V, Bork P, Sunyaev S: Human non-synonymous SNPs: server and survey. Nucleic Acids Res. 2002, 30: 3894-3900. 10.1093/nar/gkf493.
Julenius K, Pedersen AG: Protein evolution is faster outside the cell. Mol Biol Evol. 2006, 23: 2039-2048. 10.1093/molbev/msl081.
Bendtsen JD, Nielsen H, von Heijne G, Brunak S: Improved prediction of signal peptides: SignalP 3.0. J Mol Biol. 2004, 340: 783-795. 10.1016/j.jmb.2004.05.028.
Krogh A, Larsson B, von Heijne G, Sonnhammer EL: Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol. 2001, 305: 567-580. 10.1006/jmbi.2000.4315.
Nair R, Rost B: Mimicking cellular sorting improves prediction of subcellular localization. J Mol Biol. 2005, 348: 85-100. 10.1016/j.jmb.2005.02.025.
Camon E, Magrane M, Barrell D, Lee V, Dimmer E, Maslen J, Binns D, Harte N, Lopez R, Apweiler R: The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology. Nucleic Acids Res. 2004, 32 (Database issue): D262-D266. 10.1093/nar/gkh021.
Finn RD, Mistry J, Schuster-Bockler B, Griffiths-Jones S, Hollich V, Lassmann T, Moxon S, Marshall M, Khanna A, Durbin R, Eddy SR, Sonnhammer EL, Bateman A: Pfam: clans, web tools and services. Nucleic Acids Res. 2006, 34 (Database issue): D247-D251. 10.1093/nar/gkj149.
Smith NG, Eyre-Walker A: Human disease genes: patterns and predictions. Gene. 2003, 318: 169-175. 10.1016/S0378-1119(03)00772-8.
Huang H, Winter EE, Wang H, Weinstock KG, Xing H, Goodstadt L, Stenson PD, Cooper DN, Smith D, Alba MM, Ponting CP, Fechtel K: Evolutionary conservation and selection of human disease gene orthologs in the rat and mouse genomes. Genome Biol. 2004, 5: R47-10.1186/gb-2004-5-7-r47.
Kondrashov FA, Ogurtsov AY, Kondrashov AS: Bioinformatical assay of human gene morbidity. Nucleic Acids Res. 2004, 32: 1731-1737. 10.1093/nar/gkh330.
Futreal PA, Coin L, Marshall M, Down T, Hubbard T, Wooster R, Rahman N, Stratton MR: A census of human cancer genes. Nat Rev Cancer. 2004, 4: 177-183. 10.1038/nrc1299.
Forbes S, Clements J, Dawson E, Bamford S, Webb T, Dogan A, Flanagan A, Teague J, Wooster R, Futreal PA, Stratton MR: COSMIC 2005. Br J Cancer. 2006, 94: 318-322. 10.1038/sj.bjc.6602928.
Tu Z, Wang L, Xu M, Zhou X, Chen T, Sun F: Further understanding human disease genes by comparing with housekeeping genes and other genes. BMC Genomics. 2006, 7: 31-10.1186/1471-2164-7-31.
Fraser HB, Hirsh AE, Steinmetz LM, Scharfe C, Feldman MW: Evolutionary rate in the protein interaction network. Science. 2002, 296: 750-752. 10.1126/science.1068696.
Jordan IK, Wolf YI, Koonin EV: No simple dependence between protein evolution rate and the number of protein-protein interactions: only the most prolific interactors tend to evolve slowly. BMC Evol Biol. 2003, 3: 1-10.1186/1471-2148-3-1.
Bloom JD, Adami C: Apparent dependence of protein evolutionary rate on number of interactions is linked to biases in protein-protein interactions data sets. BMC Evol Biol. 2003, 3: 21-10.1186/1471-2148-3-21.
Batada NN, Hurst LD, Tyers M: Evolutionary and physiological importance of hub proteins. PLoS Comput Biol. 2006, 2: e88-10.1371/journal.pcbi.0020088.
Kerrien S, Alam-Faruque Y, Aranda B, Bancarz I, Bridge A, Derow C, Dimmer E, Feuermann M, Friedrichsen A, Huntley R, Kohler C, Khadake J, Leroy C, Liban A, Lieftink C, Montecchi-Palazzi L, Orchard S, Risse J, Robbe K, Roechert B, Thorneycroft D, Zhang Y, Apweiler R, Hermjakob H: IntAct - open source resource for molecular interaction data. Nucleic Acids Res. 2007, 35 (Database issue): D561-D565. 10.1093/nar/gkl958.
Parmley JL, Urrutia AO, Potrzebowski L, Kaessmann H, Hurst LD: Splicing and the evolution of proteins in mammals. PLoS Biol. 2007, 5: e14-10.1371/journal.pbio.0050014.
Koonin EV, Wolf YI: Evolutionary systems biology: links between gene evolution and function. Curr Opin Biotechnol. 2006, 17: 481-487. 10.1016/j.copbio.2006.08.003.
Gene Expression Atlas. [http://wombat.gnf.org/index.html]
Yanai I, Benjamin H, Shmoish M, Chalifa-Caspi V, Shklar M, Ophir R, Bar-Even A, Horn-Saban S, Safran M, Domany E, Lancet D, Shmueli O: Genome-wide midrange transcription profiles reveal expression level relationships in human tissue specification. Bioinformatics. 2005, 21: 650-659. 10.1093/bioinformatics/bti042.
GOA slim. [ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/goslim/goaslim.map]
IntAct. [ftp://ftp.ebi.ac.uk/pub/databases/intact/]
Cancer Gene Census. [http://www.sanger.ac.uk/genetics/CGP/Census/]
Catalogue Of Somatic Mutations In Cancer. [http://www.sanger.ac.uk/genetics/CGP/cosmic/]
OMIM. [http://www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM]
Miyata T, Yasunaga T: Molecular evolution of mRNA: a method for estimating evolutionary rates of synonymous and amino acid substitutions from homologous nucleotide sequences and its application. J Mol Evol. 1980, 16: 23-36. 10.1007/BF01732067.