Dự đoán các tương tác RNA-Protein chỉ bằng thông tin chuỗi

BMC Bioinformatics - Tập 12 - Trang 1-11 - 2011
Usha K Muppirala1,2, Vasant G Honavar1,3, Drena Dobbs1,2
1Bioinformatics and Computational Biology Program, Iowa State University, Ames, USA
2Department of Genetics, Development and Cell Biology, Iowa State University, Ames, USA
3Department of Computer Science, Iowa State University, Ames, USA

Tóm tắt

Các tương tác RNA-protein (RPI) đóng vai trò quan trọng trong nhiều quá trình tế bào, từ điều chỉnh phiên mã và sau phiên mã của biểu hiện gen đến cơ chế phòng vệ của cơ thể chống lại các tác nhân gây bệnh. Các thí nghiệm quy mô lớn để xác định các tương tác RNA-protein đang bắt đầu cung cấp thông tin quý giá về độ phức tạp của mạng lưới tương tác RNA-protein, nhưng lại tốn kém và tốn thời gian. Do đó, cần có các phương pháp tính toán đáng tin cậy để dự đoán các tương tác RNA-protein. Chúng tôi đề xuất RPISeq, một họ bộ phân loại để dự đoán các tương tác RNA-protein chỉ sử dụng thông tin từ chuỗi. Dựa trên các chuỗi RNA và protein đầu vào, RPISeq dự đoán liệu cặp RNA-protein có tương tác hay không. Chuỗi RNA được mã hóa dưới dạng một vector chuẩn hóa của thành phần ribonucleotide 4-mer, và chuỗi protein được mã hóa dưới dạng một vector chuẩn hóa của thành phần 3-mer, dựa trên một biểu diễn bảng chữ cái giảm xuống 7 ký tự. Hai biến thể của RPISeq được trình bày: RPISeq-SVM, sử dụng bộ phân loại Máy Vector Hỗ trợ (SVM) và RPISeq-RF, sử dụng bộ phân loại Rừng Ngẫu nhiên (RF). Trên hai tập dữ liệu điểm chuẩn không trùng lặp được trích xuất từ Cơ sở dữ liệu Giao diện Protein-RNA (PRIDB), RPISeq đạt được AUC (Diện tích Dưới đường Đặc trưng Đặc trưng nhận dạng - ROC) là 0.96 và 0.92. Trên một tập dữ liệu thứ ba chỉ chứa các tương tác mRNA-protein, hiệu suất của RPISeq có tính cạnh tranh với một phương pháp đã được công bố và yêu cầu thông tin về nhiều đặc điểm khác nhau (ví dụ: tuổi thọ mRNA, chú thích GO) của các RNA và protein đối tác dự kiến. Thêm vào đó, các bộ phân loại RPISeq được đào tạo bằng dữ liệu PRIDB đã dự đoán chính xác phần lớn (57-99%) các tương tác RNA-protein không mã hóa trong các mạng lưới từ NPInter được lấy từ E. coli, S. cerevisiae, D. melanogaster, M. musculus và H. sapiens. Các thí nghiệm của chúng tôi với RPISeq chứng tỏ rằng các tương tác RNA-protein có thể được dự đoán một cách đáng tin cậy chỉ bằng thông tin từ chuỗi. RPISeq cung cấp một phương pháp rẻ tiền cho việc xây dựng các mạng lưới tương tác RNA-protein bằng tính toán, và sẽ cung cấp những hiểu biết hữu ích về chức năng của các RNA không mã hóa. RPISeq có sẵn miễn phí dưới dạng một máy chủ web tại http://pridb.gdcb.iastate.edu/RPISeq/ .

Từ khóa


Tài liệu tham khảo

Lees JG, Heriche JK, Morilla I, Ranea JA, Orengo CA: Systematic computational prediction of protein interaction networks. Phys Biol 2011, 8: 035008. 10.1088/1478-3975/8/3/035008 Wang T-Y, He F, Hu Q-W, Zhang Z: A predicted protein-protein interaction network of the filamentous fungus Neurospora crassa. Mol Biosyst 2011. Lee TI: Transcriptional regulatory networks in Saccharomyces cerevisiae. Science 2002, 298: 799–804. 10.1126/science.1075090 Martínez-antonio A: Escherichia coli transcriptional regulatory network. Netw Biol 2011, 1: 21–33. Kishore S, Luber S, Zavolan M: Deciphering the role of RNA-binding proteins in the post-transcriptional control of gene expression. Brief Funct Genomics 2010, 9: 391–404. 10.1093/bfgp/elq028 Mittal N, Roy N, Babu MM, Janga SC: Dissecting the expression dynamics of RNA-binding proteins in posttranscriptional regulatory networks. Proc Natl Acad Sci USA 2009, 106: 20300–20305. 10.1073/pnas.0906940106 Tsvetanova NG, Klass DM, Salzman J, Brown PO: Proteome-wide search reveals unexpected RNA-binding proteins in Saccharomyces cerevisiae. PLoS One 2010, 5: e12671. 10.1371/journal.pone.0012671 Hafner M, Landthaler M, Burger L, Khorshid M, Hausser J, Berninger P, Rothballer A, Ascano M Jr, Jungkamp AC, Munschauer M, Ulrich A, Wardle GS, Dewell S, Zavolan M, Tuschl T: Transcriptome-wide identification of RNA-binding protein and microRNA target sites by PAR-CLIP. Cell 2010, 141: 129–141. 10.1016/j.cell.2010.03.009 Hafner M, Landthaler M, Burger L, Khorshid M, Hausser J, Berninger P, Rothballer A, Ascano M Jr, Jungkamp AC, Munschauer M, Ulrich A, Wardle GS, Dewell S, Zavolan M, Tuschl T: PAR-CliP--a method to identify transcriptome-wide the binding sites of RNA binding proteins. J Vis Exp 2010. Hogan DJ, Riordan DP, Gerber AP, Herschlag D, Brown PO: Diverse RNA-binding proteins interact with functionally related sets of RNAs, suggesting an extensive regulatory system. PLoS Biol 2008, 6: e255. 10.1371/journal.pbio.0060255 Licatalosi DD, Darnell RB: RNA processing and its regulation: global insights into biological networks. Nat Rev Genet 2010, 11: 75–87. Sola I, Mateos-Gomez PA, Almazan F, Zuñiga S, Enjuanes L: RNA-RNA and RNA-protein interactions in coronavirus replication and transcription. RNA Biol 2011, 8: 237–248. 10.4161/rna.8.2.14991 Li Z, Nagy PD: Diverse roles of host RNA binding proteins in RNA virus replication. RNA Biol 2011, 8: 305–315. 10.4161/rna.8.2.15391 Baroni TE, Chittur SV, George AD, Tenenbaum SA: Advances in RIP-chip analysis: RNA-binding protein immunoprecipitation-microarray profiling. Methods Mol Biol 2008, 419: 93–108. 10.1007/978-1-59745-033-1_6 Barkan A: Genome-wide analysis of RNA-protein interactions in plants. Methods Mol Biol 2009, 553: 13–37. 10.1007/978-1-60327-563-7_2 Charon C, Moreno AB, Bardou F, Crespi M: Non-protein-coding RNAs and their interacting RNA-binding proteins in the plant cell nucleus. Mol Plant 2010, 3: 729–739. 10.1093/mp/ssq037 Kaymak E, Wee LM, Ryder SP: Structure and function of nematode RNA-binding proteins. Curr Opin Struct Biol 2010, 20: 305–312. 10.1016/j.sbi.2010.03.010 Kim MY, Hur J, Jeong S: Emerging roles of RNA and RNA-binding protein network in cancer cells. BMB Rep 2009, 42: 125–130. 10.5483/BMBRep.2009.42.3.125 Pacheco A, Martinez-Salas E: Insights into the biology of IRES elements through riboproteomic approaches. J Biomed Biotechnol 2010. doi:10.1155/2010/458927 Terribilini M, Lee J-H, Yan C, Jerniga RL, Honavar V, Dobbs D: Prediction of RNA binding sites in proteins from amino acid sequence. RNA 2006, 12: 1450–62. 10.1261/rna.2197306 Pérez-Cano L, Fernández-Recio J: Optimal protein-RNA area, OPRA: a propensity-based method to identify RNA-binding sites on proteins. Proteins 2010, 78: 25–35. 10.1002/prot.22527 Zhou P, Zou J, Tian F, Shang Z: Geometric similarity between protein-RNA interfaces. J Comput Chem 2009, 30: 2738–2751. 10.1002/jcc.21300 Ray D, Kazan H, Chan ET, Castillo LP, Chaudhry S, Talukder S, Blencowe BJ, Morris Q, Hughes TR: Rapid and systematic analysis of the RNA recognition specificities of RNA-binding proteins. Nature Biotechnol 2009, 27: 667–70. 10.1038/nbt.1550 Keene JD, Komisarow JM, Friedersdorf MB: RIP-Chip: the isolation and identification of mRNAs, microRNAs and protein components of ribonucleoprotein complexes from cell extracts. Nature protoc 2006, 1: 302–7. 10.1038/nprot.2006.47 Licatalosi DD, Mele A, Fak JJ, Ule J, Kayikci M, Chi SW, Clark TA, Blume JE, Wang X, Darnell JC, Darnell RB: HITS-CLIP yields genome-wide insights into brain alternative RNA processing. Nature 2008, 456: 464–9. 10.1038/nature07488 Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Res 2000, 28: 235–42. 10.1093/nar/28.1.235 Wu T, Wang J, Liu C, Zhang Y, Shi B, Zhu X, Zhang Z, Skogerbø G, chen L, Lu H, Zhao Y, Chen R: NPInter: the noncoding RNAs and protein related biomacromolecules interaction database. Nucleic Acids Res 2006, 34: D150–2. 10.1093/nar/gkj025 Shen J, Zhang J, Luo X, Zhu W, Yu K, Chen K, Li Y, Jiang H: Predicting protein-protein interactions based only on sequences information. Proc Natl Acad Sci USA 2007, 104: 4337–41. 10.1073/pnas.0607879104 Shao X, Tian Y, Wu L, Wang Y, Jing L, Deng N: Predicting DNA-and RNA-binding proteins from sequences with kernel methods. J Theor Biol 2009, 258: 289–293. 10.1016/j.jtbi.2009.01.024 Wang Y, Wang J, Yang Z, Deng N: Sequence-based protein-protein interaction prediction via support vector machine. J Syst Sci Complex 2010, 23: 1012–1023. 10.1007/s11424-010-0214-z Hwang H, Vreven T, Whitfield TW, Wiehe K, Weng Z: A machine learning approach for the prediction of protein surface loop flexibility. Proteins: Struct Funct Bioinf 2011., 79: doi: 10.1002/prot.23070 Chen X-W, Liu M: Prediction of protein-protein interactions using random decision forest framework. Bioinformatics 2005, 21: 4394–400. 10.1093/bioinformatics/bti721 Liu Z-P, Wu L-Y, Wang Y, Zhang X-S, Chen L: Prediction of protein-RNA binding sites by a random forest method with combined features. Bioinformatics 2010, 26: 1616–1622. 10.1093/bioinformatics/btq253 Lewis BA, Walia RR, Terribilini M, Feguson J, Zheng C, Honavar V, Dobbs D: PRIDB: a Protein-RNA Interface Database. Nucleic Acids Res 2011, 39: D277–82. 10.1093/nar/gkq1108 Bellucci M, Agostini F, Masin M, Tartaglia GG: Predicting protein associations with long noncoding RNAs. Nature Methods 2011, 8: 444–445. 10.1038/nmeth.1611 Pancaldi V, Bähler J: In silico characterization and prediction of global protein-mRNA interactions in yeast. Nucleic Acids Res 2011, 1–11. Nacher JC, Araki N: Structural characterization and modeling of ncRNA-protein interactions. Biosystems 2010, 101: 10–9. 10.1016/j.biosystems.2010.02.005 Ursic D, Chinchilla KJSF, Culbertson MR: Multiple protein/protein and protein/RNA interactions suggest roles for yeast DNA/RNA helicase Sen1p in transcription, transcription-coupled DNA. Nucleic Acids Res 2004, 32: 2441–2452. 10.1093/nar/gkh561 Vidal VP, Verdone L, Mayes AE, Beggs JD: Characterization of U6 snRNA-protein interactions. RNA 1999, 5: 1470–81. 10.1017/S1355838299991355 Blencowe B, Brenner S, Hughes T, Morris Q: Post-transcriptional gene regulation: RNA-protein interactions, RNA processing, mRNA stability and localization. Pac Symp Biocomput 2009, 545–548. Berman HM, Olson WK, Beveridge DL, Westbrook J, Gelbin A, Demeny T, Hsieh S-H, Srinivasan AR, Schneider B: A comprehensive relational database of three-dimensional structures of nucleic acids. Biophys J 1992, 63: 751–759. 10.1016/S0006-3495(92)81649-1 Lee S, Blundell T: BIPA: a database for protein-nucleic acid interaction in 3D structures. Bioinformatics 2009, 25: 1559–1560. 10.1093/bioinformatics/btp243 Sanford JR, Wang X, Mort M, VanDyun N, Cooper DN, Mooney SD, Edenburg HJ, Liu Y: Splicing factor SFRS1 recognizes a functionally diverse landscape of RNA transcripts. Genome Res 2009, 19: 381–94. Gerber AP, Herschlag D, Brown PO: Extensive association of functionally and cytotopically related mRNAs with Puf family RNA-binding proteins in yeast. PLoS Biol 2004, 2: E79. 10.1371/journal.pbio.0020079 Khorshid M, Rodak C, Zavolan M: CLIPZ: a database and analysis environment for experimentally determined binding sites of RNA-binding proteins. Nucleic Acids Res 2010, 39: 245–252. Cook KB, Kazan H, Zuberi K, Morris Q, Hughes TR: RBPDB: a database of RNA-binding specificities. Nucleic Acids Res 2010, 39: 301–308. Vapnik V: The Nature of Statistical Learning Theory. New York: Springer; 1995. Hall M, Frank E, Holmes G, Pfahringer B, Reutemann P, Witten IH: The WEKA data mining software: An update. SIGKDD Explorations 2009, 11: 10–18. 10.1145/1656274.1656278 Breiman I: Random Forests. Mach Learn 2001, 45: 5–32. 10.1023/A:1010933404324 Baldi P, Brunak S, Chauvin Y, Andersen CAF, Nielsen H: Assessing the accuracy of prediction algorithms for classification: An overview. Bioinformatics 2000, 16: 412–424. 10.1093/bioinformatics/16.5.412