Đánh giá và dự đoán các tương tác protein bằng cách kết hợp nhúng đa dạng với tích hợp thông tin đa dạng

Yingke Lei1, Zhu-Hong You1, Zhen Ji2, Lin Zhu3, De-Shuang Huang1
1Tongji University, 1239 Siping Road, Shanghai, P.R. China
2College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, Guangdong, 518060, P.R. China
3Department of Automation, University of Science and Technology of China, Hefei, Anhui, 230027, P.R. China

Tóm tắt

Tóm tắt Nền tảng Các tương tác protein-protein (PPI) đóng vai trò quan trọng trong hầu hết mọi khía cạnh của chức năng tế bào trong một sinh vật. Trong thập kỷ qua, sự phát triển của các kỹ thuật mới có thể thu thập dữ liệu quy mô lớn đã tạo ra khối lượng dữ liệu khổng lồ và cung cấp các tài nguyên quý giá cho việc nghiên cứu các tương tác protein. Tuy nhiên, các dữ liệu tương tác protein thu được qua quy trình này thường đi kèm với tỷ lệ dương tính giả và âm tính giả cao. Do đó, rất cần thiết phát triển các phương pháp mở rộng để xác định những lỗi này từ quan điểm tính toán. Kết quả Chúng tôi đã phát triển một kỹ thuật tính toán vững chắc để đánh giá độ tin cậy của các tương tác và dự đoán các tương tác mới bằng cách kết hợp nhúng đa dạng với tích hợp thông tin đa dạng. Việc xác minh phương pháp đề xuất đã được thực hiện thông qua các thí nghiệm rộng rãi trên các mạng PPI liên kết chặt chẽ và thưa của nấm men. Kết quả cho thấy các tương tác được xếp hạng hàng đầu bởi phương pháp của chúng tôi có tính đồng nhất chức năng cao và tính nhất quán về vị trí. Kết luận Phương pháp đề xuất của chúng tôi đạt hiệu suất tốt hơn so với các phương pháp hiện tại bất kể là trong việc đánh giá hay dự đoán các tương tác protein. Hơn nữa, phương pháp của chúng tôi đủ tổng quát để hoạt động trên nhiều loại mạng PPI mà không phụ thuộc vào việc chúng có liên kết chặt chẽ hay thưa. Do đó, thuật toán được đề xuất là một phương pháp hứa hẹn hơn để phát hiện cả các tương tác dương tính giả và âm tính giả trong các mạng PPI.

Từ khóa


Tài liệu tham khảo

Chua HN, Wong L: Increasing the reliability of protein interactomes. Drug Discov Today 2008, 13: 652–658. 10.1016/j.drudis.2008.05.004

Edwards AM, Kus B, Jansen R, Greenbaum D, Greenblatt J, Gerstein M: Bridging structural biology and genomics: assessing protein interaction data with known complexes. Trends Genet 2002, 18(10):529–536. 10.1016/S0168-9525(02)02763-4

Saito R, Suzuki H, Hayashizaki Y: Interaction generality, a measurement to assess the reliability of a protein-protein interaction. Nucleic Acids Res 2002, 30(5):1163–1168. 10.1093/nar/30.5.1163

Saito R, Suzuki H, Hayashizaki Y: Construction of reliable protein-protein interaction networks with a new interaction generality measure. Bioinformatics 2003, 19(6):756–763. 10.1093/bioinformatics/btg070

Chen J, Hsu W, Lee ML, Ng S-K: Discovering reliable protein interactions from high-throughput experimental data using network topology. Artif Intell Med 2005, 35: 37–47. 10.1016/j.artmed.2005.02.004

Chen J, Hsu W, Lee ML, Ng S-K: Increasing confidence of protein interactomes using network topological metrics. Bioinformatics 2006, 22(16):1998–2004. 10.1093/bioinformatics/btl335

Brun C, Chevent F, Martin D, Wojcik J, Guenoche A, Jacq B: Functional classification of proteins for the prediction of cellular function from a protein-protein interaction network. Genome Biol 2003, 5(1):R6. 10.1186/gb-2003-5-1-r6

Chua HN, Sung WK, Wong L: Exploiting indirect neighbours and topological weight to predict protein function from protein-protein interactions. Bioinformatics 2006, 22(13):1623–1630. 10.1093/bioinformatics/btl145

Bader JS, Chaudhuri A, Rothberg JM, Chant J: Gaining confidence in high-throughput protein interaction networks. Nat Biotechnol 2004, 22(1):78–85. 10.1038/nbt924

Jansen R, Yu H, Greenbaum D, Kluger Y, Krogan NJ, Chung S, et al.: A Bayesian networks approach for predicting protein-protein interactions from genomic data. Science 2003, 302(5644):449–453. 10.1126/science.1087361

Jansen R, Greenbaum D, Gerstein M: Relating whole-genome expression data with protein-protein interactions. Genome Res 2002, 12(1):37–46. 10.1101/gr.205602

Qi Y, Klien-Seetharaman J, Bar-Joseph Z: Random forest similarity for protein-protein interaction prediction from multiple sources. Pac Symp Biocomput 2005, 10: 531–542.

Dohkan S, Koike A, Takagi T: Prediction of protein-protein interactions using support vector machines. Proc Fourth IEEE Symposium on Bioinformatics and Bioengineering 2004, 576–583.

Przulj N: Biological network comparison using graphlet degree distribution. Bioinformatics 2006, 23(2):e177-e183.

Przulj N, Higham D: Modelling protein-protein interaction networks via stickiness index. J R Soc Interface 2006, 3(10):711–716. 10.1098/rsif.2006.0147

Przulj N, Corneil DG, Jurisica I: Modeling interactome: scale-free or geometric? Bioinformatics 2004, 20(18):3508–3515. 10.1093/bioinformatics/bth436

Przulj N, Corneil DG, Jurisica I: Efficient estimation of graphlet frequency distributions in protein-protein interaction networks. Bioinformatics 2006, 22(8):974–980. 10.1093/bioinformatics/btl030

Higham DJ, Rasajski M, Przulj N: Fitting a geometric graph to a protein-protein interaction network. Bioinformatics 2008, 24(8):1093–1099. 10.1093/bioinformatics/btn079

Kuchaiev O, Rasajski M, Higham DJ, Przulj N: Geometric de-noising of protein-protein interaction networks. PLoS Comput Biol 2009, 5(8):e1000454. 10.1371/journal.pcbi.1000454

Terradot L, Durnell N, Li M, Ory J, Labigne A, Legrain P, Colland F, Waksman G: Biochemical characterization of protein complexes from the helicobacter pylori protein interaction map: strategies for complex formation and evidence for novel interactions within type IV secretion systems. Mol Cell Proteomics 2004, 3: 809–819. 10.1074/mcp.M400048-MCP200

Tenenbaum J, de Silva V, Langford J: A global geometric framework for nonlinear dimensionality reduction. Science 2000, 290: 2319–2323. 10.1126/science.290.5500.2319

Roweis S, Saul L: Nonlinear dimensionality reduction by locally linear embedding. Science 2000, 290: 2323–2326. 10.1126/science.290.5500.2323

Saul LK, Roweis ST: Think globally, fit locally: unsupervised learning of low dimensional manifold. J Machine Learning Research 2003, 4: 119–155.

Belkin M, Niyogi P: Laplacian eigenmaps for dimensionality reduction and data representation. Neural Comput 2003, 15(6):1373–1396. 10.1162/089976603321780317

Donoho D, Grimes C: Hessian eigenmaps: new locally linear embedding techniques for high-dimensional data. Proc Natl Acad Sci USA 2003, 100(10):5591–5596. 10.1073/pnas.1031596100

Weinberger K, Saul L: Unsupervised learning of image manifolds by semidefinite programming. Proc IEEE Intl Conf Computer Vision and Pattern Recognition 2004, 2: 988–995.

Brand M: Charting a manifold. Proc Advances in Neural Information Processing Systems 2003, 15: 961–968.

Zhang Z, Zha H: Principal manifolds and nonlinear dimension reduction via local tangent space alignment. SIAM J Scientific Computing 2005, 26(1):313–338.

Coifman RR, Lafon S: Diffusion maps. Appl Comput Harmon Anal 2006, 21: 5–30. 10.1016/j.acha.2006.04.006

Lafon S, Lee AB: Diffusion maps and coarse-graining: a unified framework for dimensionality reduction, graph partitioning and data set parameterization. IEEE Trans Pattern Anal Mach Intell 2006, 28(9):1393–1403.

Lin T, Zha H, Lee S: Riemannian manifold learning for nonlinear dimensionality reduction. Proc Ninth European Conf Computer Vision 2006, 44–55.

Lin T, Zha HB: Riemannian manifold learning. IEEE Trans Pattern Anal Mach Intell 2008, 30(5):796–809.

Xiang SM, Nie FP, Zhang CS: Nonlinear dimensionality reduction with local spline embedding. IEEE Trans Knowledge and Data Engineering 2009, 21(9):1285–1298.

Xenarios I, Rice DW, Salwinski L, Baron MK, Marcotte EM, Eisenberg D: DIP: the database of interacting proteins. Nucleic Acids Res 2000, 28(1):289–291. 10.1093/nar/28.1.289

Breitkreutz BJ, Stark C, Reguly T, Boucher L, Breitkreutz A, Livstone M, et al.: The BioGRID interaction database: 2008 update. Nucleic Acids Res 2008, 36: D637-D640.

Krogan NJ, Cagney G, Yu H, Zhong G, Guo X, Ignatchenko A, et al.: Global landscape of protein complexes in the yeast saccharomyces cerevisiae. Nature 2006, 440(7084):637–643. 10.1038/nature04670

Gavin AC, Aloy P, Grandi P, Krause R, Boesche M, Marzioch M, et al.: Proteome survey reveals modularity of the yeast cell machinery. Nature 2006, 440(7084):631–636. 10.1038/nature04532

Collins SR, Kemmeren P, Zhao XC, Greenblatt JF, Spencer F, Holstege FCP, Weissman JS, Krogan NJ: Toward a comprehensive atlas of the physical interactome of saccharomyces cerevisiae. Mol Cell Proteomics 2007, 6: 439–450.

Tong AHY, Lesage G, Bader GD, Ding HM, Xu H, Xin XF, et al.: Global mapping of the yeast genetic interaction network. Science 2004, 303(5659):808–813. 10.1126/science.1091317

Oliver S: Guilt-by-association goes global. Nature 2000, 403: 601–603. 10.1038/35001165

The Gene Ontology Consortium: Creating the gene ontology resource: design and implementation. Genome Res 2001, 11: 1425–1433. 10.1101/gr.180801

Colak R, Hormozdiari F, Moser F, Schonhuth A, Holman J, Ester M, Sahinalp SC: Dense graphlet statistics of protein interaction and random networks. Pac Symp Biocomput 2009, 178–189.

Wong LS, Liu GM: Protein interactome analysis for countering pathogen drug resistance. J Comput Sci Technol 2010, 25: 124–130. 10.1007/s11390-010-9310-8

Qi Y, Klien-Seetharaman J, Bar-Joseph Z: Evaluation of different biological data and computational classification methods for use in protein interaction prediction. Proteins 2006, 63: 490–500. 10.1002/prot.20865

Qi Y, Klien-Seetharaman J, Bar-Joseph Z: A mixture of feature experts approach for protein-protein interaction prediction. BMC Bioinformatics 2007, 8: S6.

Bar-Joseph Z, Gerber G, Lee T, Rinaldi N, Yoo J, Robert F, Gordon B, Fraenkel E, Jaakkola T, Young R, Gifford D: Computational discovery of gene modules and regulatory networks. Nat Biotechnol 2003, 21(11):1337–1342. 10.1038/nbt890

The Saccharomyces Genome Deletion Project[http://www-sequence.stanford.edu/group/yeast_deletion_project] (2004 Nov version)

Harbison CT, Gordon DB, Lee TI, Rinaldi NJ, Macisaac KD, Danford TW, et al.: Transcriptional regulatory code of a eukaryotic genome. Nature 2004, 431(7004):99–104. 10.1038/nature02800

Deng M, Mehta S, Sun F, Chen T: Inferring domain-domain interactions from protein-protein interactions. Genome Res 2002, 12(10):1540–8. 10.1101/gr.153002

Dolinski K, Balakrishnan R, Christie KR, Costanzo MC: Saccharomyces genome database (SGD).2004. [http://www.yeastgenome.org]

Lin N, Wu B, Jansen R, Gerstein M, Zhao H: Information assessment on predicting protein-protein interactions. BMC Bioinformatics 2004, 5: 154. 10.1186/1471-2105-5-154

Scott MS, Barton GJ: Probabilistic prediction and ranking of human protein-protein interactions. BMC Bioinformatics 2007, 8: 239. 10.1186/1471-2105-8-239

Sartor MA, Leikauf GD, Medvedovic M: LRpath: a logistic regression approach for identifying enriched biological groups in gene expression data. Bioinformatics 2009, 25(2):211–217. 10.1093/bioinformatics/btn592

You ZH, Lei YK, Huang DS, Zhou XB: Using manifold embedding for assessing and predicting protein interactions from high-throughput experimental data. Bioinformatics 2010, 26: 2744–2751. 10.1093/bioinformatics/btq510

Gall G, Pallottino S: Shortest path algorithms. Annals of Operations Research 1988, 13: 1–79. 10.1007/BF02288320

Bernstein M, de Silva V, Langford JC, Tenenbaum JB: Graph approximations to geodesics on embedded manifolds. Stanford University, Department of Psychology; 2000.

Cox TF, Cox MAA: Multidimensional Scaling. London: Chapman & Hall; 1994.

de Silva V, Tenenbaum JB: Global versus local methods in nonlinear dimensionality reduction. Proc of NIPS 2003, 15: 705–712.

Garey MR, Johnson DS: Computers and Intractability: A Guide to the Theory of NP-Completeness. WH Freeman; 1979.

Karp RM: Reducibility among combinatorial problems. In Complexity of Computer Computations. Edited by: Miller RE, Thatcher JW. Plenum Press; 1972:85–103.

de Silva V, Tenenbaum J: Sparse multidimensional scaling using landmark points. In Technical report. Stanford University; 2004.

Angelelli JB, Baudot A, Brun C, Guenoche A: Two local dissimilarity measures for weighted graphs with application to protein interaction networks. Adv Data Anal Classif 2008, 2: 3–16. 10.1007/s11634-008-0018-3

Wang B, Chen P, Huang DS, Li J-J, Lok T-M, Lyu MR: Predicting protein interaction sites from residue spatial sequence profile and evolution rate. FEBS Lett 2006, 580(2):380–384. 10.1016/j.febslet.2005.11.081

Wang B, Wong HS, Huang DS: Inferring protein-protein interaction sites from residue evolutionary conservation information. Protein Pept Lett 2006, 13(10):999–1005. 10.2174/092986606778777498

Wang B, Chen P, Wang PZ, Zhao GX, Zhang X: Radial basis function neural network ensemble for predicting protein-protein interaction sites in heterocomplexes. Protein Pept Lett 2010, 17(9):1111–1116. 10.2174/092986610791760397