Dự đoán các phức hợp protein trong các mạng tương tác protein sử dụng thuật toán di truyền

BMC Bioinformatics - Tập 17 Số 7 - Trang 481-489 - 2016
Ramadan, Emad1, Naef, Ahmed1, Ahmed, Moataz1
1Department of Information and Computer Science, King Fahd University of Petroleum and Minerals, Dhahran, Saudi Arabia

Tóm tắt

Các mạng tương tác protein đang nhận được sự chú ý ngày càng tăng do tầm quan trọng của chúng trong việc hiểu biết về sự sống ở mức độ tế bào. Một thách thức lớn trong sinh học hệ thống là hiểu cấu trúc mô-đun của các mạng sinh học như vậy. Mặc dù các kỹ thuật phân cụm đã được đề xuất để phân cụm các mạng tương tác protein, nhưng những kỹ thuật này gặp phải một số nhược điểm. Việc áp dụng các kỹ thuật phân cụm trước đây vào các mạng tương tác protein nhằm mục đích dự đoán các phức hợp protein trong các mạng này không mang lại kết quả tốt do tính chất thế giới nhỏ và quy luật sức mạnh của những mạng này. Trong bài báo này, chúng tôi xây dựng một thuật toán phân cụm mới để dự đoán các phức hợp protein thông qua việc sử dụng các thuật toán di truyền. Chúng tôi thiết kế một hàm mục tiêu cho việc phân cụm độc quyền và phân cụm chồng chéo. Chúng tôi đánh giá chất lượng của thuật toán phân cụm mà chúng tôi đề xuất bằng cách sử dụng hai bộ dữ liệu tiêu chuẩn vàng. Thuật toán của chúng tôi có thể xác định các phức hợp protein được làm giàu đáng kể trong các bộ dữ liệu tiêu chuẩn vàng. Hơn nữa, phương pháp của chúng tôi vượt qua ba phương pháp cạnh tranh: MCL, ClusterOne và MCODE về chất lượng của các phức hợp được dự đoán. Mã nguồn và các ví dụ kèm theo có sẵn miễn phí tại http://faculty.kfupm.edu.sa/ics/eramadan/GACluster.zip.

Từ khóa


Tài liệu tham khảo

citation_journal_title=Nature; citation_title=From molecular to modular cell biology; citation_author=L Hartwell, J Hopfeld, A Murray; citation_volume=402; citation_publication_date=1999; citation_pages=47-52; citation_doi=10.1038/35011540; citation_id=CR1 citation_journal_title=BMC Bioinformatics; citation_title=An automated method for finding molecular complexes in large protein interaction networks; citation_author=G Bader, C Hogue; citation_volume=4; citation_issue=2; citation_publication_date=2003; citation_pages=27; citation_id=CR2 citation_journal_title=Bioinformatics; citation_title=Greedily building protein networks with confidence; citation_author=J Bader; citation_volume=19; citation_issue=15; citation_publication_date=2003; citation_pages=1869-74; citation_doi=10.1093/bioinformatics/btg358; citation_id=CR3 citation_journal_title=Genome Res; citation_title=Predicting protein complex membership using probabilistic network reliability; citation_author=S Asthana; citation_volume=14; citation_issue=6; citation_publication_date=2004; citation_pages=1170-5; citation_doi=10.1101/gr.2203804; citation_id=CR4 citation_journal_title=Proc Nat Acad Sci; citation_title=Protein complexes and functional modules in molecular networks; citation_author=V Spirin, L Mirny; citation_volume=100; citation_publication_date=2003; citation_pages=12123-8; citation_doi=10.1073/pnas.2032324100; citation_id=CR5 citation_journal_title=Bioinformatics; citation_title=Functional topology in a network of protein interactions; citation_author=N Przulj, D Wigle, I Jurisica; citation_volume=20; citation_issue=3; citation_publication_date=2004; citation_pages=340-8; citation_doi=10.1093/bioinformatics/btg415; citation_id=CR6 citation_journal_title=Bioinformatics; citation_title=Protein complex prediction via cost-based clustering; citation_author=A King, N Przulj, I Jurisica; citation_volume=20; citation_issue=17; citation_publication_date=2004; citation_pages=3013-20; citation_doi=10.1093/bioinformatics/bth351; citation_id=CR7 citation_journal_title=Nucleic Acids Res; citation_title=An efficient algorithm for large-scale detection of protein families; citation_author=A Enright, SV Dongen, C Ouzounis; citation_volume=30; citation_issue=7; citation_publication_date=2002; citation_pages=1575-84; citation_doi=10.1093/nar/30.7.1575; citation_id=CR8 citation_journal_title=Nature; citation_title=Uncovering the overlapping community structure of complex networks in nature and society; citation_author=G Palla, I Derényi, I Farkas, T Vicsek; citation_volume=435; citation_publication_date=2005; citation_pages=814-8; citation_doi=10.1038/nature03607; citation_id=CR9 citation_journal_title=Proteins; citation_title=Detection of functional modules from protein interaction networks; citation_author=J Pereira-Leal, A Enright, C Ouzounis; citation_volume=54; citation_issue=1; citation_publication_date=2004; citation_pages=49-57; citation_doi=10.1002/prot.10505; citation_id=CR10 citation_journal_title=Nat Methods; citation_title=Detecting overlapping protein complexes in protein-protein interaction networks; citation_author=T Nepusz, H Yu, A Paccanaro; citation_volume=9; citation_issue=5; citation_publication_date=2012; citation_pages=471-2; citation_doi=10.1038/nmeth.1938; citation_id=CR11 Ramadan E, Osgood C, Pothen A. Discovering overlapping modules and bridge proteins in proteomic networks. Proc. ACM Int’l Conf. Bioinformatics and Computational Biology (BCB ’10). 2010;366–9. citation_journal_title=Mol BioSyst; citation_title=Detecting protein complexes in a ppi network: a gene ontology based multi-objective evolutionary approach; citation_author=A Mukhopadhyay, S Ray, M De; citation_volume=8; citation_issue=11; citation_publication_date=2012; citation_pages=3036-48; citation_doi=10.1039/c2mb25302j; citation_id=CR13 citation_journal_title=IEEE Trans Evol Comput; citation_title=A fast and elitist multiobjective genetic algorithm: Nsga-ii; citation_author=K Deb; citation_volume=6; citation_publication_date=2002; citation_pages=182-97; citation_doi=10.1109/4235.996017; citation_id=CR14 Holland JH. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence: U Michigan Press; 1975. Goldberg DE, et al. Genetic Algorithms in Search, Optimization, and Machine Learning vol. 412: Addison-wesley Reading Menlo Park; 1989. citation_journal_title=Lect Notes Biomath; citation_title=The architecture of a proteomic network in the yeast; citation_author=E Ramadan, C Osgood, A Pothen; citation_volume=3695; citation_publication_date=2005; citation_pages=265-76; citation_id=CR17 Ding C, et al. A MinMaxCut spectral method for data clustering and graph partitioning. Proc. IEEE Int’l Conf. Data Mining. 2001;107–14. Tan P, Steinbach M, Kumar V. Introduction to Data Mining: Pearson Addison Wesley; 2006. citation_journal_title=J Biol; citation_title=Comprehensive curation and analysis of global interaction networks in saccharomyces cerevisiae ; citation_author=T Reguly; citation_volume=5; citation_issue=4; citation_publication_date=2006; citation_pages=11; citation_doi=10.1186/jbiol36; citation_id=CR20 Consortium TGO. GO: The Gene Ontology database and information resource. 2004. http://www.geneontology.org . Mewes H, et al. MIPS: a database for genomes and protein sequences. 2002. http://mips.gsf.de . citation_journal_title=Nucleic Acids Res; citation_title=Up-to-date catalogues of yeast protein complexes; citation_author=S Pu; citation_volume=37; citation_issue=3; citation_publication_date=2009; citation_pages=825-31; citation_doi=10.1093/nar/gkn1005; citation_id=CR23 citation_journal_title=BMC Bioinformatics; citation_title=Evaluation of clustering algorithms for protein-protein interaction networks; citation_author=S Brohee, J van Helden; citation_volume=7; citation_issue=1; citation_publication_date=2006; citation_pages=488; citation_doi=10.1186/1471-2105-7-488; citation_id=CR24 citation_journal_title=Bioinformatics; citation_title=Go: Termfinderóopen source software for accessing gene ontology information and finding significantly enriched gene ontology terms associated with a list of genes; citation_author=EI Boyle, S Weng, J Gollub, H Jin, D Botstein, JM Cherry, G Sherlock; citation_volume=20; citation_issue=18; citation_publication_date=2004; citation_pages=3710-5; citation_doi=10.1093/bioinformatics/bth456; citation_id=CR25