Khám phá tương tác gen và thông tin ngữ cảnh của chúng từ văn bản sinh học thông qua khai thác mẫu tuần tự

Journal of Biomedical Semantics - Tập 6 - Trang 1-12 - 2015
Peggy Cellier1, Thierry Charnois2, Marc Plantevit3, Christophe Rigotti4, Bruno Crémilleux5, Olivier Gandrillon6, Jiří Kléma7, Jean-Luc Manguin5
1INSA de Rennes, IRISA, Rennes, France
2Université de Paris 13, LIPN, Villetaneuse, France
3Université Lyon 1, LIRIS, Lyon, France
4INSA de Lyon, LIRIS, Lyon, France
5Université de Caen, GREYC, Caen, France
6Université Lyon 1, CGMC, Lyon, France
7Faculty of Electrical Engineering, Czech Technical University, Prague, Czech Republic

Tóm tắt

Việc khám phá các tương tác gen và tính chất của chúng từ các bộ sưu tập văn bản sinh học là một vấn đề quan trọng trong tin sinh học. Thật vậy, các bộ sưu tập văn bản rất lớn và rất khó để các nhà sinh học có thể tận dụng hết lượng kiến thức này. Các phương pháp Xử lý Ngôn ngữ Tự nhiên (NLP) đã được áp dụng để trích xuất kiến thức nền từ các văn bản sinh học. Một số cách tiếp cận NLP hiện có dựa trên các quy tắc được thiết kế thủ công và do đó tốn thời gian, thường dành cho một tập hợp cụ thể. Các phương pháp NLP dựa trên học máy đạt kết quả tốt nhưng lại tạo ra những kết quả mà người dùng không thực sự hiểu được. Chúng tôi tận dụng sự kết hợp giữa khai thác dữ liệu và xử lý ngôn ngữ tự nhiên để đề xuất một phương pháp biểu tượng nguyên bản nhằm tự động sản xuất các mẫu truyền tải các tương tác gen và tính chất của chúng. Vì vậy, phương pháp của chúng tôi không chỉ cho phép phát hiện các tương tác gen mà còn thông tin ngữ nghĩa về các tương tác được trích xuất (ví dụ, phương thức, ngữ cảnh sinh học, loại tương tác). Chỉ cần sử dụng một nguồn lực hạn chế: bộ sưu tập văn bản được sử dụng làm tập dữ liệu huấn luyện. Cách tiếp cận của chúng tôi cho ra kết quả tương đương với các phương pháp tiên tiến nhất và thậm chí còn tốt hơn cho việc phát hiện tương tác gen trong AIMed. Các thí nghiệm cho thấy cách mà phương pháp của chúng tôi cho phép khám phá các tương tác và tính chất của chúng. Theo như chúng tôi biết, chỉ có ít phương pháp tự động trích xuất các tương tác và thông tin ngữ nghĩa liên quan. Các tương tác gen được trích xuất từ PubMed có sẵn thông qua một giao diện web đơn giản tại https://bingotexte.greyc.fr/ . Phần mềm có sẵn tại https://bingo2.greyc.fr/?q=node/22 .

Từ khóa

#tương tác gen #khai thác mẫu tuần tự #văn bản sinh học #xử lý ngôn ngữ tự nhiên #khai thác dữ liệu

Tài liệu tham khảo

PubMed. http://www.ncbi.nlm.nih.gov/pubmed/. BioGRID. http://thebiogrid.org/. STRING. http://string-db.org/. Giuliano C, Lavelli A, Romano L. Exploiting shallow linguistic information for relation extraction from biomedical literature. In: Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: 2006. p. 401–8. Rinaldi F, Schneider G, Kaljurand K, Hess M, Romacker M. An environment for relation mining over richly annotated corpora: the case of genia. BMC Bioinformatics. 2006; 7(Suppl 3):S3. Fundel K, Küffner R, Zimmer R. RelEx - relation extraction using dependency parse trees. Bioinformatics. 2007; 23(3):365–71. Hobbs JR, Riloff E. Information extraction In: Indurkhya N, Damerau FJ, editors. Handbook of Natural Language Processing, Second Edition. Boca Raton, FL: CRC: 2010. Krallinger M, Leitner F, Rodriguez-Penagos C, Valencia A. Overview of the protein-protein interaction annotation extraction task of BioCreative II. Genome Biol. 2008; 9(Suppl 2):S4. Zhang Y, Lin H, Yang Z, Li Y. Neighborhood hash graph kernel for protein-protein interaction extraction. J Biomed Inform. 2011; 44(6):1086–92. Polajnar T, Damoulas T, Girolami M. Protein interaction sentence detection using multiple semantic kernels. J Biomed Semantics. 2011; 2:1. Tikk D, Thomas PE, Palaga P, Hakenberg J, Leser U. A comprehensive benchmark of kernel methods to extract protein-protein interactions from literature. PLoS Comput Biol. 2010; 6(7):1–19. Tikk D, Solt I, Thomas PE, Leser U. A detailed error analysis of 13 kernel methods for protein-protein interaction extraction. BMC Bioinformatics. 2013; 14:12. Miyao Y, Sagae K, Sætre R, Matsuzaki T, Tsujii J. Evaluating contributions of natural language parsers to protein-protein interaction extraction. Bioinformatics. 2009; 25(3):394–400. Nédellec C. Machine learning for information extraction in genomics - state of the art and perspectives. In: Text Mining and Its Applications: Results of the NEMIS Launch Conference. Studies in Fuzziness and Soft Computing. Berlin Heidelberg: Springer: 2004. p. 99–118. Schneider G, Kaljurand K, Rinaldi F. Detecting protein-protein interactions in biomedical texts using a parser and linguistic resources. In: International Conference on Intelligent Text Processing and Computational Linguistics. LNCS, vol. 5449. Berlin, Germany: Springer: 2009. p. 406–17. Gerner M, Sarafraz F, Bergman CM, Nenadic G. Biocontext: an integrated text mining system for large-scale extraction and contextualization of biomolecular events. Bioinformatics. 2012; 28(16):2154–61. Björne J, Ginter F, Pyysalo S, Tsujii J, Salakoski T. Scaling up biomedical event extraction to the entire pubmed. In: Proceedings of the 2010 Workshop on Biomedical Natural Language Processing. Uppsala, Sweden: Association for Computational Linguistics: 2010. p. 28–36. http://www.aclweb.org/anthology/W10-1904. Hakenberg J, Leaman R, Vo NH, Jonnalagadda S, Sullivan R, Miller C,et al. Efficient extraction of protein-protein interactions from full-text articles. IEEE/ACM Trans Comput Biol Bioinform. 2010; 7(3):481–94. Ben Abacha A, Zweigenbaum P. Automatic extraction of semantic relations between medical entities: a rule based approach. J Biomed Semantics. 2011; 2(Suppl 5):S4. Hearst MA. Automatic acquisition of hyponyms from large text corpora. In: Proceedings of the 14th Conference on Computational Linguistics - Volume 2. COLING ’92. Nantes, France: 1992. p. 539–45. Hakenberg J, Plake C, Royer L, Strobelt H, Leser U, Schroeder M. Gene mention normalization and interaction extraction with context models and sentence motifs. Genome Biol. 2008; 9(Suppl 2):14. Palaga P, Nguyen L, Leser U, Hakenberg J. High-performance information extraction with alibaba. In: Proc. of the 12th Int. Conf. on Extending Database Technology: Advances in Database Technology. EDBT ’09. New York, NY, USA: ACM: 2009. p. 1140–1143. Hakenberg J, Schroeder M, Leser U. Consensus pattern alignment to find protein-protein interactions in text. In: Proc. Second BioCreative Challenge Evaluation Workshop. Madrid, Spain: 2007. Agrawal R, Srikant R. Mining sequential patterns. In: International Conference on Data Engineering. IEEE Computer Society: 1995. p. 3–14. Frawley WJ, Piatetsky-Shapiro G, Matheus CJ. Knowledge discovery in databases: An overview. In: Knowledge Discovery in Databases. Anaheim, CA, USA: AAAI/MIT Press: 1991. p. 1–30. Srikant R, Agrawal R. Mining sequential patterns: Generalizations and performance improvements. In: International Conference on Extending Database Technology. London, UK: Springer-Verlag: 1996. p. 3–17. Pei J, Han B, Mortazavi-Asl B, Pinto H. Prefixspan: Mining sequential patterns efficiently by prefix-projected pattern growth. In: International Conference on Data Engineering. Washington, DC, USA: IEEE Computer Society: 2001. p. 215–24. Zaki M. Spade: An efficient algorithm for mining frequent sequences. Mach Learn. 2001; 42(1/2):31–60. Wang J, Han J. Bide: Efficient mining of frequent closed sequences. In: Proc. of the 20th Int. Conf. on Data Engineering. ICDE ’04. Boston, MA, USA: IEEE Computer Society: 2004. p. 79. Nanni M, Rigotti C. Extracting trees of quantitative serial episodes. In: Knowledge Discovery in Inductive Databases 5th Int. Workshop KDID’06, Revised Selected and Invited Papers. Berlin, Germany: Springer: 2007. p. 170–88. Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB. Frontiers of biomedical text mining: current progress. Brief Bioinform. 2007; 8:358–375. Pei J, Han B, Lakshmanan LVS. Mining frequent itemsets with convertible constraints. In: Proc. of the Int. Conf. on Data Engineering. Washington, DC, USA: IEEE Computer Society: 2001. p. 433–42. Crémilleux B, Soulet A, Kléma J, Hébert C, Gandrillon O. Discovering Knowledge from Local Patterns in SAGE Data. Hershey, Pennsylvania, USA: IGI Publishing; 2008. Ng RT, Lakshmanan LVS, Han J, Pang A. Exploratory mining and pruning optimizations of constrained association rules. In: SIGMOD International Conference on Management of Data. New York, NY, USA: ACM Press: 1998. p. 13–24. Cellier P, Charnois T, Plantevit M, Crémilleux B. Recursive sequence mining to discover named entity relations. In: International Symposium on Advances in Intelligent Data Analysis. LNCS, vol 6065. Berlin, Germany: Springer: 2010. p. 30–41. Cellier P, Charnois T, Plantevit M. Sequential patterns to discover and characterise biological relations. In: International Conference on Intelligent Text Processing and Computational Linguistics. Berlin, Germany: LNCS: 2010. p. 537–48. Rosario B, Hearst MA. Multi-way relation classification: application to protein-protein interactions. In: Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Vancouver, British Columbia, Canada: 2005. p. 732–9. Schmid H. Probabilistic part-of-speech tagging using decision trees. In: International Conference on New Methods in Language Processing. Manchester, UK: 1994. p. 44–9. DMT, 4SP tool. http://liris.cnrs.fr/~crigotti/dmt4sp.html. Temkin JM, Gilder MR. Extraction of protein interaction information from unstructured text using a context-free grammar. Bioinformatics. 2003; 19:2046–53. Hao Y, Zhu X, Huang M, Ming L. Discovering patterns to extract protein-protein interactions from the literature : Part ii. Bioinformatics. 3294. Farkas R, Vincze V, Mora G, Csirik J, Szarvas G. The conll-2010 shared task: Learning to detect hedges and their scope in natural language text. In: Conference on Computational Natural Language Learning: Shared Task. Uppsala, Sweden: 2010. Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, et al. Comparative experiments on learning information extractors for proteins and their interactions. Artif Intell Med. 2005; 33(2):139–55. Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, et al. Bioinfer: a corpus for information extraction in the biomedical domain. BMC Bioinformatics. 2007; 8(1):50. Fundel K, Küffner R, Zimmer R. Relex—relation extraction using dependency parse trees. Bioinformatics. 2007; 23(3):365–71. Pyysalo S, Airola A, Heimonen J, Bjorne J, Ginter F, Salakoski T. Comparative analysis of five protein-protein interaction corpora. BMC Bioinformatics. 2008; 9(Suppl 3):6. doi:10.1186/1471-2105-9-s3-s6. HGNC (HUGO Gene Nomenclature Committee). http://www.genenames.org/. Tsuruoka Y, Tsujii J. Improving the performance of dictionary-based approaches in protein name recognition. J Biomed Inform. 2004; 37(6):461–70. Aggarwal BB, Kunnumakkara AB, Harikumar KB, Gupta SR, Tharakan ST, Koca C, et al. Signal transducer and activator of transcription-3, inflammation, and cancer: how intimate is the relationship?Ann NY Acad Sci. 2009; 1171(Natural Compounds and Their Role in Apoptotic Cell Signaling Pathways):59–76.