GPDMiner: một công cụ để trích xuất thực thể và phân tích mối quan hệ trong tài liệu sinh học

Yeon-Ji Park1, Geun-Je Yang1, Chae-Bong Sohn1, Soo Jun Park2
1Department of Electronics and Communications Engineering, KwangWoon University, Seoul, Republic of Korea
2Welfare & Medical ICT Research Department, Electronics and Telecommunications Research Institute, Daejeon, Republic of Korea

Tóm tắt

Sự mở rộng của nghiên cứu trên nhiều lĩnh vực khác nhau đã dẫn đến sự gia tăng đáng kể trong số lượng bài báo và tạp chí được công bố, làm nổi bật sự cần thiết của các nền tảng khai thác văn bản đáng tin cậy cho việc xây dựng cơ sở dữ liệu và thu nhận kiến thức. Tóm tắt này giới thiệu GPDMiner (Khai thác Gen, Protein và Bệnh), một nền tảng được thiết kế cho lĩnh vực y sinh, nhằm giải quyết những thách thức do khối lượng bài báo học thuật đang gia tăng. GPDMiner là một nền tảng khai thác văn bản sử dụng các kỹ thuật thu thập thông tin tiên tiến. Nền tảng này hoạt động bằng cách tìm kiếm trên PubMed cho các truy vấn cụ thể, trích xuất và phân tích thông tin có liên quan đến lĩnh vực y sinh. Hệ thống này được thiết kế để nhận diện và minh họa các mối quan hệ giữa các thực thể y sinh thu được từ việc trích xuất thông tin tự động. Việc thực hiện GPDMiner chứng tỏ hiệu quả của nó trong việc điều hướng khối lượng lớn tài liệu y sinh. Nó trích xuất, thu thập và phân tích thông tin một cách hiệu quả, làm nổi bật các mối liên hệ quan trọng giữa gen, protein và bệnh. Nền tảng cũng cho phép người dùng lưu giữ các kết quả phân tích của họ ở các định dạng khác nhau, bao gồm Excel và hình ảnh. GPDMiner cung cấp một chức năng bổ sung đáng chú ý trong số nhiều công cụ khai thác văn bản có sẵn cho lĩnh vực y sinh. Công cụ này cung cấp một giải pháp hiệu quả cho các nhà nghiên cứu trong việc điều hướng và trích xuất thông tin liên quan từ các văn bản chưa cấu trúc rộng lớn có trong tài liệu y sinh, qua đó cung cấp những khả năng đặc biệt giúp nó khác biệt so với các phương pháp hiện có. Việc áp dụng nó dự kiến sẽ mang lại lợi ích lớn cho các nhà nghiên cứu trong lĩnh vực này, nâng cao khả năng phát hiện kiến thức và quản lý dữ liệu của họ.

Từ khóa

#GPDMiner #khai thác văn bản #nghiên cứu sinh học #mối quan hệ gen #bệnh

Tài liệu tham khảo

Börner K, Chen C, Boyack KW. Visualizing knowledge domains. Ann Rev Inf Sci Technol. 2003;37:179–255. Adams J. The fourth age of research. Nature. 2013;497:557–60. Manning G, Whyte DB, Martinez R, Hunter T, Sudarsanam S. The protein kinase complement of the human genome. Science. 2002;298:1912–34. Rajman M, Besançon R. Text mining: natural language techniques and text mining applications. In: Data Mining and Reverse Engineering: Searching for Semantics. IFIP TC2 WG2. 6 IFIP seventh conference on database semantics., 1998;50–64. Feldman R, Sanger J. The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge: Cambridge University Press; 2007. Kulkarni S, Singh A, Ramakrishnan S. G. and Chakrabarti. Collective annotation of wikipedia entities in web text. In: Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining., 2009;457–466. Wei CH, Kao HY, Lu Z. Pubtator: a web-based text mining tool for assisting biocuration. Nucleic Acids Res. 2013;41:518–22. Hearst MA. Untangling text data mining. In: Proceedings of the 37th annual meeting of the association for computational linguistics on computational linguistics 1999;3–10. Kao A, Poteet SR. Natural language processing and text mining. London: Springer; 2007. Sang EF, De Meulder F. Introduction to the CoNLL-2003 Shared task: language-independent named entity recognition. In: Proceedings of CoNLL-2003., 2003;142–147. Doddington GR, Mitchell A, Przybocki MA, Ramshaw LA, Strassel SM, Weischedel RM. The Automatic Content Extraction (ace) Program-tasks, Data, and Evaluation. In: Lrec., 2004;837–840. Piskorski J, Pivovarova L, Šnajder J, Steinberger J, Yangarber R. The first cross-lingual challenge on recognition, normalization and matching of named entities in slavic languages. In: Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. The Association for Computational Linguistics., 2017;76–85. Segura-Bedmar I, Martínez Fernández P, Herrero Zazo M. Semeval-2013 Task 9: extraction of drug-drug interactions from biomedical texts. In: Association for Computational Linguistics., 2013;341–350. Bossy R, Golik W, Ratkovic Z, Bessieres P, Nédellec C. BioNLP Shared Task 2013-an overview of the bacteria biotope task. In: Proceedings of the BioNLP Shared Task 2013 Workshop., 2013;161–169. Uzuner O, South BR, Shen S, DuVall SL. 2010 i2b2/va challenge on concepts, assertions, and relations in clinical text. J Am Med Inform Assoc. 2011;18:552–6. Balog K, Serdyukov P, De Vries AP. Overview of the TREC 2010 entity track. In: TREC., 2010;294. Petasis G, Cucchiarelli A, Velardi P, Paliouras G, Karkaletsis V, Spyropoulos CD. Automatic adaptation of proper noun dictionaries through cooperation of machine learning and probabilistic methods. In: Proceedings of the 23rd annual international ACM SIGIR conference on research and development in information retrieval., 2000;128–135. Nadeau D, Sekine S. A survey of named entity recognition and classification. Lingvisticae Investigationes. 2007;30:3–26. Lample G, Ballesteros M, Subramanian S, Kawakami K, Dyer C. Neural architectures for named entity recognition. In: Proceedings of the 2016 conference of the north american chapter of the association for computational linguistics: human language technologies., 2016;260–270. Fayyad U, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery in databases. AI Mag. 1996;17:37–37. Jensen LJ, Saric J, Bork P. Literature mining for the biologist: from information retrieval to biological discovery. Nat Rev Genet. 2006;7:119–29. Jang H, Lim J, Lim JH, Park SJ, Lee KC. BioProber: software system for biomedical relation discovery from PubMed. In: 2006 International conference of the IEEE engineering in medicine and biology society., pp. 2006;5779–5782. Sung TT, Sohn CB, Park SJ. GDMiner: gene-disease relation miner system. In: Proceedings of the 12th international workshop on data and text mining in biomedical informatics (DTMBIO 2018) 2018. Ruder S. Neural transfer learning for natural language processing. PhD Thesis, National University of Ireland, Galway. Galway 2019. Ching T, Himmelstein DS, Beaulieu-Jones BK, Kalinin AA, Do BT, Way GP, et al. Opportunities and obstacles for deep learning in biology and medicine. J Royal Soci Interface. 2018;15:20170387. Berger AL, Pietra VJD, Pietra SAD. A maximum entropy approach to natural language processing. J R Soc Interface. 1996;22:39–71. Devlin J, Chang M-W, Lee K. Toutanova. K. BERT: pre-training of Deep Bidirectional Transformers for Language Understanding; 2019. Dogan RI, Leaman R, Lu Z. Ncbi disease corpus: a resource for disease name recognition and concept normalization. J Biomed Inform. 2014;47:1–10. Smith L, Tanabe LK, Ando RJN, Kuo CJ, Chung IF, Hsu CN, et al. Overview of biocreative II gene mention recognition. Genome Biol. 2008;9:1–19. Bravo A, Piñero J, Queralt-Rosinach N, Rautschka M, Furlong LI. implications for translational research. Extraction of relations between genes and diseases from text and large-scale data analysis. BMC Bioinform. 2015;16:1–17. Heer J, Shneiderman B. Interactive dynamics for visual analysis: a taxonomy of tools that support the fluent and flexible use of visualizations. Queue. 2012;10:30–55. Plaisant C, Shneiderman B. Show Me! Guidelines for producing recorded demonstrations. In: 2005 IEEE symposium on visual languages and human-centric computing (VL/HCC’05)., 2005;171–178. Tsuruoka Y. GENIA Tagger. http://www.nactem.ac.uk/GENIA/tagger/ 2009. Wei CH, Leaman R, Lu Z. Beyond accuracy: creating interoperable and scalable text-mining web services. Bioinformatics. 2016;32:1907–10. Robert L, Wei C-H, Lu Z. tmchem: a high performance approach for chemical named entity recognition and normalization. J Cheminform. 2015;7(1):1–10. Robert L, Doğan LI, Lu Z. Dnorm: disease name normalization with pairwise learning to rank. Bioinformatics. 2013;29:2909–17. Wei C-H, Kao H-Y, Lu Z. Gnormplus: an integrative approach for tagging genes, gene families, and protein domains. BioMed Res Int. 2015. https://doi.org/10.1155/2015/918710. Wei CH, Phan L, Feltz J, Maiti R, Hefferon T, Lu Z. tmvar 20: integrating genomic variant information from literature with dbsnp and clinvar for precision medicine. Queue. 2018;34(1):80–7. Garcia-Pelaez J, Rodriguez D, Medina-Molina R, Garcia-Rivas G, Jerjes-Sánchez C, Trevino V. Pubterm: a web tool for organizing, annotating and curating genes, diseases, molecules and other concepts from pubmed records. Database. 2019. Leaman R, Lu Z. Taggerone: joint named entity recognition and normalization with semi-markov models. Bioinformatics. 2016;32(18):2839–46. Sachan DS, Xie P, Sachan M, Xing EP. Effective use of bidirectional language modeling for transfer learning in biomedical named entity recognition. In: Machine learning for healthcare conference., 2018;383–402. Yoon W, So CH, Lee J, Kang J. Collabonet: collaboration of deep neural networks for biomedical named entity recognition. BMC Bioinform. 2019;20(10):55–65. Habibi M, Weber L, Neves M, Wiegandt DL, Leser U. Deep learning with word embeddings improves biomedical named entity recognition. Bioinformatics. 2017;33(14):37–48.