Hướng tới việc Sử dụng Các Tài liệu Khoa học để Tự động Trích xuất Thông tin về Các Bệnh Hiếm

Charles Cousyn1, Kévin Bouchard1, Sébastien Gaboury1, Bruno Bouchard1
1LIARA Laboratory, Université du Québec à Chicoutimi, Chicoutimi, Canada

Tóm tắt

Một tỷ lệ nhỏ của dân số bị ảnh hưởng bởi những gì được gọi là bệnh mồ côi hoặc bệnh hiếm. Trên toàn thế giới, có khoảng vài nghìn loại bệnh như vậy. Khi cộng gộp tất cả các cá nhân bị ảnh hưởng, con số này lên tới 10% dân số Hoa Kỳ. Các công trình khoa học về những bệnh này thường được tài trợ kém do thiếu thị trường tiềm năng cho một phương pháp điều trị, điều này có nghĩa là đối với bệnh nhân và các bác sĩ lâm sàng, việc tiếp cận thông tin thiết yếu bị giới hạn và phân tán. Để góp phần giải quyết vấn đề này, chúng tôi trình bày trong bài báo này một công cụ phần mềm mới để tự động trích xuất thông tin liên quan đến các bệnh hiếm từ các ấn phẩm khoa học. Chính xác hơn, đóng góp của chúng tôi bao gồm một phương pháp mới để tự động trích xuất triệu chứng của những bệnh này từ các tài liệu nghiên cứu bằng cách sử dụng thuật toán Nhận dạng Thực thể Đặt tên (NER) dựa trên thống kê số học Tần suất Thuật ngữ - Inverse Tần suất Tài liệu (TF-IDF). Công cụ được đề xuất đã được thử nghiệm sử dụng cơ sở dữ liệu PubMed Central (PMC).

Từ khóa

#bệnh hiếm #tự động trích xuất thông tin #nhận dạng thực thể tên #tần suất thuật ngữ #tài liệu khoa học

Tài liệu tham khảo

OoM (2018) Budget. Budget of the U.S. Government (2018). https://www.whitehouse.gov/ National institutes for health (2018) Budget. https://www.nih.gov/about-nih/what-we-do/budget Rooke T (2018) The therapeutic challenge of rare diseases. Mayo Clin Proc 93(5):560 Orphanet (2018) Orphanet: about orphanet. https://www.orpha.net/consor/cgi-bin/Education_AboutOrphanet.php EU (2015) European platform for rare disease registries. http://www.epirare.eu NORD (1969) Home - NORD (national organization for rare disorders). https://rarediseases.org Levenshtein V (1966) Binary codes capable of correcting deletions, insertions and reversals. Sov Phys Dokl 10:707 Gupta V, Lehal GS (2009) Journal of Emerging Technologies in Web Intelligence 1(1):60. https://doi.org/10.4304/jetwi.1.1.60-76 Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB, Kochut K (2017) arXiv:1707.02268. https://doi.org/10.14569/IJACSA.2017.081052 Venkata N, Padmasree L, Mangathayaru N (2016) Int J Comput Appl 146 (11):30. https://doi.org/10.5120/ijca2016910908 Liu Y, Liang Y, Wishart D (2015) Nucleic Acids Res 43(W1):W535. https://doi.org/10.1093/nar/gkv383 Li A, Zang Q, Sun D, Wang M (2016) Neurocomputing 206:73. https://doi.org/10.1016/j.neucom.2015.11.110 Peng Y, Wei CH, Lu Z (2016) J Cheminf 8(1):1. https://doi.org/10.1186/s13321-016-0165-z Mahmood AS, Wu TJ, Mazumder R, Vijay-Shanker K (2016) , . PLoS ONE 11(4):1. https://doi.org/10.1371/journal.pone.0152725 Bui QC, Sloot PMA (2012) Bioinformatics 28(20):2654. https://doi.org/10.1093/bioinformatics/bts487 Holat P, Tomeh N, Charnois T, Battistelli D, Jaulent MC, Métivier JP (2016) Weakly-supervised symptom recognition for rare diseases in biomedical text Martin L, Battistelli D, Charnois T (2014). In: 13th workshop on biomedical natural language processing (BioNLP 2014), pp 107–111 Schmid H (1995) Treetagger| a language independent part-of-speech tagger. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart 43:28 Manning C, Surdeanu M, Bauer J, Finkel J, Bethard S, McClosky D (2014). In: Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, pp 55–60. https://doi.org/10.3115/v1/P14-5010 Orphadata (2013) Free access data from Orphanet. http://www.orphadata.org U.S. National Institutes of Health’s National Library of Medicine (NIH/NLM) (2018) Pubmed Central. https://www.ncbi.nlm.nih.gov/pmc Köhler S, Vasilevsky NA, et al. (2017) Nucleic Acids Res 45(D1):D865. https://doi.org/10.1093/nar/gkw1039 Freud S (1920) Entrez programming utilities help [Internet]. Bethesda: national center for biotechnology information Umbel C, Ellis R, Mull R (2011) NaturalNode/natural. https://github.com/NaturalNode/natural Alias-i (2008) LingPipe. http://alias-i.com/lingpipe/ Liu Y, Liao WK, Choudhary A, Li J (2007) Parallel data mining algorithms for association rules and clustering. CRC Press, Boca Raton. https://doi.org/10.1201/9781420011296.ch32 Vukotic V, Claveau V, Raymond C (2015) IRISA at DeFT 2015: supervised and unsupervised methods in sentiment analysis. https://hal.archives-ouvertes.fr/hal-01226528 Garcia E (2008). J Doc 60(5):503. https://doi.org/10.1108/00220410410560582 Cousyn C, Bouchard K, Bouchard B, Gaboury S. In: Proceedings of the 4th EAI international conference on smart objects and technologies for social good - Goodtechs ’18. Goodtechs ’18. ACM, New York, pp 13–18. https://doi.org/10.1145/3284869.3284892