Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Hướng tới việc Sử dụng Các Tài liệu Khoa học để Tự động Trích xuất Thông tin về Các Bệnh Hiếm
Tóm tắt
Một tỷ lệ nhỏ của dân số bị ảnh hưởng bởi những gì được gọi là bệnh mồ côi hoặc bệnh hiếm. Trên toàn thế giới, có khoảng vài nghìn loại bệnh như vậy. Khi cộng gộp tất cả các cá nhân bị ảnh hưởng, con số này lên tới 10% dân số Hoa Kỳ. Các công trình khoa học về những bệnh này thường được tài trợ kém do thiếu thị trường tiềm năng cho một phương pháp điều trị, điều này có nghĩa là đối với bệnh nhân và các bác sĩ lâm sàng, việc tiếp cận thông tin thiết yếu bị giới hạn và phân tán. Để góp phần giải quyết vấn đề này, chúng tôi trình bày trong bài báo này một công cụ phần mềm mới để tự động trích xuất thông tin liên quan đến các bệnh hiếm từ các ấn phẩm khoa học. Chính xác hơn, đóng góp của chúng tôi bao gồm một phương pháp mới để tự động trích xuất triệu chứng của những bệnh này từ các tài liệu nghiên cứu bằng cách sử dụng thuật toán Nhận dạng Thực thể Đặt tên (NER) dựa trên thống kê số học Tần suất Thuật ngữ - Inverse Tần suất Tài liệu (TF-IDF). Công cụ được đề xuất đã được thử nghiệm sử dụng cơ sở dữ liệu PubMed Central (PMC).
Từ khóa
#bệnh hiếm #tự động trích xuất thông tin #nhận dạng thực thể tên #tần suất thuật ngữ #tài liệu khoa họcTài liệu tham khảo
OoM (2018) Budget. Budget of the U.S. Government (2018). https://www.whitehouse.gov/
National institutes for health (2018) Budget. https://www.nih.gov/about-nih/what-we-do/budget
Rooke T (2018) The therapeutic challenge of rare diseases. Mayo Clin Proc 93(5):560
Orphanet (2018) Orphanet: about orphanet. https://www.orpha.net/consor/cgi-bin/Education_AboutOrphanet.php
EU (2015) European platform for rare disease registries. http://www.epirare.eu
NORD (1969) Home - NORD (national organization for rare disorders). https://rarediseases.org
Levenshtein V (1966) Binary codes capable of correcting deletions, insertions and reversals. Sov Phys Dokl 10:707
Gupta V, Lehal GS (2009) Journal of Emerging Technologies in Web Intelligence 1(1):60. https://doi.org/10.4304/jetwi.1.1.60-76
Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB, Kochut K (2017) arXiv:1707.02268. https://doi.org/10.14569/IJACSA.2017.081052
Venkata N, Padmasree L, Mangathayaru N (2016) Int J Comput Appl 146 (11):30. https://doi.org/10.5120/ijca2016910908
Liu Y, Liang Y, Wishart D (2015) Nucleic Acids Res 43(W1):W535. https://doi.org/10.1093/nar/gkv383
Li A, Zang Q, Sun D, Wang M (2016) Neurocomputing 206:73. https://doi.org/10.1016/j.neucom.2015.11.110
Peng Y, Wei CH, Lu Z (2016) J Cheminf 8(1):1. https://doi.org/10.1186/s13321-016-0165-z
Mahmood AS, Wu TJ, Mazumder R, Vijay-Shanker K (2016) , . PLoS ONE 11(4):1. https://doi.org/10.1371/journal.pone.0152725
Bui QC, Sloot PMA (2012) Bioinformatics 28(20):2654. https://doi.org/10.1093/bioinformatics/bts487
Holat P, Tomeh N, Charnois T, Battistelli D, Jaulent MC, Métivier JP (2016) Weakly-supervised symptom recognition for rare diseases in biomedical text
Martin L, Battistelli D, Charnois T (2014). In: 13th workshop on biomedical natural language processing (BioNLP 2014), pp 107–111
Schmid H (1995) Treetagger| a language independent part-of-speech tagger. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart 43:28
Manning C, Surdeanu M, Bauer J, Finkel J, Bethard S, McClosky D (2014). In: Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, pp 55–60. https://doi.org/10.3115/v1/P14-5010
Orphadata (2013) Free access data from Orphanet. http://www.orphadata.org
U.S. National Institutes of Health’s National Library of Medicine (NIH/NLM) (2018) Pubmed Central. https://www.ncbi.nlm.nih.gov/pmc
Köhler S, Vasilevsky NA, et al. (2017) Nucleic Acids Res 45(D1):D865. https://doi.org/10.1093/nar/gkw1039
Freud S (1920) Entrez programming utilities help [Internet]. Bethesda: national center for biotechnology information
Umbel C, Ellis R, Mull R (2011) NaturalNode/natural. https://github.com/NaturalNode/natural
Alias-i (2008) LingPipe. http://alias-i.com/lingpipe/
Liu Y, Liao WK, Choudhary A, Li J (2007) Parallel data mining algorithms for association rules and clustering. CRC Press, Boca Raton. https://doi.org/10.1201/9781420011296.ch32
Vukotic V, Claveau V, Raymond C (2015) IRISA at DeFT 2015: supervised and unsupervised methods in sentiment analysis. https://hal.archives-ouvertes.fr/hal-01226528
Garcia E (2008). J Doc 60(5):503. https://doi.org/10.1108/00220410410560582
Cousyn C, Bouchard K, Bouchard B, Gaboury S. In: Proceedings of the 4th EAI international conference on smart objects and technologies for social good - Goodtechs ’18. Goodtechs ’18. ACM, New York, pp 13–18. https://doi.org/10.1145/3284869.3284892
