Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Xây dựng chuẩn vàng cho dự đoán ngữ nghĩa từ tài liệu sinh y học
Tóm tắt
Các mối quan hệ ngữ nghĩa ngày càng đóng vai trò quan trọng trong khai thác văn bản sinh y học và các ứng dụng phát hiện tri thức. Thành công của các ứng dụng thực tiễn như vậy phụ thuộc vào chất lượng của các mối quan hệ được trích xuất, có thể được đánh giá dựa trên một tiêu chuẩn vàng tham khảo. Hầu hết các tiêu chuẩn tham khảo trong khai thác văn bản sinh y học tập trung vào các phân ngành hẹp và sử dụng các biểu diễn ngữ nghĩa khác nhau, khiến chúng khó sử dụng cho việc chuẩn hóa các hệ thống trích xuất mối quan hệ phát triển độc lập. Trong bài báo này, chúng tôi trình bày nghiên cứu chú thích chuẩn vàng đa giai đoạn, trong đó chúng tôi đã chú thích 500 câu được chọn ngẫu nhiên từ các tóm tắt MEDLINE về một loạt các chủ đề sinh y học với 1371 dự đoán ngữ nghĩa. UMLS Metathesaurus là nguồn chính cho thông tin khái niệm và Mạng ngữ nghĩa UMLS cho thông tin mối quan hệ. Chúng tôi đã đo lường sự đồng thuận giữa các nhà chú thích và phân tích kỹ lưỡng các chú thích để xác định một số thách thức trong việc chú thích văn bản sinh y học với các mối quan hệ dựa trên một hệ thống ngữ nghĩa hoặc một thuật ngữ. Chúng tôi đạt được sự đồng thuận công bằng đến vừa phải trong giai đoạn thực hành (0.378-0.475). Với hướng dẫn tốt hơn và các tiêu chí tương đương ngữ nghĩa bổ sung, sự đồng thuận tăng lên 12% (0.415 đến 0.536) trong giai đoạn chú thích chính. Ngoài ra, chúng tôi nhận thấy rằng sự đồng thuận tăng lên 0.688 khi việc tính toán sự đồng thuận được giới hạn ở những dự đoán chỉ dựa trên các khái niệm và mối quan hệ UMLS được cung cấp một cách rõ ràng. Mặc dù sự đồng thuận giữa các nhà chú thích ở giai đoạn thực hành xác nhận rằng việc chú thích khái niệm là một nhiệm vụ đầy thách thức, sự gia tăng sự đồng thuận trong giai đoạn chú thích chính cho thấy rằng một mức độ đồng thuận chấp nhận được có thể đạt được qua nhiều vòng lặp, bằng cách đặt ra các hướng dẫn nghiêm ngặt hơn và thiết lập các tiêu chí tương đương ngữ nghĩa. Việc ánh xạ văn bản tới các khái niệm ngữ nghĩa nổi lên như một thách thức chính trong việc chú thích khái niệm. Việc chú thích các dự đoán liên quan đến các thực thể và quá trình sinh phân tử đặc biệt khó khăn. Mặc dù chuẩn vàng kết quả chủ yếu nhằm mục đích phục vụ như một bộ kiểm tra cho bộ diễn giải ngữ nghĩa của chúng tôi, chúng tôi tin rằng những bài học rút ra được áp dụng chung.
Từ khóa
#ngữ nghĩa #trích xuất mối quan hệ #tự động hóa chú thích #khai thác văn bản sinh y học #chuẩn vàngTài liệu tham khảo
Björne J, Ginter F, Pyysalo S, Tsujii J, Salakoski T: Scaling up Biomedical Event Extraction to the Entire PubMed. Proceedings of the Workshop on Biomedical Natural Language Processing (BioNLP'10) 2010, 28–36.
Hristovski D, Friedman C, Rindflesch TC, Peterlin B: Exploiting semantic relations for literature-based discovery. AMIA Annual Symposium Proceedings 2006, 349–353.
Cohen T, Whitfield GK, Schvaneveldt RW, Mukund K, Rindflesch TC: EpiphaNet: An Interactive Tool to Support Biomedical Discoveries. Journal of Biomedical Discovery and Collaboration 2010, 5: 21–49.
Bada M, Eckert M, Palmer M, Hunter L: An Overview of the CRAFT Concept Annotation Guidelines. Proceedings of the Fourth Linguistic Annotation Workshop 2010, 207–211.
Kim JD, Ohta T, Tateisi Y, Tsujii J: GENIA corpus - a semantically annotated corpus for bio-textmining. Bioinformatics 2003, 19(Suppl 1):180–182. 10.1093/bioinformatics/btg1023
Pestian JP, Brew C, Matykiewicz P, Hovermale D, Johnson N, Cohen KB, Duch W: A shared task involving multi-label classification of clinical free text. Biological, translational, and clinical language processing 2007, 97–104.
Jimeno A, Jimenez-Ruiz E, Lee V, Gaudan S, Berlanga R, Rebholz-Schuhmann D: Assessment of disease named entity recognition on a corpus of annotated sentences. BMC Bioinformatics 2008, 9(Suppl 3):S3. 10.1186/1471-2105-9-S3-S3
Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, Wong YW: Comparative Experiments on Learning Information Extractors for Proteins and their Interactions. Artificial Intelligence in Medicine (special issue on Summarization and Information Extraction from Medical Documents) 2005, 33(2):139–155.
Nédellec C: Learning language in logic: genic interaction extraction challenge. Proceedings of the ICML 2005 workshop: Learning Language in Logic (LLL05) 2005.
Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, Salakoski T: BioInfer: a corpus for information extraction in the biomedical domain. BMC Bioinformatics 2007, 8: 50. 10.1186/1471-2105-8-50
Rosario B, Hearst MA: Classifying semantic relations in bioscience texts. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics 2004, 430–437.
Roberts A, Gaizauskas R, Hepple M: Extracting Clinical Relationships from Patient Narratives. Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing 2008, 10–18.
Kim JD, Ohta T, Tsujii J: Corpus annotation for mining biomedical events from literature. BMC Bioinformatics 2008, 9: 10. 10.1186/1471-2105-9-10
Thompson P, Iqbal SA, McNaught J, Ananiadou S: Construction of an annotated corpus to support biomedical information extraction. BMC Bioinformatics 2009, 10: 349. 10.1186/1471-2105-10-349
Rebholz-Schuhmann D, Jimeno-Yepes A, van Mulligen EM, Kang N, Kors J, Milward D, Corbett P, Buyko E, Beisswanger E, Hahn U: CALBC Silver Standard Corpus. Journal of Bioinformatics and Computational Biology 2010, 8: 163–179. 10.1142/S0219720010004562
Gene Ontology[http://www.geneontology.org/]
Kim JD, Ohta T, Pyysalo S, Kano Y, Tsujii J: Overview of BioNLP'09 Shared Task on Event Extraction. Proceedings of Natural Language Processing in Biomedicine (BioNLP) Workshop 2009, 1–9.
Kim JD, Pyysalo S, Ohta T, Bossy R, Tsujii J: Overview of BioNLP Shared Task 2011. Proceedings of the BioNLP 2011 Workshop Companion Volume for Shared Task 2011, 1–6.
Rindflesch TC, Fiszman M: The interaction of domain knowledge and linguistic structure in natural language processing: interpreting hypernymic propositions in biomedical text. Journal of Biomedical Informatics 2003, 36(6):462–477. 10.1016/j.jbi.2003.11.003
Bodenreider O: The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Research 2004, (32 Database):267–270.
Ahlers CB, Fiszman M, Demner-Fushman D, Lang FM, Rindflesch TC: Extracting semantic predications from Medline citations for pharmacogenomics. Pacific Symposium on Biocomputing 2007, 209–220.
McCray AT, Srinivasan S, Browne AC: Lexical methods for managing variation in biomedical terminologies. Proceedings of 18th Annual Symposium on Computer Applications in Medical Care 1994, 235–239.
Smith LH, Rindflesch TC, Wilbur WJ: MedPost: a part-of-speech tagger for biomedical text. Bioinformatics 2004, 20(14):2320–2321. 10.1093/bioinformatics/bth227
Aronson AR, Lang FM: An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association 2010, 17(3):229–236.
Maglott D, Ostell J, Pruitt KD, Tatusova T: Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research 2005, 33(Suppl 1):D54-D58.
Tanabe L, Wilbur WJ: Tagging gene and protein names in biomedical text. Bioinformatics 2002, 18(8):1124–1132. 10.1093/bioinformatics/18.8.1124
Kilicoglu H, Fiszman M, Rodriguez A, Shin D, Ripple A, Rindflesch TC: Semantic MEDLINE: A Web Application to Manage the Results of PubMed Searches. Proceedings of the Third International Symposium on Semantic Mining in Biomedicine (SMBM 2008) 2008, 69–76.
Fiszman M, Demner-Fushman D, Kilicoglu H, Rindflesch TC: Automatic summarization of MEDLINE citations for evidence-based medical treatment: A topic-oriented evaluation. Journal of Biomedical Informatics 2009, 42(5):801–813. 10.1016/j.jbi.2008.10.002
Névéol A, Lu Z: Automatic integration of drug indications from multiple health resources. ACM International Health Informatics Symposium (IHI) 2010, 666–673.
Open Biomedical Ontologies[http://www.obofoundry.org/]
Wattarujeekrit T, Shah PK, Collier N: PASBio: predicate-argument structures for event extraction in molecular biology. BMC Bioinformatics 2004, 5: 155. 10.1186/1471-2105-5-155
Bizer C, Heath T, Berners-Lee T: Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems 2009, 5(3):1–22.
Cohen J: A Coefficient of agreement for nominal scales. Educational and Psychological Measurement 1960, 20: 37–46. 10.1177/001316446002000104
Hripcsak G, Rothschild AS: Agreement, the f-measure, and reliability in information retrieval. Journal of American Medical Informatics Association 2005, 12(3):296–298. 10.1197/jamia.M1733
UMLS Terminology Services[http://uts.nlm.nih.gov/]
Entrez Gene[http://ncbi.nlm.nih.gov/gene]
Friedman C, Kra P, Rzhetsky A: Two biomedical sublanguages: a description based on the theories of Zellig Harris. Journal of Biomedical Informatics 2002, 35: 222–235. 10.1016/S1532-0464(03)00012-1
Rindflesch TC, Libbus B, Hristovski D, Aronson AR, Kilicoglu H: Semantic relations asserting the etiology of genetic diseases. AMIA Annual Symposium Proceedings 2003, 554–558.
SemRep Gold Standard Annotation[http://skr.nlm.nih.gov/SemRepGold]