BioN∅T: Cơ sở dữ liệu tìm kiếm các câu bị phủ định trong lĩnh vực sinh học

BMC Bioinformatics - Tập 12 - Trang 1-7 - 2011
Shashank Agarwal1, Hong Yu1,2,3, Issac Kohane4
1Medical Informatics, College of Engineering and Applied Sciences, University of Wisconsin-Milwaukee, Milwaukee, USA
2Department of Computer Science and Electrical Engineering, College of Engineering and Applied Sciences, University of Wisconsin-Milwaukee, Milwaukee, USA
3Department of Health Sciences, College of Health Science, University of Wisconsin-Milwaukee, Milwaukee, USA
4Children's Hospital Informatics Program, Children's Hospital, Boston, USA

Tóm tắt

Các sự kiện sinh học bị phủ định thường bị bỏ qua bởi các ứng dụng khai thác văn bản; tuy nhiên, những sự kiện này mang ý nghĩa khoa học. Chúng tôi báo cáo về sự phát triển của BioN∅T, một cơ sở dữ liệu chứa các câu bị phủ định có thể được sử dụng để trích xuất những sự kiện bị phủ định như vậy. Hiện tại, BioN∅T tích hợp khoảng 32 triệu câu bị phủ định, được trích xuất từ hơn 336 triệu câu trong lĩnh vực sinh học từ ba nguồn: khoảng 2 triệu bài báo sinh học toàn văn trên Elsevier và PubMed Central, cũng như khoảng 20 triệu tóm tắt nghiên cứu trong PubMed. Chúng tôi đã đánh giá BioN∅T trên ba rối loạn di truyền quan trọng: tự kỷ, bệnh Alzheimer và bệnh Parkinson, và đã phát hiện rằng BioN∅T có khả năng tiếp nhận các sự kiện bị phủ định có thể bị các chuyên gia bỏ qua. Cơ sở dữ liệu BioN∅T có thể trở thành một nguồn tài nguyên hữu ích cho các nhà nghiên cứu sinh học. BioN∅T hiện có sẵn miễn phí tại http://bionot.askhermes.org/. Trong các nghiên cứu trong tương lai, chúng tôi sẽ phát triển các công nghệ web ngữ nghĩa liên quan để làm giàu cho BioN∅T.

Từ khóa

#câu bị phủ định #cơ sở dữ liệu sinh học #khai thác văn bản #sự kiện sinh học #rối loạn di truyền

Tài liệu tham khảo

Kohane IS, Masys DR, Altman RB: The incidentalome: a threat to genomic medicine. JAMA: The Journal of the American Medical Association 2006, 296(2):212–215. [PMID: 16835427] [PMID: 16835427] 10.1001/jama.296.2.212 Chapman WW, Bridewell W, Hanbury P, Cooper GF, Buchanan BG: A simple algorithm for identifying negated findings and diseases in discharge summaries. Journal of Biomedical Informatics 2001, 34(5):301–310. [PMID: 12123149] [http://www.ncbi.nlm.nih.gov/pubmed/12123149] [PMID: 12123149] 10.1006/jbin.2001.1029 Mutalik PG, Deshpande A, Nadkarni PM: Use of General-purpose Negation Detection to Augment Concept Indexing of Medical Documents: A Quantitative Study Using the UMLS. J Am Med Inform Assoc 2001, 8(6):598–609. [http://www.jamia.org/cgi/content/abstract/8/6/598] 10.1136/jamia.2001.0080598 Elkin P, Brown S, Bauer B, Husser C, Carruth W, Bergstrom L, Wahner-Roedler D: A controlled trial of automated classification of negation from clinical notes. BMC Medical Informatics and Decision Making 2005, 5: 13. [http://www.biomedcentral.com/1472–6947/5/13] 10.1186/1472-6947-5-13 Huang Y, Lowe HJ: A novel hybrid approach to automated negation detection in clinical radiology reports. Journal of the American Medical Informatics Association: JAMIA 2007, 14(3):304–311. [PMID: 17329723] [http://www.ncbi.nlm.nih.gov/pubmed/17329723] [PMID: 17329723] 10.1197/jamia.M2284 Auerbuch M, Karson TH, Ben-Ami B, Maimon O, Rokach L: Context-sensitive medical information retrieval. Studies in Health Technology and Informatics 2004, 107(Pt 1):282–286. [PMID: 15360819] [http://www.ncbi.nlm.nih.gov/pubmed/15360819] [PMID: 15360819] Aramaki E, Miura Y, Tonoike M, Ohkuma T, Mashuichi H, Ohe K: TEXT2TABLE: medical text summarization system based on named entity recognition and modality identification. Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, BioNLP '09, Stroudsburg, PA, USA: Association for Computational Linguistics 2009, 185–192. [http://portal.acm.org/citation.cfm?id=1572364.1572390] Sanchez-Graillet O, Poesio M: Negation of protein protein interactions: analysis and extraction. Bioinformatics 2007, 23(13):i424–432. [http://bioinformatics.oxfordjournals.org/cgi/content/abstract/23/13/i424] 10.1093/bioinformatics/btm184 Morante R, Daelemans W: A metalearning approach to processing the scope of negation. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Boulder. Colorado: Association for Computational Linguistics; 2009:21–29. Agarwal S, Yu H: Biomedical negation scope detection with conditional random fields. Journal of the American Medical Informatics Association 2010, 17(6):696–701. [http://dx.doi.org/10.1136/jamia.2010.003228] 10.1136/jamia.2010.003228 Lafferty J, McCallum A, Pereira F: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001), Williamstown, MA, USA 2001, 282–289. Szarvas G, Vincze V, Farkas R, Csirik J: The BioScope corpus: annotation for negation, uncertainty and their scope in biomedical texts. In Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing. Columbus, Ohio: Association for Computational Linguistics; 2008:38–45. Kim J, Zhang Z, Park JC, Ng SK: BioContrasts: extracting and exploiting protein-protein contrastive relations from biomedical literature. Bioinformatics 2006, 22(5):597–605. [PMID: 16368768] [PMID: 16368768] 10.1093/bioinformatics/btk016 Piao S: A Highly Accurate Sentence and Paragraph Breaker.2010. [http://text0.mib.man.ac.uk:8080/scottpiao/sent_detector] Hatcher E, Gospodnetic O:Lucene in Action (In Action series). Manning Publications; 2004. [http://www.amazon.ca/exec/obidos/redirect?tag=citeulike09–20&path=ASIN/1932394281] Abrahams BS, Geschwind DH: Advances in autism genetics: on the threshold of a new neurobiology. Nature reviews. Genetics 2008, 9(5):341–355. [PMID: 18414403 PMCID: 2756414] [PMID: 18414403 PMCID: 2756414] 10.1038/nrg2346 Bertram L, Tanzi RE: Thirty years of Alzheimer's disease genetics: the implications of systematic meta-analyses. Nature Reviews. Neuroscience 2008, 9(10):768–778. [PMID: 18802446] [http://www.ncbi.nlm.nih.gov/pubmed/18802446] [PMID: 18802446] 10.1038/nrn2494 Farrer MJ: Genetics of Parkinson disease: paradigm shifts and future prospects. Nature Reviews. Genetics 2006, 7(4):306–318. [PMID: 16543934] [http://www.ncbi.nlm.nih.gov/pubmed/16543934] [PMID: 16543934] 10.1038/nrg1831