Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Hướng tới phân loại loài trong các bài báo sinh học hệ thống bằng cách khai thác văn bản
Tóm tắt
Trong những năm gần đây, các phương pháp có độ thông lượng cao đã dẫn đến sự mở rộng mạnh mẽ trong văn học văn bản tự do về sinh học phân tử. Khai thác văn bản tự động đã phát triển như một công nghệ ứng dụng để chính thức hóa sự phong phú của các kết quả đã được công bố vào các mục cơ sở dữ liệu có cấu trúc. Tuy nhiên, việc biên soạn cơ sở dữ liệu vẫn chủ yếu được thực hiện bằng tay, và mặc dù đã có nhiều nghiên cứu về các phương pháp tự động, nhưng vẫn còn những vấn đề trong việc phân loại tài liệu thành những loại cấp cao dựa trên loại sinh vật đang được nghiên cứu. Ở đây, chúng tôi trình bày một phân tích so sánh các mô hình giám sát tiên tiến được sử dụng để phân loại cả tóm tắt và bài báo toàn văn cho ba sinh vật mô hình. Các thí nghiệm tách biệt đã được thực hiện trên một tập hợp tiêu chuẩn lớn gồm 10.000 tóm tắt và bài báo toàn văn chứa dữ liệu về ba sinh vật mô hình (ruồi, chuột và nấm men). Trong số tám mô hình máy học được thử nghiệm, mô hình tốt nhất đạt được chỉ số F là 97,1% cho ruồi, 88,6% cho chuột và 85,5% cho nấm men sử dụng nhiều đặc trưng khác nhau bao gồm tên gen, tần suất sinh vật, tiêu đề MeSH và các mối liên hệ giữa thuật ngữ và loài. Chúng tôi nhận thấy rằng các mối liên hệ giữa thuật ngữ và loài đặc biệt hiệu quả trong việc cải thiện hiệu suất phân loại. Lợi ích của việc sử dụng các bài báo toàn văn hơn tóm tắt được quan sát nhất quán trên cả ba sinh vật. Bằng cách so sánh các thuật toán máy học và các đặc trưng khác nhau, chúng tôi đã trình bày một hệ thống tối ưu hóa có khả năng tự động phát hiện sinh vật chính trong các bài báo toàn văn cho ruồi, chuột và nấm men. Chúng tôi tin rằng phương pháp này sẽ có thể được mở rộng cho các loại sinh vật khác.
Từ khóa
#Khai thác văn bản #sinh học phân tử #máy học #phân loại tài liệu #sinh vật mô hìnhTài liệu tham khảo
Yeh A, Hirschman L, Morgan A: The Evaluation of text data mining for database curation: lessons learned from the KDD Challenge Cup. Bioinformatics. 2003, 19: 331-339. 10.1093/bioinformatics/btg1046.
Blake J, Richardson J, Bult C, Kadin J, Eppig J: Mouse Genome Database Group: MGD: The Mouse Genome Database. Nucleic Acids Res. 2003, 31: 193-195. 10.1093/nar/gkg047.
FlyBase (2003): The Fly Base database of the Drosophila genome projects and community literature. Nucleic Acids Res. 2003, 31: 172-175. 10.1093/nar/gkg094. [http://flybase.bio.indiana.edu/]
DictyDB (An ACeDB Database for Dictyostelium) BMC Ltd, BM Central - 2004 - en.scientificcommons.org.:
Wormpep (C. Elegans Protein Database) BMC Ltd, BM Central - 2003 - en.scientificcommons.org.:
Hirschman L, Alexander Y, Blaschke C, Valencia A: Overview of BioCreAtIvE: critical assessment of information extraction for biology. BMC Bioinformatics. 2005, 6 (Suppl 1): S1-10.1186/1471-2105-6-S1-S1. (24 May 2005).
Hersh W, Cohen A, Roberts P, Rekapalli H: TREC 2006 Genomics Track Overview. 2006, TREC Notebook
Lin J: Is searching full text more effective than searching abstracts?. BMC Bioinformatics. 2009, 10: 46-10.1186/1471-2105-10-46.
Liu H, Wu C: 2004A study of text categorization for model organism databases. Proceedings of NAACLIHLT. 2004, Boston, MA, 25-32.
Rinaldi F, Kappeler T, Kaljurand K, Schneider G, Klenner M, Clematide S, Hess M, von Allmen JM, Parisot P, Romacker M, Vachon T: OntoGene in BioCreative II. Genome Biology. 2008, 9 (Suppl 2): S13-10.1186/gb-2008-9-s2-s13.
Wang X, Matthews M: Distinguishing the species of biomedical named entities for term identification. BMC Bioinformatics. 2008, 9 (Suppl 11): S6-10.1186/1471-2105-9-S11-S6.
Donaldson I, Martin J, de Bruijn B, Wolting C, Lay V, Tuekam B, Zhang S, Baskin B, Bader G, Michalickova K: PreBIND and Textomymining the biomedical literature for protein-protein interactions using a support vector machine. BMC Bioinformatics. 2003, 4 (11):
Issel-Tarver L, Christie K, Dolinski K, Andrada R, Balakrishnan R, Ball C, Binkley G, Dong S, Dwight S, Fisk D: Saccharomyces Genome Database. Methods Enzymol. 2002, 350: 329-346. full_text.
Tanabe L, Wilbur WJ: Tagging gene and protein names in full text articles. In Proceedings of the ACL-02 workshop on Natural language processing in the biomedical domain. 2002, Phildadelphia, Pennsylvania, 9-13. July 11-11, 2002
Hall M, Frank E, Holmes G, Pfahringer B, Reutemann PHI: The WEKA Data Mining Software: An Update. SIGKDD Explorations. 2009, 11 (1): 10.1145/1656274.1656278.
Lafferty J, McCallum A, Pereira F: Conditional random fields: probabilistic models for segmenting and labeling sequence data. 2001, International Conference on Machine Learning
Hirohata K, Okazaki N, Ananiadou S, Ishizuka M: Identifying Sections in Scientific Abstracts using Conditional Random Fields. Proceedings of the Third International Joint Conference on Natural Language Processing: January 2008. 2008, Hyderabad, India, 381-388.
Kudo A: T CRF++: yet another CRF toolkit. [http://crfpp.sourceforge.net/]
Vapnik V: The nature of statistical learning theory. 1995, Springer Verlag, New York
Freund Y, Schapire RE: Experiments with a new boosting algorithm. 1996, Thirteenth International Conference on Machine Learning, San Francisco, 148-156.
Breiman L: Bagging predictors. Machine Learning. 1996, 24 (2): 123-140.
Kohavi R: The Power of Decision Tables. 1995, 8th European Conference on Machine Learning, 174-189.
Shi H: Best-first decision tree learning. 2007, Hamilton, NZ
le Cessie S, van Houwelingen J: Ridge Estimators in Logistic Regression. Applied Statistics. 1992, 41 (1): 191-201. 10.2307/2347628.
Tanabe L, Wilbur W: Tagging gene and protein names in biomedical text. Bioinformatics. 2002, 18: 8-10.1093/bioinformatics/18.8.1124.
Bloehdorn S, Hotho A: Boosting for text classification with semantic features. Proceedings of the Workshop on Mining for and from the Semantic Web at the 10th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2004), pages 70C87. Joint Session with WebKDD workshop. Reprinted in Proceedings of WebKDD 2004, LNCS 3932. 2004, Springer
Bouckaert R, Frank E: (2004) Evaluating the replicability of significance tests for comparing learning algorithms. Advances in Knowledge Discovery and Data Mining, 8th Pacific-Asia Conference, PAKDD 2004, Sydney, Australia, May 26-28, 2004. Edited by: Honghua D, Srikant R, Zhang C. 2004, Springer