Sinh học khái niệm, phát hiện giả thuyết và khai thác văn bản: Di sản của Swanson

Biomedical Digital Libraries - Tập 3 Số 1 - 2006
Tanja Bekhuis1
1Department of Library & Information Science, School of Information Sciences, University of Pittsburgh, 135 North Bellefield Avenue, Pittsburgh, PA, 15260, USA

Tóm tắt

Thư viện viên và chuyên gia thông tin sinh học đổi mới, những người muốn mở rộng vai trò của mình như những nhà tìm kiếm chuyên gia, cần phải hiểu về những thay đổi sâu sắc trong sinh học và các xu hướng song song trong khai thác văn bản. Trong những năm gần đây, sinh học khái niệm đã nổi lên như một bổ sung cho sinh học thực nghiệm. Điều này phần nào là phản ứng trước sự sẵn có của các nguồn tài nguyên kỹ thuật số khổng lồ như mạng lưới cơ sở dữ liệu cho các nhà sinh học phân tử tại Trung tâm Thông tin Công nghệ Sinh học Quốc gia. Những phát triển trong khai thác văn bản và hệ thống phát hiện giả thuyết dựa trên công việc sớm của Swanson, một nhà toán học và nhà khoa học thông tin, trùng hợp với sự xuất hiện của sinh học khái niệm. Rất ít tài liệu đã được viết để giới thiệu cho các thư viện viên kỹ thuật số sinh học về những xu hướng mới này. Trong bài báo này, nền tảng cho khai thác dữ liệu và văn bản, cũng như cho phát hiện tri thức trong cơ sở dữ liệu (KDD) và trong văn bản (KDT) được trình bày, sau đó là một cái nhìn tổng quát ngắn gọn về các ý tưởng của Swanson, tiếp theo là một thảo luận về những cách tiếp cận gần đây đối với phát hiện và kiểm tra giả thuyết. 'Kiểm tra' trong bối cảnh khai thác văn bản liên quan đến các phương pháp tự động một phần để tìm kiếm bằng chứng trong tài liệu nhằm ủng hộ các mối quan hệ giả thuyết. Những nhận xét kết luận liên quan đến (a) các giới hạn của các chiến lược hiện tại cho việc đánh giá các hệ thống phát hiện giả thuyết và (b) vai trò của phát hiện dựa trên tài liệu cùng với nghiên cứu thực nghiệm. Báo cáo về một cuộc tổng quan tài liệu được điều khiển bởi thông tin học về các dấu ấn sinh học của lupus ban đỏ hệ thống cũng được đề cập. Tầm nhìn của Swanson về giá trị ẩn giấu trong tài liệu khoa học và, mở rộng ra, trong các cơ sở dữ liệu kỹ thuật số y sinh vẫn còn vô cùng sinh động cho các nhà khoa học thông tin, nhà sinh học và bác sĩ.

Từ khóa


Tài liệu tham khảo

Bray D: Reasoning for results. Nature. 2001, 412: 863-

Blagosklonny MV, Pardee AB: Unearthing the gems. Nature. 2002, 416: 373-

Swanson DR: Medical literature as a potential source of new knowledge. Bulletin of the Medical Library Association. 1990, 78 (1): 29-37.

Theoretical Biology and Medical Modelling. [http://www.tbiomed.com]

NCBI resource guide . [http://www.ncbi.nlm.nih.gov/Sitemap/ResourceGuide.html]

Sandstrom PE: Scholars as subsistence foragers. Bulletin of the American Society for Information Science and Technology. 1999, 25 (3):

Jackson LS: Supercomputing detection of Swanson's relationship between Raynaud's disease and dietary fish oil. 2002, Graduate School of Library and Information Science at the University of Illinois

Barabasi AL: Linked: How Everything Is Connected to Everything Else and What It Means for Business, Science, and Everyday Life. 2002, New York , Plume

Cohen AM, Hersh WR: A survey of current work in biomedical text mining. Briefings in Bioinformatics. 2005, 6 (1): 57-71.

Natarajan J, Berrar D, Hack CJ, Dubitzky W: Knowledge discovery in biology and biotechnology texts: a review of techniques, evaluation strategies, and applications. Critical Reviews in Biotechnology. 2005, 25 (1/2): 31-52.

Shatkay H, Feldman R: Mining the biomedical literature in the genomic era: an overview. Journal of Computational Biology. 2003, 10 (6): 821-855.

Ganiz MC, Pottenger WM, Janneck CR: Recent Advances In Literature Based Discovery. Lehigh University. Retrieved January 10, 2006., [http://www.cse.lehigh.edu/~billp/pubs/JASISTLBD.pdf]

Fuller S, Revere D, Bugni P, Martin G: A knowledgebase system to enhance scientific discovery: Telemakus. Biomedical Digital Libraries. 2004, 1 (1): 2-

Hristovski D, Peterlin B, Mitchell JA, Humphrey SM: Improving literature based discovery support by genetic knowledge integration. Studies in Health Technology and Informatics. 2003, 95: 68-73.

Pratt W, Yetisgen-Yildiz M: LitLinker: capturing connections across the biomedical literature. Proceedings of the International Conference on Knowledge Capture. 2003, Sanibel Island, Florida , ACM, 105-112.

Shah PK, Perez-Iratxeta C, Bork P, Andrade MA: Information extraction from full text scientific articles: where are the keywords?. BMC Informatics. 2003, 4 (20): 20-

Sirmakessis S: Text Mining and its Applications: Results of the NEMIS Launch Conference. Studies in Fuzziness and Soft Computing. Edited by: Kacprzyk J. 2004, Berlin, Germany , Springer-Verlag, 138: 204-

Srinivasan P: Text mining: generating hypotheses from Medline. Journal of the American Society for Information Science and Technology. 2004, 55 (5): 396-413.

Fayyad U, Piatetsky-Shapiro G, Smyth P: From data mining to knowledge discovery in databases. American Association for Artificial Intelligence. 1996, 37-54.

Liddy ED: Text mining. Bulletin of the American Society for Information Science and Technology. 2005, 27 (1): 13-14.

Swanson DR: Undiscovered public knowledge. Library Quarterly. 1986, 56 (2): 103-118.

Swanson DR: Complementary structures in disjoint science literatures. Proceedings of the 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1991, Chicago , ACM Press, 280-289.

Swanson DR: Fish oil, Raynaud's syndrome, and undiscovered public knowledge. Perspectives in Biology and Medicine. 1986, 30 (1): 7-18.

Swanson DR: Migraine and magnesium: eleven neglected connections. Perspectives in Biology and Medicine. 1988, 31 (4): 526-557.

Swanson DR: Somatomedin C and arginine: implicit connections between mutually isolated literatures. Perspectives in Biology and Medicine. 1990, 33 (2): 157-186.

Swanson DR, Smalheiser NR, Bookstein A: Information discovery from complementary literatures: categorizing viruses as potential weapons. Journal of the American Society for Information Science and Technology. 2001, 52 (10): 797-812.

Swanson DR, Smalheiser NR: An interactive system for finding complementary literatures: a stimulus to scientific discovery. Artificial Intelligence. 1997, 91: 183-203.

Welcome to ARROWSMITH 3.0. [http://kiwi.uchicago.edu]

ARROWSMITH linking documents, disciplines, investigators, and databases. [http://arrowsmith.psych.uic.edu]

Stegmann J, Grohmann G: Hypothesis generation guided by co-word clustering. Scientometrics. 2003, 56 (1): 111-135.

Gordon MD, Lindsay RK: Toward discovery support systems: a replication, re-examination, and extension of Swanson's work on literature-based discovery of a connection between Raynaud's and fish oil. Journal of the American Society for Information Science. 1996, 47 (2): 116-128.

Recent papers on literature-based discovery (in chronological sequence 1986-2001). [http://kiwi.uchicago.edu/references.txt]

Weeber M, Klein H, Aronson AR, Mork JG, de Jong-van den Berg LTW, Vos R: Text-based discovery in biomedicine: the architecture of the DAD-system. Proceedings of the AMIA Annual Fall Symposium. Edited by: Overhage JM. 2000, Philadelphia , Hanley & Belfus, 903-907.

National Library of Medicine Unified Medical Language System. [http://www.nlm.nih.gov/research/umls]

Weeber M, Vos R, Klein H, de Jong-van den Berg LTW, Aronson AR, Molema G: Generating hypotheses by discovering implicit associations in the literature: a case report of a search for new potential therapeutic uses for thalidomide. Journal of the American Medical Informatics Association. 2003, 10: 252-259.

Chen C: Mapping Scientific Frontiers: The Quest for Knowledge Visualization. 2003, London , Springer-Verlag

Srinivasan P, Libbus B: Mining MEDLINE for implicit links between dietary substances and diseases. Bioinformatics. 2004, 20 (Suppl. 1): i290-i296.

National Center for Biotechnology Information databases. [http://www.ncbi.nlm.nih.gov/Database]

Mittleman BB: Biomarkers for systemic lupus erythematosus: has the right time finally arrived?. Arthritis Research and Therapy. 2004, 6: 223-224.