LitStoryTeller+: một hệ thống tương tác cho việc kể chuyện khoa học đa cấp với bộ công cụ khai thác văn bản hỗ trợ

Scientometrics - Tập 116 - Trang 1887-1944 - 2018
Qing Ping1, Chaomei Chen1
1College of Computing and Informatics, Drexel University, Philadelphia, USA

Tóm tắt

Sự gia tăng không ngừng của các ấn phẩm khoa học đã đặt ra một thách thức kép cho các nhà nghiên cứu, không chỉ để nắm bắt các xu hướng nghiên cứu tổng thể trong một lĩnh vực khoa học, mà còn để đi sâu vào các chi tiết nghiên cứu được nhúng trong bộ sưu tập các tài liệu cốt lõi. Công trình hiện có về bản đồ khoa học cung cấp nhiều công cụ để hình dung các xu hướng nghiên cứu trong lĩnh vực ở cấp độ vĩ mô, và các công trình từ nhân văn số đã đề xuất hình ảnh hóa văn bản của tài liệu, chủ đề, câu và từ ở cấp độ vi mô. Tuy nhiên, các hình ảnh hóa văn bản cấp độ vi mô hiện có không được thiết kế cho tập hợp các bài báo khoa học và không thể hỗ trợ đọc khoa học ở cấp độ meso, nhằm sắp xếp một tập hợp các bài báo cốt lõi dựa trên tiến trình nghiên cứu trước khi đi sâu vào các bài báo cá nhân. Để lấp đầy khoảng trống này, bài báo hiện tại đề xuất LitStoryTeller+, một hệ thống tương tác trong một khung thống nhất có thể hỗ trợ cả việc kể chuyện trực quan bài báo khoa học ở cấp độ meso và vi mô. Cụ thể hơn, chúng tôi sử dụng các thực thể (khái niệm và thuật ngữ) như các yếu tố trực quan cơ bản, và hình dung các câu chuyện thực thể qua các bài báo và trong một bài báo mà mượn các phép ẩn dụ từ kịch bản. Để xác định các thực thể và cộng đồng thực thể, việc nhận diện thực thể được đặt tên và phát hiện cộng đồng được thực hiện. Chúng tôi cũng áp dụng nhiều phương pháp khai thác văn bản khác nhau như tóm tắt văn bản trích xuất và phân loại câu so sánh để cung cấp thông tin văn bản phong phú bổ sung cho các hình ảnh hóa của chúng tôi. Chúng tôi cũng đề xuất một chiến lược đọc truyện từ trên xuống mà tận dụng tốt nhất hệ thống của chúng tôi. Hai kịch bản tưởng tượng toàn diện để khám phá tài liệu từ lĩnh vực khoa học máy tính và lĩnh vực lịch sử với hệ thống của chúng tôi chứng minh tính hiệu quả của chiến lược đọc truyện của chúng tôi và sự hữu ích của LitStoryTeller+.

Từ khóa


Tài liệu tham khảo

Abdul-Rahman, A., Lein, J., Coles, K., Maguire, E., Meyer, M., Wynne, M., et al. (2013). Rule-based visual mappings–with a case study on poetry visualization. Paper presented at the Computer Graphics Forum. Alexander, E., Kohlmann, J., Valenza, R., Witmore, M., & Gleicher, M. (2014). Serendip: Topic model-driven visual exploration of text corpora. Paper presented at the visual analytics science and technology (VAST), 2014 IEEE conference on. Bikel, D. M., Miller, S., Schwartz, R., & Weischedel, R. (1997). Nymble: a high-performance learning name-finder. Paper presented at the proceedings of the fifth conference on applied natural language processing. Blei, D. M., & Lafferty, J. D. (2005). Correlated topic models. Paper presented at the Proceedings of the 18th International Conference on Neural Information Processing Systems. Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008(10), P10008. Bornmann, L., & Mutz, R. (2015). Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references. Journal of the Association for Information Science and Technology, 66(11), 2215–2222. Borthwick, A., & Grishman, R. (1999). A maximum entropy approach to named entity recognition. Citeseer. Bostock, M. (2016). Force-Directed Graph. https://bl.ocks.org/mbostock/4062045. Accessed 8 June 2018. Bostock, M. (2017). Narrative Charts. Retrieved from https://bl.ocks.org/drzax/81fff35393fb65255621fd0ab8d11bd7. Accessed 8 June 2018. Callon, M., Courtial, J.-P., & Laville, F. (1991). Co-word analysis as a tool for describing the network of interactions between basic and technological research: The case of polymer chemsitry. Scientometrics, 22(1), 155–205. Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. Paper presented at the proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval. Chavalarias, D., & Cointet, J.-P. (2013). Phylomemetic patterns in science evolution—The rise and fall of scientific fields. PLoS ONE, 8(2), e54847. Chen, C. (2004). Searching for intellectual turning points: Progressive knowledge domain visualization. Proceedings of the National Academy of Sciences, 101(suppl 1), 5303–5310. Chen, C. (2006). CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature. Journal of the Association for Information Science and Technology, 57(3), 359–377. Clement, T., Plaisant, C., & Vuillemot, R. (2009). The Story of One: Humanity scholarship with visualization and text analysis. Relation, 10(1.43), 8485. Correll, M., Witmore, M., & Gleicher, M. (2011). Exploring collections of tagged text for literary scholarship. Paper presented at the Computer Graphics Forum. Don, A., Zheleva, E., Gregory, M., Tarkan, S., Auvil, L., Clement, T., et al. (2007). Discovering interesting usage patterns in text collections: Integrating text mining with visualization. Paper presented at the Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Dunne, C., Shneiderman, B., Gove, R., Klavans, J., & Dorr, B. (2012). Rapid understanding of scientific paper collections: Integrating statistics, text analytics, and visualization. Journal of the Association for Information Science and Technology, 63(12), 2351–2369. Erkan, G., & Radev, D. R. (2004). Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 22, 457–479. Girvan, M., & Newman, M. E. (2002). Community structure in social and biological networks. Proceedings of the National Academy of Sciences, 99(12), 7821–7826. Griffiths, T. L., & Steyvers, M. (2004). Finding scientific topics. Proceedings of the National Academy of Sciences, 101(suppl 1), 5228–5235. Han, J., Pei, J., Mortazavi-Asl, B., Pinto, H., Chen, Q., Dayal, U., & Hsu, M. (2001). Prefixspan: Mining sequential patterns efficiently by prefix-projected pattern growth. Paper presented at the proceedings of the 17th international conference on data engineering. Hofmann, T. (1999). Probabilistic latent semantic analysis. Paper presented at the Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence. Inselberg, A., & Dimsdale, B. (1987). Parallel coordinates for visualizing multi-dimensional geometry. In Computer graphics 1987 (pp. 25–44). Springer. Jindal, N., & Liu, B. (2006a). Identifying comparative sentences in text documents. Paper presented at the proceedings of the 29th annual international ACM SIGIR conference on research and development in information retrieval. Jindal, N., & Liu, B. (2006b). Mining comparative sentences and relations. Paper presented at the AAAI. Kirschner, P. A., Buckingham-Shum, S. J., & Carr, C. S. (2012). Visualizing argumentation: Software tools for collaborative and educational sense-making. London: Springer. Kobourov, S. G. (2012). Spring embedders and force directed graph drawing algorithms. arXiv preprint arXiv:1201.3011. Koch, S., John, M., Wörner, M., Müller, A., & Ertl, T. (2014). VarifocalReader—in-depth visual analysis of large text documents. IEEE Transactions on Visualization and Computer Graphics, 20(12), 1723–1732. Lin, H., & Bilmes, J. (2011). A class of submodular functions for document summarization. Paper presented at the proceedings of the 49th annual meeting of the association for computational linguistics: Human Language Technologies-Volume 1. Liu, S., Wu, Y., Wei, E., Liu, M., & Liu, Y. (2013). Storyflow: Tracking the evolution of stories. IEEE Transactions on Visualization and Computer Graphics, 19(12), 2436–2445. McCallum, A., & Li, W. (2003). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. Paper presented at the Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4. McCurdy, N., Lein, J., Coles, K., & Meyer, M. (2016). Poemage: Visualizing the sonic topology of a poem. IEEE Transactions on Visualization and Computer Graphics, 22(1), 439–448. Mihalcea, R., & Tarau, P. (2004). Textrank: Bringing order into text. Paper presented at the Proceedings of the 2004 conference on empirical methods in natural language processing. Nemhauser, G. L., Wolsey, L. A., & Fisher, M. L. (1978). An analysis of approximations for maximizing submodular set functions—I. Mathematical Programming, 14(1), 265–294. Nenkova, A., & Vanderwende, L. (2005). The impact of frequency on summarization. Microsoft Research, Redmond, Washington. Technical Report MSR-TR-2005, 101. Ping, Q., & Chen, C. (2017). LitStoryTeller: An interactive system for visual exploration of scientific papers leveraging named entities and comparative sentences. In Proceedings of ISSI 2017–The 16th international conference on scientometrics and informetrics, Wuhan University, China, 1118-1130. Porteous, I., Newman, D., Ihler, A., Asuncion, A., Smyth, P., & Welling, M. (2008). Fast collapsed gibbs sampling for latent Dirichlet allocation. Paper presented at the proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. Schneider, N., Hwa, R., Gianfortoni, P., Das, D., Heilman, M., Black, A., et al. (2010). Visualizing topical quotations over time to understand news discourse. Technical Report CMU-LTI-01-103, CMU, 2010. Tanahashi, Y., & Ma, K.-L. (2012). Design considerations for optimizing storyline visualizations. IEEE Transactions on Visualization and Computer Graphics, 18(12), 2679–2688. Van Eck, N. J., & Waltman, L. (2010). Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics, 84(2), 523–538. Viegas, F. B., Wattenberg, M., & Feinberg, J. (2009). Participatory visualization with wordle. IEEE Transactions on Visualization and Computer Graphics, 15(6), 1190–1197. Wilhelm, T., Burghardt, M., & Wolff, C. (2013). “To See or Not to See”—An interactive tool for the visualization and analysis of shakespeare plays. In R. Franken Wendelstorf, E. Lindinger, & J. Sieck (Eds.), Kultur und informatik: Visual worlds & interactive spaces (pp. 175–185). Glückstadt: Verlag Werner Hülsbusch. Zhu, X., Goldberg, A., Van Gael, J., & Andrzejewski, D. (2007). Improving diversity in ranking using absorbing random walks. Paper presented at the Human Language Technologies 2007: The conference of the north american chapter of the association for computational linguistics; Proceedings of the main conference.