Khám Phá Không Gian Vector Trong Ngôn Ngữ Văn Chương

Springer Science and Business Media LLC - Tập 53 - Trang 625-650 - 2019
Andreas van Cranenburgh1, Karina van Dalen-Oskam2,3, Joris van Zundert2
1Information Science, University of Groningen, Groningen, The Netherlands
2Huygens ING, Royal Netherlands Academy of Arts and Sciences, Amsterdam, The Netherlands
3Universiteit van Amsterdam, Amsterdam, The Netherlands

Tóm tắt

Các tiểu thuyết văn chương được cho là phân biệt với các tiểu thuyết khác thông qua các quy ước liên quan đến tính văn chương. Chúng tôi điều tra nhiệm vụ dự đoán tính văn chương của các tiểu thuyết theo cách mà độc giả cảm nhận, dựa trên một cuộc khảo sát lớn về các tiểu thuyết đương đại của Hà Lan. Nghiên cứu trước đây đã chỉ ra rằng các đánh giá về tính văn chương có thể được dự đoán từ văn bản ở một mức độ đáng kể bằng cách sử dụng học máy, cho thấy rằng có thể giải thích sự đồng thuận giữa các độc giả về các tiểu thuyết nào là văn chương như một sự đồng thuận về loại phong cách viết đặc trưng cho văn học. Mặc dù chúng tôi vẫn chưa thu thập được các đánh giá của con người để xác định ảnh hưởng của phong cách viết một cách trực tiếp (chúng tôi sử dụng một cuộc khảo sát với các đánh giá dựa trên tiêu đề của các tiểu thuyết), chúng tôi có thể cố gắng phân tích hành vi của các mô hình học máy trên các đoạn văn bản cụ thể như một sự thay thế cho các đánh giá của con người. Để khám phá các khía cạnh của văn bản có liên quan đến tính văn chương, chúng tôi chia các văn bản của các tiểu thuyết thành các đoạn 2–3 trang và tạo ra các biểu diễn không gian vector bằng cách sử dụng các mô hình chủ đề (Phân phối Dirichlet Tiềm ẩn) và các vector tài liệu thần kinh (Vector đoạn văn thuộc kiểu Bao túi từ). Chúng tôi phân tích độ phức tạp ngữ nghĩa của các tiểu thuyết bằng cách sử dụng các phép đo khoảng cách, ủng hộ quan niệm rằng tính văn chương có thể được giải thích phần nào như là sự lệch lạc khỏi chuẩn mực. Hơn nữa, chúng tôi xây dựng các mô hình dự đoán và xác định các từ khóa cụ thể và các dấu hiệu phong cách liên quan đến tính văn chương. Mặc dù thể loại có một vai trò, chúng tôi thấy rằng phần lớn các yếu tố ảnh hưởng đến các đánh giá về tính văn chương có thể được giải thích bằng các thuật ngữ của bao túi từ, ngay cả trong các đoạn văn bản ngắn và giữa các tiểu thuyết có điểm số văn chương cao hơn. Mã nguồn và sổ tay được sử dụng để tạo ra các kết quả trong bài báo này có sẵn tại https://github.com/andreasvc/litvecspace.

Từ khóa

#tính văn chương #mô hình chủ đề #học máy #phân tích văn bản #văn học Hà Lan

Tài liệu tham khảo

Anthony, L. (2005). Antconc: Design and development of a freeware corpus analysis toolkit for the technical writing classroom. In Proceedings of the 2005 IEEE international professional communication conference (pp. 729–737). IEEE. Ashok, V., Feng, S., & Choi, Y. (2013). Success with style: Using writing style to predict the success of novels. In Proceedings of EMNLP (pp. 1753–1764). http://aclweb.org/anthology/D13-1181. Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993–1022. Bouma, G., Van Noord, G., & Malouf, R. (2001). Alpino: Wide-coverage computational analysis of Dutch. Language and Computers, 37(1), 45–59. Brennan, T. (2017). The digital-humanities bust. In The Chronicle of Higher Education, October 20. http://www.chronicle.com/article/The-Digital-Humanities-Bust/241424. Accessed 28 Oct 2017. Burrows, J. F. (1989). ‘An ocean where each kind...’: Statistical analysis and some major determinants of literary style. Computers and the Humanities, 23(4–5), 309–321. Clement, T., Steger, S., Unsworth, J., & Uszkalo, K. (2008). How not to read a million books. In Personal page at institutional site. University of Virgina, October 2008. http://people.virginia.edu/~jmu2m/hownot2read.html. Accessed 28 Oct 2017. Crosbie, T., French, T., & Conrad, M. (2013). Towards a model for replicating aesthetic literary appreciation. In Proceedings of the 5th workshop on semantic web information management (p. 8). https://doi.org/10.1145/2484712.2484720 Dai, A. M., Olah, C., & Le, Q. V. (2015). Document embedding with paragraph vectors. arXiv e-print arxiv:1507.07998. Dixon, P., Bortolussi, M., & Mullins, B. (2015). Judging a book by its cover. Scientific Study of Literature, 5(1), 23–48. https://doi.org/10.1075/ssol.5.1.02dix. Fish, S. (2012). Mind your p’s and b’s: The digital humanities and interpretation. The New York Times, January 23. http://opinionator.blogs.nytimes.com/2012/01/23/mind-your-ps-and-bs-the-digital-humanities-and-interpretation/. Accessed 28 Oct 2017. Fishelov, D. (2008). Dialogues with/and great books: With some serious reflections on Robinson Crusoe. New Literary History, 39(2), 335–353. Herrmann, J. B., van Dalen-Oskam, K., & Schöch, C. (2015). Revisiting style, a key concept in literary studies. Journal of Literary Theory, 9(1), 25–52. Jautze, K., van Cranenburgh, A., & Koolen, C. (2016). Topic modeling literary quality. In Digital humanities 2016: Conference abstracts (pp. 233–237), Krákow, Poland. http://dh2016.adho.org/abstracts/95. Kaiser, E. (2010). Effects of contrast on referential form: Investigating the distinction between strong and weak pronouns. Discourse Processes, 47(6), 480–509. Kestemont, M., & Stutzmann, D. (2017). Script identification in medieval latin manuscripts using convolutional neural networks. In Digital Humanities 2017 Book of Abstracts, ADHO, Montreal (pp. 283–285). https://dh2017.adho.org/abstracts/078/078.pdf. Kirschenbaum, M. (2014). What is digital humanities and what’s it doing in english departments? Differences, 25(1), 46–63. https://doi.org/10.1215/10407391-2419997. Koolen, C. (2018). Reading beyond the female: The relationship between perception of author gender and literary quality. Ph.D. thesis, University of Amsterdam. http://hdl.handle.net/11245.1/cb936704-8215-4f47-9013-0d43d37f1ce7. Lau, J. H., & Baldwin, T. (2016). An empirical evaluation of doc2vec with practical insights into document embedding generation. In Proceedings of the representation learning for NLP workshop (pp 78–86). http://aclweb.org/anthology/W16-1609. Le, Q. V., & Mikolov, T. (2014). Distributed representations of sentences and documents. In Proceedings of ICML (pp. 1188–1196). http://jmlr.org/proceedings/papers/v32/le14.pdf. Lei, T., Barzilay, R., & Jaakkola, T. (2016). Rationalizing neural predictions. In Proceedings of EMNLP (pp. 107–117). http://aclweb.org/anthology/D16-1011. Louwerse, M. (2004). Semantic variation in idiolect and sociolect: Corpus linguistic evidence from literary texts. Computers and the Humanities, 38(2), 207–221. Louwerse, M., Benesh, N., & Zhang, B. (2008). Computationally discriminating literary from non-literary texts. In S. Zyngier, M. Bortolussi, A. Chesnokova, & J. Auracher (Eds.), Directions in empirical literary studies: In honor of Willie Van Peer (pp. 175–191). Amsterdam: John Benjamins Publishing Company. Maas, A. L., Daly, R. E., Pham, P. T., Huang, D., Ng, A. Y., & Potts, C. (2011). Learning word vectors for sentiment analysis. In Proceedings of ACL-HLT (pp. 142–150). http://aclweb.org/anthology/P11-1015. Maharjan, S., Arevalo, J., Montes, M., González, F. A., & Solorio, T. (2017). A multi-task approach to predict likability of books. In Proceedings of EACL (pp. 1217–1227). http://aclweb.org/anthology/E17-1114. McCallum, A. K. (2002). Mallet: A machine learning for language toolkit. http://mallet.cs.umass.edu. Accessed 15 Oct 2017. Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., et al. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, 2825–2830. Ramaswamy, S., Rastogi, R., & Shim, K. (2000). Efficient algorithms for mining outliers from large data sets. ACM Sigmod Record, 29, 427–438. https://doi.org/10.1145/335191.335437. Řehůřek, R., & Sojka, P. (2010). Software framework for topic modelling with large corpora. In Proceedings of the LREC 2010 workshop on new challenges for NLP frameworks (pp. 45–50). http://is.muni.cz/publication/884893/en. Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). “Why should I trustyou?”: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1135–1144). https://doi.org/10.1145/2939672.2939778. Sculley, D., & Pasanek, B. M. (2008). Meaning and mining: The impact of implicit assumptions in data mining for the humanities. Literary and Linguistic Computing, 23(4), 409–424. https://doi.org/10.1093/llc/fqn019. Squires, C. (2007). Marketing literature: The making of contemporary writing in Britain. Basingstoke: Palgrave Macmillan. 10.1057/9780230593008. Underwood, T. (2013). We don’t already understand the broad outlines of literary history. In The stone and the shell (academic blog), February 8. https://tedunderwood.com/2013/02/08/we-dont-already-know-the-broad-outlines-of-literary-history/. Accessed 15 Oct 2017. Underwood, T. (2015). The literary uses of high-dimensional space. Big Data & Society 2(2). http://bds.sagepub.com/content/2/2/2053951715602494. van Cranenburgh, A., & Bod, R. (2017). A data-oriented model of literary language. In Proceedings of EACL (pp. 1228–1238). http://aclweb.org/anthology/E17-1115. van Cranenburgh, A., & Koolen, C. (2015). Identifying literary texts with bigrams. In Proceedings of workshop computational linguistics for literature (pp. 58–67). http://aclweb.org/anthology/W15-0707. Verboord, M., Kuipers, G., & Janssen, S. (2015). Institutional recognition in the transnational literary field, 1955–2005. Cultural Sociology, 9(3), 447–465. https://doi.org/10.1177/1749975515576939. Yang, Z., Yang, D., Dyer, C., He, X., Smola, A. J., & Hovy, E. H. (2016). Hierarchical attention networks for document classification. In Proceedings of HLT-NAACL (pp. 1480–1489). http://aclweb.org/anthology/N16-1174.