Phân tích khám phá các danh mục ngữ nghĩa: so sánh giữa phán đoán tương đồng dựa trên dữ liệu và phán đoán của con người

Springer Science and Business Media LLC - Tập 1 - Trang 1-25 - 2015
Tiina Lindh-Knuutila1,2, Timo Honkela3,4,2
1Aalto University, Department of Neuroscience and Biomedical Engineering, AALTO, Finland
2Aalto University, Department of Information and Computer Science, AALTO, Finland
3University of Helsinki, Department of Modern Languages, Helsinki, Finland
4Center for Preservation and Digitisation, National Library of Finland, Mikkeli, Finland

Tóm tắt

Trong bài báo này, các biểu diễn ngữ nghĩa được tự động tạo ra và được chế tác thủ công được so sánh. Sự so sánh diễn ra dưới giả định rằng không có cái nào có vị thế chủ yếu hơn cái khác. Trong khi các nguồn lực ngôn ngữ có thể được sử dụng để đánh giá kết quả của các quy trình tự động, các phương pháp dựa trên dữ liệu hữu ích trong việc đánh giá chất lượng hoặc cải thiện độ bao phủ của các nguồn lực ngữ nghĩa được tạo ra bằng tay. Chúng tôi áp dụng hai phương pháp học không giám sát, Phân tích Thành phần Độc lập (ICA), và mô hình chủ đề xác suất ở cấp độ từ sử dụng Phân bổ Dirichlet Tiềm ẩn (LDA) để tạo ra các biểu diễn ngữ nghĩa từ một tập hợp văn bản lớn. Chúng tôi tiếp tục so sánh các kết quả đạt được với hai từ điển được gán nhãn ngữ nghĩa. Ngoài ra, chúng tôi sử dụng Bản đồ Tự tổ chức để hình dung các biểu diễn đạt được. Chúng tôi cho thấy rằng cả hai phương pháp tìm thấy một lượng thông tin phân loại đáng kể một cách không giám sát. Ngoài việc chỉ tìm các nhóm từ tương tự, chúng có thể tự động tìm ra một số đặc điểm đặc trưng cho các từ. Các phương pháp không giám sát cũng được sử dụng trong khám phá. Chúng cung cấp các phát hiện vượt ra ngoài các tập nhãn đã được xác định bằng tay. Ngoài ra, chúng tôi chứng minh cách hình dung của Bản đồ Tự tổ chức có thể được sử dụng trong khám phá và phân tích thêm. Bài báo này so sánh các phương pháp học không giám sát và các từ điển được gán nhãn ngữ nghĩa. Chúng tôi cho thấy rằng các phương pháp này có thể tìm thấy thông tin phân loại. Ngoài ra, chúng cũng có thể được sử dụng trong phân tích khám phá. Nói chung, các phương pháp được thúc đẩy bởi lý thuyết thông tin và xác suất cung cấp các kết quả ở mức độ tương đương. Hơn nữa, các phương pháp tự động và phân loại của con người cung cấp một cách tiếp cận phân loại ngữ nghĩa bổ sung cho nhau. Các phương pháp dựa trên dữ liệu cũng có thể tiết kiệm chi phí và thích ứng với một lĩnh vực cụ thể thông qua việc lựa chọn tập dữ liệu phù hợp.

Từ khóa


Tài liệu tham khảo

Alhoniemi, E, Himberg, J, Parhankangas, J, Vesanto, J (2005). SOM toolbox for matlab. http://www.cis.hut.fi/projects/somtoolbox/. Accessed 1.8.2013. Almuhareb, A. (2006). Attributes in Lexical Acquisition. PhD thesis,University of Essex. Baroni, M, & Lenci, A (2011). How we BLESSed distributional semantic evaluation. In: Pado, S, & Peirsman, Y (Eds.) In Proc. of EMNLP 2012, Geometrical Models for Natural Language Semantics (GEMS 2011) Workshop. Association for Computational Linguistics, (ACL), Stroudsburg, PA, (pp. 1–10). Baroni, M, Evert, S, Lenci, A. (2008). Bridging the Gap between Semantic Theory and Computational Simulations: Proceedings of the ESSLLI Workshop on Distributional Lexical Semantics. Hamburg: Association of Logic, Language and Information (FoLLI). Baroni, M, Barbu, E, Murphy, B, Poesio, M (2010). Strudel: A distributional semantic model based on properties and types. Cognitive Science, 34(2), 222–254. Bates, MJ (1986). Subject access in online catalogs: A design model. Journal of the American society for information science, 37(6), 357–376. Battig, WF, & Montague, WE (1969). Category norms for verbal items in 56 categories: A replication and extension of the Connecticut category norms. Journal of Experimental Psychology Monograph, 80(3, part 2.), 1–45. Beckner, C, Blythe, R, Bybee, J, Christiansen, MH, Croft, W, Ellis, NC, Holland, J, Ke, J, Larsen-Freeman, D, Schoenemann, T (2009). Language is a complex adaptive system. Language learning, 59(s1), 1–26. Blei, DM, Ng, AY, Jordan, MI (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993–1022. Brody, S, & Lapata, M (2009). Bayesian word sense induction. In Proceedings of the 12th conference of the European Chapter of the ACL. Association for Computational Linguistics, Stroudsburg, PA, (pp. 103–111). Bullinaria, JA (2012). Semantic category set. http://www.cs.bham.ac.uk/~jxb/Corpus/semcat.txt. Accessed March 8, 2012. Bullinaria, JA, & Levy, JP (2007). Extracting semantic representations from word co-occurrence statistics: A computational study. Behavior Research Methods, 39, 510–526. Bullinaria, JA, & Levy, JP (2012). Extracting semantic representations from word co-occurrence statistics: Stop-lists, stemming and SVD. Behavior Research Methods, 44, 890–907. Caramazza, A, Hersh, H, Torgerson, WS (1976). Subjective structures and operations in semantic memory. Journal of verbal learning and verbal behavior, 15(1), 103–117. Chen, H (1994). Collaborative systems: solving the vocabulary problem. Computer, 27(5), 58–66. Chrupała, G (2011). Efficient induction of probabilistic word classes with LDA. In Proceedings of 5th International Joint Conference of Natural Language Processing. Asian Federation of Natural Language Processing, Chiang Mai, Thailand, (pp. 363–372). Comon, P (1994). Independent component analysis—a new concept?Signal Processing, 36, 287–314. Cruse, DA. (1986). Lexical semantics. Cambridge, UK: Cambridge University Press. Deerwester, S, Dumais, ST, Furnas, GW, Landauer, TK, Harshman, R (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6), 391–407. Dinu, G, & Lapata, M (2010). Measuring distributional similarity in context. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. MIT, Mass, Association for Computational Linguistics, Stroudsburg, PA, (pp. 162–1172). Erk, K (2012). Vector space models of word meaning and phrase meaning: A survey. Language and Linguistics Compass, 6(10), 635–653. Erk, K, & Padó, S (2008). A structured vector space model for word meaning in context. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Stroudsburg, PA, (pp. 897–906). Goddard, C, & Wierzbicka, A. (2002). Meaning and universal grammar: Theory and empirical findings, volume 1. Philadelphia, PA: John Benjamins Publishing. Goldstone, RL (1994). The role of similarity in categorization: Providing a groundwork. Cognition, 52, 125–157. Haspelmath, M (2007). Pre-established categories don’t exist: Consequences for language description and typology. Linguistic Typology, 11(1), 119–132. Hofmann, T (1999). Probabilistic latent semantic indexing. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, New York, NY, (pp. 50–57). Honkela, T (1998). Learning to understand - general aspects of using self-organizing maps in natural language processing. In AIP Conference Proceedings, volume 437. American Institute of Physics (AIP), Liege, Belgium, (pp. 563–576). Honkela, T, Pulkki, V, Kohonen, T (1995). Contextual relations of words in Grimm tales, analyzed by self-organizing map. In Proc. of ICANN’95, volume II,. EC2 & Cie, Paris, France, (pp. 3–7). Honkela, T, Hyvärinen, A, Väyrynen, JJ (2010). WordICA — emergence of linguistic representations for words by independent component analysis. Natural Language Engineering, 16, 277–308. Honkela, T, Raitio, J, Lagus, K, Nieminen, IT, Honkela, N, Pantzar, M (2012). Proceedings of IJCNN 2012 International Joint Conference on Neural Networks. IEEE, (Institute of Electrical and Electronics Engineers), (pp. 2875–2883). Hyvärinen, A, & Oja, E (1997). A fast fixed-point algorithm for independent component analysis. Neural Computation, 9(7), 1483–1492. ISSN 0899-7667. Hyvärinen, A, Karhunen, J, Oja, E. (2001). Independent component analysis. New York, NY: John Wiley & Sons. Johnston, RJ (1968). Choice in classification: the subjectivity of objective methods. Annals of the Association of American Geographers, 58(3), 575–589. Kohonen, T. (2001). Self-Organizing maps. Heidelberg: Springer. Kohonen, T, & Honkela, T (2007). Kohonen network. Scholarpedia, 2(1), 1568. Landauer, TK, & Dumais, ST (1997). A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge. Psychological Review, 104(2), 211–240. Lindh-Knuutila, T, & Honkela, T (2013). Exploratory text analysis: Data-driven versus human semantic similarity judgments. In Adaptive and Natural Computing Algorithms. Springer, Berlin Heidelberg, Germany, (pp. 428–437). Lindh-Knuutila, T, Väyrynen, J, Honkela, T (2012). Semantic analysis in word vector spaces with ICA and feature selection. In Proc. of The 11th Conference on Natural Language Processing (KONVENS). ÖGAI, Vienna, Austria, (pp. 98–107). Manning, CD, & Schütze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT press. McEnery, T. (2001). Corpus linguistics: An introduction. Edinburgh, UK: Edinburgh University Press. Miller, GA, & Charles, WG (1991). Contextual correlates of semantic similarity. Language and Cognitive Processes, 6(1), 1–28. Mitchell, TM, Shinkareva, SV, Carlson, A, Chang, K-M, Malave, VL, Mason, RA, Just, MA (2008). Predicting human brain activity associated with the meanings of nouns. Science, 320, 1191. Murphy, B, Talukdar, P, Mitchell, T (2012). Selecting corpus-semantic models for neurolinguistic decoding. In Proceedings of the First Joint Conference on Lexical and Computational Semantics (*SEM), SemEval ’12,. Association for Computational Linguistics, Montréal, Canada, (pp. 114–123). Niwa, Y, & Nitta, Y (1994). Co-occurrence vectors from corpora vs. distance vectors from dictionaries. In Proc. of COLING 1994. Association for Computational Linguistics, Stroudsburg, PA, (pp. 304–309). Rapp, R (2002). The computation of word associations: comparing syntagmatic and paradigmatic approaches. In Proceedings of the 19th international conference on Computational linguistics-Volume 1. Association for Computational Linguistics, Stroudsburg, PA, (pp. 1–7). Rauh, G. (2010). Syntactic categories: Their identification and description in linguistic theories. New York, NY: Oxford University Press. Ritter, H, & Kohonen, T (1989). Self-organizing semantic maps. Biological Cybernetics, 61, 241–254. Sahlgren, M. (2006). The Word-Space Model: using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces. PhD thesis,Stockholm University, Department of Linguistics. Schütze, H (1993). Word space. In Advances in Neural Information Processing Systems 5. Morgan Kaufmann, San Francisco, CA, (pp. 895–902). Schwering, A (2008). Approaches to semantic similarity measurement for geo-spatial data: A survey. Transactions in GIS, 12(1), 5–29. Seco, N, Veale, T, Hayes, J (2004). An intrinsic information content metric for semantic similarity in WordNet. In Proceedings of ECAI 2004. IOS Press, Amsterdam, the Netherlands, (pp. 1089–1090). Steyvers, M, & Griffiths, T (2007). Probabilistic topic models. Handbook of latent semantic analysis, 427(7), 424–440. Sudre, G, Pomerleau, D, Palatucci, M, Wehbe, L, Fyshe, A, Salmelin, R, Mitchell, T (2012). Tracking neural coding of perceptual and semantic features of concrete nouns. NeuroImage, 62(1), 451–463. Turney, PD, & Pantel, P (2000). From frequency to meaning: Vector space models of semantics. Journal of Artificial Intelligence Research, 37, 141–188. Van Overschelde, JP, Rawson, KA, Dunlosky, J (2004). Category norms: An update and expanded version of the Battig and Montague 1969 norms. Journal of Memory and Language, 50, 289–335. Venna, J, & Kaski, S (2006). Local multidimensional scaling. Neural Networks, 19(6), 889–899. Vesanto, J, Himberg, J, Alhoniemi, E, Parhankangas, J (1999). Self-organizing map in Matlab: The SOM toolbox. In Proceedings of the Matlab DSP conference, volume 99, (pp. 16–17). Wikimedia Project (2008). The English Wikipedia. http://dumps.wikimedia.org/enwiki. Accessed December 11, 2008. The October 2008 edition used to build the corpus is no longer available for download. Wilson, AT, & Chew, PA (2010). Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL, Los Angeles, California, (pp. 465–473).