Phát hiện cảm xúc trong văn bản trên mạng xã hội bằng bộ phân loại tập hợp mới dựa trên Ước lượng Parzen theo cấu trúc cây (TPE)

Neural Computing and Applications - Tập 31 - Trang 8971-8983 - 2019
Fereshteh Ghanbari-Adivi1, Mohammad Mosleh1
1Department of Computer Engineering, Dezful Branch, Islamic Azad University, Dezful, Iran

Tóm tắt

Các văn bản thường diễn đạt cảm xúc của người viết hoặc gây ra cảm xúc ở người đọc. Trong những năm gần đây, sự phát triển của các mạng xã hội đã làm cho việc phân tích cảm xúc trong văn bản trở thành một chủ đề thu hút cho nghiên cứu. Một hệ thống phân tích cảm xúc để tự động phát hiện các cảm xúc tinh tế trong văn bản bao gồm ba phần chính: tiền xử lý, trích xuất đặc trưng và phân loại. Mục tiêu chính của bài báo này là giới thiệu một bộ phân loại tập hợp mới bao gồm 1500 bộ phân loại cơ bản k-Nearest Neighbor, Mạng thần kinh đa lớp (Multilayer Perceptron) và Cây quyết định (Decision Tree), có khả năng phân biệt một cách hệ thống các cảm xúc tinh tế khác nhau giữa các câu thông thường và không thông thường với độ chính xác thích hợp. Hơn nữa, Ước lượng Parzen theo cấu trúc cây được sử dụng để tinh chỉnh các tham số của các bộ phân loại cơ bản. Các thao tác tiền xử lý và trích xuất đặc trưng được thực hiện bằng các công cụ xử lý ngôn ngữ tự nhiên (Phân tách từ và Lemmatization) và thuật toán Doc2Vector, tương ứng. Ba tập dữ liệu khác nhau ISEAR, OANC và CrowdFlower được sử dụng để đánh giá phương pháp đề xuất, bao gồm các câu thông thường và không thông thường. Các kết quả đánh giá cho thấy độ chính xác của bộ phân loại tập hợp đề xuất là 99.49% và 88.49% trong việc phát hiện các câu thông thường và không thông thường, tương ứng.

Từ khóa

#phân tích cảm xúc #phân loại #xử lý ngôn ngữ tự nhiên #mạng xã hội #cảm xúc tinh tế #ước lượng Parzen

Tài liệu tham khảo

Ekman P (1972) Universal and cultural differences in facial expression of emotion. In: Nebraska symposium on motivation, vol 19, pp 207–284 Colombetti G (2009) From affect programs to dynamical discrete emotions. Philos Psychol 22(4):407–425 Roseman IJ (1991) Appraisal determinants of discrete emotions. Cogn Emot 5(3):161–200 Ekman P (1992) An argument for basic emotions. Cogn Emot 6(3–4):169–200 Chaffar S, Inkpen D (2011) Using a heterogeneous dataset for emotion analysis in text. In: Canadian conference on artificial intelligence, pp 62–67 Perikos I, Hatzilygeroudis I (2016) Recognizing emotions in text using ensemble of classifiers. Eng Appl Artif Intell 51:191–201 Medhat W, Hassan A, Korashy H (2014) Sentiment analysis algorithms and applications: a survey. Ain Shams Eng J 5(4):1093–1113 De Marneffe M-C, MacCartney B, Manning CD (2006) Generating typed dependency parses from phrase structure parses. In: Proceedings of LREC, pp 449–454 Strapparava C, Valitutti A (2004) Wordnet affect: an affective extension of wordnet. In: Lrec, pp 1083–1086 Xuegong Z (2000) Introduction to statistical learning theory and support vector machines. Acta Autom Sin 26(1):32–42 Wu X et al (2008) Top 10 algorithms in data mining. Knowl Inf Syst 14(1):1–37 Murray AF (1995) Applications of neural networks. The University of Edinburgh UK: Springer, Boston, MA Rokach L, Maimon O (2005) Top-down induction of decision trees classifiers—a survey. IEEE Trans Syst Man Cybern Part C (Appl Rev) 35(4):476–487 Zhang Y, Jin R, Zhou Z-H (2012) Understanding bag-of-words model: a statistical framework. Int J Mach Learn Cybern 1(1–4):43–52 Mikolov T et al (2013) Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781 Le Q, Mikolov T (2014) Distributed representations of sentences and documents. In: International conference on machine learning, pp 1188–1196 Bergstra JS et al (2011) Algorithms for hyper-parameter optimization. In: Advances in neural information processing systems, pp 2546–2554 Hutter F, Hoos HH, Leyton-Brown K (2011) Sequential model-based optimization for general algorithm configuration. In: International conference on learning and intelligent optimization, pp 507–523 Zhao M, Li J (2018) Tuning the hyper-parameters of CMA-ES with tree-structured Parzen estimators. In: Tenth international conference on advanced computational intelligence (ICACI), pp 613–618 Hinz T et al (2018) Speeding up the hyperparameter optimization of deep convolutional neural networks. Int J Comput Intell Appl 17(2):1850008 Ilievski I et al (2017) Efficient hyperparameter optimization for deep learning algorithms using deterministic RBF surrogates. In: AAAI, pp 822–829 Madrigal F, Maurice C, Lerasle F (2019) Hyper-parameter optimization tools comparison for Multiple Object Tracking applications. Mach Vis Appl 30(2):269–289 Wang S et al (2018) A TPE based inversion of PROSAIL for estimating canopy biophysical and biochemical variables of oilseed rape. Comput Electron Agric 152:350–362 Jones DR (2001) A taxonomy of global optimization methods based on response surfaces. J Glob Optim 21(4):345–383 Quan C, Ren F (2010) Sentence emotion analysis and recognition based on emotion words using Ren-CECps. Int J Adv Intell 2(1):105–117 Balahur A, Hermida JM, Montoyo A (2011) Detecting implicit expressions of sentiment in text based on commonsense knowledge. In: Proceedings of the 2nd workshop on computational approaches to subjectivity and sentiment analysis, pp 53–60 Balahur A, Hermida JM, Montoyo A (2012) Building and exploiting emotinet, a knowledge base for emotion detection based on the appraisal theory model. IEEE Trans Affect Comput 3(1):88–101 Badugu S, Suhasini M (2017) Emotion detection on twitter data using knowledge base approach. Int J Comput Appl 162(10):975–978 Danisman T, Alpkocak A (2008) Feeler: emotion classification of text using vector space model. In: AISB 2008 convention communication, interaction and social intelligence, p 53 Quan C, Ren F (2016) Weighted high-order hidden Markov models for compound emotions recognition in text. Inf Sci 329:581–596 Webster JJ, Kit C (1992) Tokenization as the initial phase in NLP. In: Proceedings of the 14th conference on computational linguistics, vol 4, pp 1106–1110 Jivani AG (2011) A comparative study of stemming algorithms. Int J Comput Technol Appl 2(6):1930–1938 Efron B, Tibshirani RJ (1994) An introduction to the bootstrap. CRC Press, Boca Raton ISEAR, [online]. http://emotion-research.net/toolbox/toolboxdatabase.2006-10-13.2581092615. Accessed Sept 2017 Open American National Corpus, [online]. http://www.anc.org/data/masc. Accessed: Sept 2017 The Emotion in Text data set by CrowdFlower, [online]. https://www.crowdflower.com/wpcontent/uploads/2016/07/text_emotion.csv. Accessed Sept 2017