Phân tích cảm xúc của các bài đánh giá trực tuyến tiếng Trung sử dụng khung học tập tổ hợp

Springer Science and Business Media LLC - Tập 22 - Trang 3043-3058 - 2018
Jiafeng Huang1, Yun Xue1, Xiaohui Hu1, Huixia Jin2, Xin Lu1, Zhihuang Liu1
1School of Physics and Telecommunication Engineering, South China Normal University, Guangzhou, China
2College of Information and Electronic Engineering, Hunan City University, Yiyang, China

Tóm tắt

Các bài đánh giá trực tuyến không có cấu trúc đang trải qua sự mở rộng khá nhanh chóng với sự phát triển của thương mại điện tử, và chúng chứa thông tin cảm xúc mà cả người tiêu dùng và doanh nghiệp đều rất quan tâm. Vì vậy, phân loại cảm xúc hiệu quả đã trở thành một trong những chủ đề nghiên cứu quan trọng. Nhiều nghiên cứu đã chỉ ra rằng các phương pháp học tập tổ hợp có thể có khả năng ứng dụng tốt trong các nhiệm vụ phân loại cảm xúc. Trong bài báo này, chúng tôi đề xuất một khung học tập tổ hợp mới cho việc phân loại cảm xúc của các bài đánh giá trực tuyến tiếng Trung. Đầu tiên, dựa trên những đặc điểm phức tạp của các bài đánh giá trực tuyến tiếng Trung, chúng tôi trích xuất Mô hình Kết hợp Từ loại, Mô hình Chuỗi Từ Thường Xuyên và Mô hình Ma trận Con Bảo tồn Thứ tự như các đặc trưng đầu vào. Hơn nữa, chúng tôi sử dụng thuật toán Subspace Ngẫu nhiên dựa trên Lợi ích Thông tin bằng cách xem xét vấn đề lượng lớn đặc trưng trong các bài đánh giá, điều này có thể cải thiện các phân loại viên cơ sở đồng thời. Cuối cùng, chúng tôi áp dụng thuật toán Xây dựng Các phân loại viên cơ sở dựa trên Thuộc tính Sản phẩm để kết hợp thông tin cảm xúc của từng thuộc tính trong một bài đánh giá nhằm đạt được hiệu suất tốt hơn trong phân loại cảm xúc. Kết quả thử nghiệm cho thấy khung học tập tổ hợp được đề xuất đã có sự cải thiện đáng kể trong phân loại cảm xúc của các bài đánh giá trực tuyến tiếng Trung.

Từ khóa

#phân tích cảm xúc #đánh giá trực tuyến #học tập tổ hợp #phân loại cảm xúc #thương mại điện tử

Tài liệu tham khảo

Xu, R., Wong, K, Xia, Y.: Coarse-fine opinion mining-WIA in NTCIR-7 moat task. In: Proceedings of NTCIR-7 Workshop Meeting, pp. 307–313 (2008) Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up? Sentiment classification using machine learning techniques. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 79–86 (2002) Tan, S., Zhang, J.: An empirical study of sentiment analysis for chinese documents. Expert Syst. Appl. 34(4), 2622–2629 (2008) Liu, Y.: Computational Linguistics. Tsinghua University Press, Beijing (2002) Xia, R., Zong, C., Li, S.: Ensemble of feature sets and classification algorithms for sentiment classification. Inf. Sci. 181(6), 1138–1152 (2011) Sivic, J., Zisserman, A.: Efficient visual search of videos cast as text retrieval. IEEE Trans. Pattern Anal. Mach. Intell. 31(4), 591–606 (2009) Harris, Z.S.: Distributional structure. Word 10(2–3), 146–162 (1954) Ho, T.K.: The random subspace method for constructing decision forests. IEEE Trans. Pattern Anal. Mach. Intell. 20(8), 832–844 (1998) Yang, L.G., Zhu, J., Tian, S.P.: Survey of text sentiment analysis. J. Comput. Appl. 33, 1574–1607 (2013) Turney P.D.: Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In: Meeting on Association for Computational Linguistics. Association for Computational Linguistics, pp. 417–424 (2002) Hu, M., Liu, B.: Mining and summarizing customer reviews. In: Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 168–177 (2004) Salton, G., Yu, C.T.: On the Construction of Effective Vocabularies for Information Retrieval. ACM SIGIR Forum, pp. 48–60. ACM, New York (1973) Bengio, Y., Ducharme, R., Vincent, P., et al.: A neural probabilistic language model. J. Mach. Learn. Res. 3(6), 1137–1155 (2003) Mikolov, T., Chen K., Corrado G., et al.: Efficient estimation of word representations in vector space. In: Computer Science (2013) Gui, L., Zhou, Y., Xu, R., et al.: Learning representations from heterogeneous network for sentiment classification of product reviews. Knowl. Based Syst. 124, 34–45 (2017) Chen, T., Xu, R., He, Y., et al.: Improving sentiment analysis via sentence type classification using BiLSTM-CRF and CNN. Expert Syst. Appl. 72, 221–230 (2017) Polikar, R.: Ensemble based systems in decision making. IEEE Circ. Syst. Mag. 6(3), 21–44 (2006) Fang, D., Wang, G.: Text sentiment classification based on ensemble learning. Comput. Syst. Appl. 07, 177–181+248 (2012) Wu, C.C.: Sentiment classification method based on ensemble learning for Chinese micro-blog. Public Commun. Sci. Technol. 16, 235–236+192 (2014) Wang, G., Sun, J., Ma, J., et al.: Sentiment classification: the contribution of ensemble learning. Decis. Support Syst. 57(1), 77–93 (2004) Alnashwan, R., O’Riordan, A.P., Sorensen, H., et al.: Improving sentiment analysis through ensemble learning of meta-level features. In: KDWEB 2016: 2nd International Workshop on Knowledge Discovery on the Web. Sun SITE Central Europe (CEUR)/RWTH Aachen University, Aachen (2016) Deriu, J., Gonzenbach, M., Uzdilli F., et al.: SwissCheese at SemEval-2016 Task 4: sentiment classification using an ensemble of convolutional neural networks with distant supervision. In: SemEval@ NAACL-HLT, pp. 1124–1128 (2006) Liu, H.Y., Zhao, Y.Y., Qin, B, et al.: Comment target extraction and sentiment classification. J. Chin. Inf. Process. 01, 84–88+122 (2010) Gao, L., Dai, X.Y., Huang, S.J., et al.: Product attribute extraction based on feature selection and pointwise mutual information pruning. Pattern Recog. Artif. Intell. 02, 187–192 (2015) Matsumoto, S., Takamura, H., Okumura, M.: Sentiment classification using word sub-sequences and dependency sub-trees. In: Advances in Knowledge Discovery and Data Mining, pp. 301–311 (2005) Pei, J., Han, J., Mortazavi-Asl, B., et al.: Mining sequential patterns by pattern-growth: the prefixspan approach. IEEE Trans. Knowl. Data Eng. 16(11), 1424–1440 (2004) Liu, Z., Xue, Y., Li, M., et al.: Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining. Int. J. Data Mining Bioinform. 17, 217–237 (2017) Dietterich, T.G.: An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization. Mach. Learn. 40(2), 139–157 (2000) Agrawal, R., Srikant, R.: Mining Sequential Patterns. ICDE, vol. 3. IEEE Computer Society, Washington, DC (1995) Hu, M., Liu, B.: Opinion feature extraction using class sequential rules. In: AAAI Spring Symposium, pp. 61–66 (2006) Li, J., Sun M.: Experimental study on sentiment classification of Chinese review using machine learning techniques. In: International Conference on Natural Language Processing and Knowledge Engineering, 2007. NLP-KE 2007, vol. 2007, pp. 393–400. IEEE (2007) Liu, Y., Chen, F., Kong, W., et al.: Identifying web spam with the wisdom of the crowds. ACM Trans. Web (TWEB) 6(1), 1–30 (2012) Pedregosa, F., Varoquaux, G., Gramfort, A., et al.: Scikit-learn: machine learning in python. J. Mach. Learn. Res. 12, 2825–2830 (2011) Witten, I.H., Frank, E., Hall, M.A.: Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers, Burlington (2011) Abadi, M., Agarwal, A., Barham, P., et al.: Tensorflow: large-scale machine learning on heterogeneous distributed systems. arXiv preprint. arXiv:1603.04467 (2016) Dong, Z., Dong, Q.: HowNet—a hybrid language and knowledge resource. In: Proceedings of the 2003 International Conference on Natural Language Processing and Knowledge Engineering, 2003, pp. 820–824. IEEE (2003) Yuan, B., Liu, Y., Li, H.: Sentiment classification in Chinese microblogs: lexicon-based and learning-based approaches. Int. Proc. Econ. Dev. Res. 68, 1 (2013)