Phương Pháp Xây Dựng Tự Động Các Bộ Sưu Tập Đào Tạo cho Nhiệm Vụ Tóm Tắt Trừu Tượng Các Bài Báo Tin Tức

Pattern Recognition and Image Analysis - Tập 33 - Trang 255-267 - 2023
D. I. Chernyshev1, B. V. Dobrov1
1Lomonosov Moscow State University, Moscow, Russian Federation

Tóm tắt

Việc tạo ra một bộ sưu tập các ví dụ để đào tạo các hệ thống tóm tắt trừu tượng là một quá trình tốn kém do chi phí thời gian cao và yêu cầu cao về trình độ của các chuyên gia cần thiết để viết các tóm tắt chất lượng cao. Một phương pháp mới để tạo ra các bộ sưu tập nhằm đào tạo các phương pháp tóm tắt bằng mạng nơ-ron được đề xuất - ClusterVote, được thiết kế để mô phỏng các đặc điểm của nhiệm vụ bằng cách xem xét thông tin trong các tài liệu liên quan. Phương pháp này có thể được sử dụng để hình thành các tóm tắt trừu tượng với nhiều mức độ chi tiết khác nhau, cũng như để thu được các tóm tắt trích xuất. Sử dụng phương pháp ClusterVote, một bộ sưu tập mới đã được hình thành bằng tiếng Anh và tiếng Nga nhằm đào tạo các hệ thống tóm tắt bài báo tin tức - Telegram NewsCV. Kết quả thử nghiệm cho thấy, dưới một số tham số nhất định, các bộ sưu tập được hình thành bởi ClusterVote có các đặc điểm trích xuất tương tự với các tập dữ liệu nổi tiếng như CNN/Daily Mail và đồng thời có các chỉ số "tính xác thực" - sự tái hiện trong các tóm tắt các thực thể được nêu tên trong văn bản nguồn, cũng như các mối quan hệ của chúng.

Từ khóa

#tóm tắt trừu tượng #tóm tắt tự động #phương pháp ClusterVote #hệ thống tóm tắt bài báo #tập dữ liệu CNN/Daily Mail

Tài liệu tham khảo

Z. Cao, F. Wei, W. Li, and S. Li, “Faithful to the Original: Fact Aware Neural Abstractive Summarization,” Proc. AAAI Conf. Artif. Intell. 32 (1) (2018). https://doi.org/10.1609/aaai.v32i1.11912 D. Chernyshev and B. Dobrov, “Abstractive summarization of Russian news learning on quality media,” in Analysis of Images, Social Networks and Texts. AIST 2020, Lecture Notes in Computer Science, Vol. 12602 (Springer, Cham, 2020), pp. 96–104. https://doi.org/10.1007/978-3-030-72610-2_7 D. Chernyshev and B. Dobrov, “Improving neural abstractive summarization with reliable sentence sampling,” in Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2021, Ed. by A. Pozanenko, S. Stupnikov, B. Thalheim, E. Mendez, and N. Kiselyova, Communications in Computer and Information Science, Vol. 1620 (Springer, Cham, 2022), pp. 246–261. https://doi.org/10.1007/978-3-031-12285-9_16 J. Devlin, M. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” in Proc. 2019 Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minn., 2019 (Association for Computational Linguistics, 2019), Vol. 1, pp. 4171–4186. https://doi.org/10.18653/v1/N19-1423 W. S. El-Kassas, C. R. Salama, A. A. Rafea, and H. K. Mohamed, “Automatic text summarization: A comprehensive survey,” Expert Syst. Appl. 165, 113679 (2021). https://doi.org/10.1016/j.eswa.2020.113679 M. Ester, H. Kriegel, J. Sander, and X. Xu, “A density-based algorithm for discovering clusters in large spatial databases with noise,” in Proc. Second Int. Conf. on Knowledge Discovery and Data Mining (KDD’96) (1996). B. Goodrich, V. Rao, P. J. Liu, and M. Saleh, “Assessing the factual accuracy of generated text,” in Proc. 25th ACM SIGKDD Int. Conf. on Knowledge Discovery & Data Mining, Anchorage, Alaska, 2019 (Association for Computing Machinery, New York, 2019), pp. 166–175. https://doi.org/10.1145/3292500.3330955 M. Grusky, M. Naaman, and Yo. Artzi, “Newsroom: A dataset of 1.3 million summaries with diverse extractive strategies,” in Proc. 2018 Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, New Orleans, 2018 (Association for Computational Linguistics, 2018), Vol. 1, pp. 708–719. https://doi.org/10.18653/v1/n18-1065 S. Gupta and S. K. Gupta, “Abstractive summarization: An overview of the state of the art,” Expert Syst. Appl. 121, 49–65 (2019). https://doi.org/10.1016/j.eswa.2018.12.011 E. Günes and D. R. Radev, “LexRank: Graph-based lexical centrality as salience in text summarization,” J. Artif. Intell. Res. 22, 457–479 (2004). https://doi.org/10.1613/jair.1523 I. Gusev, “Dataset for automatic summarization of Russian news,” in Artificial Intelligence and Natural Language. AINL 2020, Ed. by A. Filchenkov, J. Kauttonen, and L. Pivovarova, Communications in Computer and Information Science, Vol. 1292 (Springer, Cham, 2020), pp. 122–134. https://doi.org/10.1007/978-3-030-59082-6_9 T. Hasan, A. Bhattacharjee, Md. S. Islam, K. Mubasshir, Yu. Li, Yo. Kang, M. Rahman, and R. Shahriyar, “XL-Sum: Large-scale multilingual abstractive summarization for 44 languages,” in Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 (Association for Computational Linguistics, 2021), pp. 4693–4703. https://doi.org/10.18653/v1/2021.findings-acl.413 D. Kang and T. B. Hashimoto, “Improved natural language generation via loss truncation,” in Proc. 58th Annu. Meeting of the Assoc. for Computational Linguistics (Association for Computational Linguistics, 2020), pp. 718–731. https://doi.org/10.18653/v1/2020.acl-main.66 W. Kryściński, N. Rajani, D. Agarwal, C. Xiong, and D. Radev, “BookSum: A collection of datasets for long-form narrative summarization,” (2021). https://doi.org/10.48550/arXiv.2105.08209 M. Lewis, Yi. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, and L. Zettlemoyer, “BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension,” in Proc. 58th Annu. Meeting of the Association for Computational Linguistics (Association for Computational Linguistics, 2020), pp. 7871–7880. https://doi.org/10.18653/v1/2020.acl-main.703 C. Lin, “ROUGE: A package for automatic evaluation of summaries,” in Text Summarization Branches Out, Barcelona, 2004 (2004), pp. 74–81. https://aclanthology.org/W04-1013 C. Ma, W. E. Zhang, M. Guo, H. Wang, and Q. Z. Sheng, “Multi-document summarization via deep learning techniques: a survey,” ACM Comput. Surv. 55, 102 (2020). https://doi.org/10.1145/3529754 J. Maynez, S. Narayan, B. Bohnet, and R. McDonald, “On faithfulness and factuality in abstractive summarization,” in Proc. 58th Annu. Meeting of the Association for Computational Linguistics (Association for Computational Linguistics, 2020), pp. 1906–1919. https://doi.org/10.18653/v1/2020.acl-main.173 R. Mihalcea and P. Tarau, “TextRank: Bringing order into texts,” in Proc. 2004 Conf. on Empirical Methods in Natural Language Processing, Barcelona, 2004 (2004), pp. 404–411. https://aclanthology.org/W04-3252. R. Nallapati, B. Zhou, C. Dos Santos, Ç. Gu̇lçehre, and B. Xiang, “Abstractive text summarization using sequence-to-sequence rnns and beyond,” in Proc. 20th SIGNLL Conf. on Computational Natural Language Learning, Berlin, 2016 (Association for Computational Linguistics, 2016), pp. 280–290. https://doi.org/10.18653/v1/k16-1028 S. Narayan, S. B. Cohen, and M. Lapata, “Don’t give me the details, just the summary! Topic-aware convolutional neural networks for extreme summarization,” in Proc. 2018 Conf. on Empirical Methods in Natural Language Processing, Brussels, 2018 (Association for Computational Linguistics, 2018), pp. 1797–1807. https://doi.org/10.18653/v1/d18-1206 A. Pagnoni, V. Balachandran, and Yu. Tsvetkov, “Understanding factuality in abstractive summarization with FRANK: a benchmark for factuality metrics,” in Proc. 2021 Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Association for Computational Linguistics, 2021), pp. 4812–4829. https://doi.org/10.18653/v1/2021.naacl-main.383 C. Raffel, N. Shazeer, A. Roberts, K. Lee, Sh. Narang, M. Matena, Ya. Zhou, W. Li, and P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” J. Mach. Learn. Res. 21, 5485–5551 (2019). E. Sandhaus, The New York Times Annotated Corpus (Linguistic Data Consortium, New York, 2008). https://doi.org/10.35111/77ba-9x74 T. Scialom, P. Dray, S. Lamprier, B. Piwowarski, and J. Staiano, “MLSUM: The Multilingual Summarization Corpus,” in Proc. 2020 Conf. on Empirical Methods in Natural Language Processing (EMNLP) (Association for Computational Linguistics, 2020), pp. 8051–8067. https://doi.org/10.18653/v1/2020.emnlp-main.647 A. See, P. J. Liu, and C. D. Manning, “Get to the point: Summarization with pointer-generator networks,” in Proc. 55th Annu. Meeting of the Association for Computational Linguistics, Vancouver, 2017 (Association for Computational Linguistics, 2017), Vol. 1, pp. 1073–1083. https://doi.org/10.18653/v1/p17-1099 P. Tejaswin, D. Naik, and P. Liu, “How well do you know your summarization datasets?,” in Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 (Association for Computational Linguistics, 2021), pp. 3436–3449. https://doi.org/10.18653/v1/2021.findings-acl.303 W. Xiao, I. Beltagy, G. Carenini, and A. Cohan, “PRIMERA: Pyramid-based masked sentence pre-training for multi-document summarization,” in Proc. 60th Annu. Meeting of the Association for Computational Linguistics, Dublin, 2022 (Association for Computational Linguistics, 2022), Vol. 1, pp. 5245–5263. https://doi.org/10.18653/v1/2022.acl-long.360 Z. Yang, C. Zhu, R. Gmyr, M. Zeng, X. Huang, and E. Darve, “TED: A pretrained unsupervised summarization model with theme modeling and denoising,” in Findings of the Association for Computational Linguistics: EMNLP 2020 (Association for Computational Linguistics, 2020), pp. 1865–1874. https://doi.org/10.18653/v1/2020.findings-emnlp.168 J. Zhang, Ya. Zhao, M. Saleh, and P. Liu, “{PEGASUS}: Pre-training with extracted gap-sentences for abstractive summarization,” in Proc. 37th Int. Conf. on Machine Learning, Ed. by H. Daumé and A. Singh, Proceedings of Machine Learning Research, Vol. 119 (PMLR, 2020), pp. 11328–11339. https://proceedings.mlr.press/v119/zhang20ae.html. T. Zhang, V. Kishore, and F. Wu, “BERTScore: Evaluating text generation with BERT,” in Int. Conf. on Learning Representations (2020). https://openreview.net/forum?id=SkeHuCVFDr.