VNDS: Tập dữ liệu Tiếng Việt cho Tóm tắt

Van-Hau Nguyen1, Thanh-Chinh Nguyen2, Minh-Tien Nguyen1, Nguyen Xuan Hoai3
1Hung Yen University of Technology and Education, Vietnam
2AI Academy Vietnam, Hanoi, Vietnam
3Ho Chinh Minh University of Technolohgy (HUTECH), Ho Chi Minh, Vietnam

Tóm tắt

Chúng tôi đã chứng kiến nhiều phát triển và nghiên cứu thú vị trong lĩnh vực tóm tắt văn bản. Mặc dù nhiều phương pháp tóm tắt đã được nghiên cứu và áp dụng rộng rãi trong nhiều lĩnh vực tiếng Anh, nhưng lĩnh vực này vẫn còn ở giai đoạn đầu tại Việt Nam do số lượng tài liệu, hệ thống hạn chế, và sự thiếu hụt các tập dữ liệu chuẩn. Được truyền cảm hứng để góp phần tiến bộ trong nghiên cứu ngôn ngữ tiếng Việt, trước tiên trong bài báo này, chúng tôi tạo ra một tập dữ liệu tiêu chuẩn cho việc tóm tắt tài liệu. Theo như hiểu biết của chúng tôi, chúng tôi là những người đầu tiên công bố một cách chính thức tập dữ liệu lớn về tóm tắt. Thứ hai, chúng tôi tiến hành so sánh giữa các phương pháp tóm tắt trích xuất truyền thống và tiên tiến trên tập dữ liệu của chúng tôi. Chúng tôi tin tưởng mạnh mẽ rằng kết quả công trình của chúng tôi sẽ tạo điều kiện thuận lợi cho các nghiên cứu tóm tắt văn bản bằng tiếng Việt trong tương lai.

Từ khóa

#Text summarization #dataset #extraction #abstraction

Tài liệu tham khảo

10.1162/neco.1997.9.8.1735

10.3115/v1/D14-1181

nenkova, 2005, The impact of frequency on summarization, Microsoft Research Redmond Washington 101 Tech Rep

sripada, 2009, Summarization approaches based on document probability distributions, Proceedings of the 23rd Pacific Asia Conference on Language Information and Computation, 521

10.1109/KSE.2018.8573336

10.3115/1073445.1073465

10.18653/v1/D18-1443

10.18653/v1/P17-1099

10.18653/v1/P18-1063

10.18653/v1/P18-1061

10.18653/v1/D19-1387

10.1016/j.artmed.2004.07.017

10.1016/j.jbi.2014.06.009

nikolov, 2018, Data-driven summarization of scientific articles

mei, 2008, Generating impact-based summaries for scientific literature, 816

10.3115/1599081.1599168

nomoto, 2001, An experimental comparison of supervised and unsupervised approaches to text summarization, 630

10.1613/jair.1523

10.3115/v1/N15-1079

10.1145/383952.383955

10.3115/v1/P15-1153

shen, 2007, Document summarization using conditional random fields, Proceedings of the Twentieth International Joint Conference on Artificial Intelligence (IJCAI), 7, 2862

mihalcea, 2004, Textrank: Bringing order into texts, Proceedings of the Conference on Empirical Methods in Natural Language Processing, 404

banerjee, 2015, Multi-document abstractive summarization using ilp based multi-sentence compression, Twenty-Fourth International Joint Conference on Artificial Intelligence, 1208

10.18653/v1/P16-1046

10.3115/v1/P15-2136

woodsend, 2010, Automatic generation of story highlights, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 565

10.18653/v1/P17-1108

10.1147/rd.22.0159

tsarev, 2012, Supervised and unsupervised text classification via generic summarization

10.17485/ijst/2017/v10i17/106493

nomoto, 2001, An experimental comparison of super-vised and unsupervised approaches to text summarization, 630

hermann, 2015, Teaching machines to read and comprehend, Advances in neural information processing systems, 1693

nguyen, 2016, Vsolscsum: Building a vietnamese sentence-comment dataset for social context summarization, The 12th Workshop on Asian Language Resources, 38

nenkova, 2005, Automatic text summarization of newswire: lessons learned from the document understanding conference, AAAI, 5, 1436

nguyen, 2018, To-wards state-of-the-art baselines for vietnamese multi-document summarization, 10th International Conference on Knowledge and Systems Engineering (KSE), 85