Khai thác Các Tweet của Người Bản Địa: Tập hợp Tài liệu Twitter Reo Māori

Springer Science and Business Media LLC - Tập 56 - Trang 1229-1268 - 2022
David Trye1, Te Taka Keegan1, Paora Mato2, Mark Apperley1
1School of Computing and Mathematical Sciences, University of Waikato, Hamilton, New Zealand
2Faculty of Māori and Indigenous Studies, University of Waikato, Hamilton, New Zealand

Tóm tắt

Te reo Māori, ngôn ngữ bản địa của Aotearoa New Zealand, là một đặc điểm nổi bật của di sản văn hóa của quốc gia này. Bài báo này ghi lại những nỗ lực của chúng tôi để xây dựng một tập hợp dữ liệu gồm 79.000 tweet bằng tiếng Māori sử dụng các phương pháp tính toán. Tập hợp Tài liệu Twitter Reo Māori (RMT) được tạo ra bằng cách nhắm đến các người dùng tiếng Māori được xác định bởi trang web Indigenous Tweets, tiền xử lý dữ liệu của họ và lọc bỏ các tweet không phải tiếng Māori, cùng với các nguồn nhiễu khác. Động lực để tạo ra tài nguyên này của chúng tôi gồm ba điểm: (1) nó phục vụ như một bộ dữ liệu phong phú và độc đáo cho phân tích ngôn ngữ của te reo Māori trên mạng xã hội; (2) nó có thể được sử dụng làm dữ liệu huấn luyện để phát triển và bổ sung các công cụ Xử lý Ngôn ngữ Tự nhiên (NLP) với các ứng dụng tiếng Māori thực tế mạnh mẽ; và (3) nó có khả năng thúc đẩy nhận thức và khuyến khích sự tương tác tích cực với cộng đồng ngày càng phát triển của những người tweet tiếng Māori, từ đó tăng cường việc sử dụng và sự hiện diện của te reo Māori trong môi trường trực tuyến. Mặc dù tập hợp dữ liệu này thu thập thông tin từ năm 2007 đến 2020, phân tích của chúng tôi cho thấy số lượng tweet trong Tập hợp RMT đã đạt đỉnh vào năm 2014, và số lượng người tweet hoạt động đạt đỉnh vào năm 2017, mặc dù ít nhất 600 người dùng vẫn hoạt động trong năm 2020. Theo như chúng tôi biết, Tập hợp RMT là bộ sưu tập dữ liệu mạng xã hội lớn nhất có sẵn công khai chứa (hầu như) toàn bộ văn bản bằng tiếng Māori, biến nó trở thành một tài nguyên hữu ích cho các chuyên gia ngôn ngữ, các nhà phát triển NLP và các nhà nghiên cứu bản địa.

Từ khóa

#Te reo Māori #Twitter #ngôn ngữ bản địa #xử lý ngôn ngữ tự nhiên #Aotearoa New Zealand

Tài liệu tham khảo

Apperley, M., Keegan, T., Cunningham, S. J., & Witten, I. H. (2002). Delivering the Maori-Language Newspapers on the Internet. In J. Curnow, N. Hopa, & J. McRae (Eds.), Rere atu, taku manu! Discovering history, language & politics in the Maori-language newspapers (pp. 211–232). Auckland University Press. Bender, E. M., Hovy, D., & Schofield, A. (2020). Integrating ethics into the NLP curriculum. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Tutorial Abstracts (pp. 6–9). https://doi.org/10.18653/v1/2020.acl-tutorials.2. Bender, E. M. (2019). The #BenderRule: On naming the languages we study and why it matters. The Gradient. https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/. Bird, S. (2020). Decolonising speech and language technology. In Proceedings of the 28th International Conference on Computational Linguistics (pp. 3504–3519). https://doi.org/10.18653/v1/2020.coling-main.313. Bloem, J., Versloot, A., & Weerman, F. (2019). Modeling a historical variety of a low-resource language: Language contact effects in the verbal cluster of Early-Modern Frisian. In Proceedings of the 1st International Workshop on Computational Approaches to Historical Language Change (pp. 265–271). https://doi.org/10.18653/v1/W19-4733. Boot, A. B., Sang, E. T. K., Dijkstra, K., & Zwaan, R. A. (2019). How character limit affects language usage in tweets. Palgrave Communications, 5(1), 1–13. https://doi.org/10.1057/s41599-019-0280-3 Boyce, M. T. (2006). A corpus of modern spoken Māori. Unpublished PhD thesis available in the library at Victoria University of Wellington. Boyce, M. (2011). Mana aha? Exploring the use of mana in the Legal Māori Corpus. Victoria University of Wellington Law Review, 42(2), 221–240. https://doi.org/10.26686/vuwlr.v42i2.5136 Cassels, M. (2019). Indigenous languages in new media: Opportunities and challenges for language revitalization. Working Papers of the Linguistics Circle, 29(1), 25–43. Coto Solano, R., Nicholas, S.A., & Wray, S. (2018). Development of natural language processing tools for Cook Islands Māori. In Proceedings of Australasian Language Technology Association Workshop (pp. 26–33). https://aclanthology.org/U18-1003. Cunliffe, D., Morris, D., & Prys, C. (2013). Investigating the differential use of Welsh in young speakers’ social networks: A comparison of communication in face-to-face settings, in electronic texts and on social networking sites. In E. H. G. Jones & E. Uribe-Jongbloed (Eds.), Social media and minority languages: Convergence and the creative industries (pp. 75–86). Multilingual Matters. El-Haj, M., Kruschwitz, U., & Fox, C. (2015). Creating language resources for under-resourced languages: Methodologies, and experiments with Arabic. Language Resources and Evaluation, 49(3), 549–580. https://doi.org/10.1007/s10579-014-9274-3 Finn, A. (2021). Whakairo Kupu: Te Reo Māori Part-of-Speech Tagger. [Conference presentation]. Māori Speech Hui, University of Auckland, Auckland Giles, H., Bourhis, R. Y., & Taylor, D. M. (1977). Towards a theory of language in ethnic group relations. In H. Giles (Ed.), Language, ethnicity and intergroup relations (pp. 307–348). Academic Press. Grey, S. G. (1928). Ngā mahi a ngā tūpuna (3rd edn.). Hardie, A. (2014). Log ratio—an informal introduction. Corpus Approaches to Social Science. Retrieved from http://cass.lancs.ac.uk/log-ratio-an-informal-introduction/. Harlow, R. (2007). Māori: A linguistic introduction. Cambridge University Press. https://doi.org/10.1017/CBO9780511618697 Harlow, R. (2001). A Māori reference grammar. Longman. Harlow, R. B., & Barbour, J. (2013). Māori in the 21st Century: Climate change for a minority language? In W. Vandenbussche, E. H. Jahr, & P. Trudgill (Eds.), Language ecology for the 21st Century: Linguistic conflicts and social environments (pp. 241–266). Novus Press. Innes, F. (2021). Online typing assistance for te reo Māori. [Honours Dissertation, The University of Waikato]. James, J., Shields, I., Berriman, R., Keegan, P. J., & Watson, C. I. (2020). Developing resources for te reo Māori text to speech synthesis system. In International Conference on Text, Speech, and Dialogue (pp. 294–302). Springer, Cham. Doi:https://doi.org/10.1007/978-3-030-58323-1_32. Jones, D. B., Robertson, P., & Taborda, A. (2015). Corpus of Welsh Language Tweets. Welsh National Language Technologies Portal. Retrieved from http://techiaith.org/corpora/twitter/?lang=en. Ka‘ai, T. (2017). Te Whare Matihiko o Te Reo-digital tools for the revitalisation of te reo Māori. In H. Whaanga, T. T. Keegan, & M. Apperley (eds.), He whare hangarau Māori-language, culture & technology (pp. 29–34). Te Pua Wānanga ki te Ao/Faculty of Māori and Indigenous Studies, Te Whare Wānanga o Waikato/University of Waikato. https://www.waikato.ac.nz/__data/assets/pdf_file/0007/394918/chapter5.pdf Ka‘ai, T., Ó Laoire, M. & Ostler, N. (2012). Language endangerment in the contemporary world: Globalisation, technology and new media. In T. Ka‘ai, M. O Laoire, N. Ostler, R. Ka‘aiMahuta, D. Mahuta, & T. Smith (Eds.), Language Endangerment in the 21st Century: Globalisation, Technology and New Media (pp. 1–4). Auckland, New Zealand: Foundation for Endangered Languages & Te Ipukarea - The National Maori Language Institute, AUT University. Keegan, T. T. A. G., & Cunliffe, D. (2014). Young people, technology and the future of te Reo Māori. In R. Higgins, P. Rewi, & V. Olsen-Reeder (Eds.), The value of the Māori language: Te Hua o te Reo Māori (pp. 385–398). Huia Publishers. Keegan, T. T., Hudson, M., & Mahelona, K. (2021). Data Sovereignty. [Conference presentation]. Language and Society Conference 2020, University of Waikato. Retrieved from https://www.youtube.com/watch?v=sOps3_tEXGE&list=PLp619EeWvHk7OQkGqVsfhcoB744wsSDLb&index=6 Keegan, T. T., Mato, P., & Ruru, S. (2015). Using Twitter in an Indigenous language: An analysis of Te Reo Māori tweets. AlterNative, 11(1), 59–75. https://doi.org/10.1177/117718011501100105 King, B. P. (2015). Practical natural language processing for low-resource languages. Ph.D. thesis, University of Michigan. https://hdl.handle.net/2027.42/113373 King, J. (2018). Māori: revitalization of an endangered language. In K. L. Rehg & L. Campbell (Eds.), The Oxford handbook of endangered languages (pp. 592–612). Oxford University Press. King, J., Maclagan, M., Harlow, R., Keegan, P., & Watson, C. (2010). The MAONZE Corpus: Establishing a corpus of Maori speech. New Zealand Studies in Applied Linguistics, 16(2), 1–16. Kukutai, T., & Taylor, J. (2016). Indigenous data sovereignty: Toward an agenda. ANU Press. Lynn, T., & Scannell, K. (2019). Code-switching in Irish tweets: A preliminary analysis. In Proceedings of the Celtic Language Technology Workshop (pp. 32–40). https://aclanthology.org/W19-6905. Mato, P., & Keegan, T. T. (2013). Indigenous tweeting for language survival: The Māori-language profile. International Journal of Technology and Inclusive Education, 2(2), 184–191. Maxwell, M., & Hughes, B. (2006). Frontiers in linguistic annotation for lower-density languages. In Proceedings of the COLING/ACL 2006 Workshop on Frontiers in Linguistically Annotated Corpora. Association for Computational Linguistics. https://aclanthology.org/W06-0605. May, S., & Hill, R. (2018). Language revitalization in Aotearoa/New Zealand. In The Routledge handbook of language revitalization (pp. 309–319). Routledge. McCreadie, R., Soboroff, I., Lin, J., Macdonald, C., Ounis, I., & McCullough, D. (2012). On building a reusable twitter corpus. In Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval (pp. 1113–1114). Doi: https://doi.org/10.1145/2348283.2348495 Meyerhoff, M. (2019). Introducing sociolinguistics. Routledge. https://doi.org/10.4324/9780203966709 Moses, C., Thompson, M., Mahelona, K., & Jones, P-L. (2020). Scoring pronunciation accuracy via close introspection of a speech recognition recurrent neural network [Poster session]. NeurIPS 2020. Retrieved from https://papareo.nz/docs/PapaReo_NeurIPS2020_Poster.pdf Scannell, K. P. (2007). The Crúbadán Project: Corpus building for under-resourced languages. In Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop (Vol. 4, pp. 5–15). Scannell, K. P. (In Press). Managing data from social media: the Indigenous tweets project. In A. L. Berez-Kroeker, B. McDonnell, E. Koller, & L. B. Collister (Eds.), The Open Handbook of Linguistic Data Management. MIT Press. Sciascia, A. D. (2016). Māori cultural revitalisation in social networking sites. A paper prepared for Te Puni Kōkiri. Retrieved from https://www.tpk.govt.nz/en/a-matou-mohiotanga/culture/maori-cultural-revitalisation-in-social-media. Shields, I., Watson, C., Keegan, P., Berriman, R., & James, J. (2019). Creating a synthetic te reo Māori voice. In International Conference on Language Technology for All. Paris. https://lt4all.org/media/papers/P1/136.pdf. Te Taura Whiri i te reo Mäori. (2012). Guidelines for Māori language orthography. Retrieved from https://www.tetaurawhiri.govt.nz/assets/Uploads/Corporate-docs/Orthographic-conventions/58e52e80e9/Guidelines-for-Maori-Language-Orthography.pdf. Trye, D., Calude A., Bravo-Marquez, F., Keegan T. T. (2019). Māori loanwords: A corpus of New Zealand English tweets. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, pp. 136–142. Florence: Association for Computational Linguistics. Doi:https://doi.org/10.18653/v1/P19-2018 Trye, D., Calude, A. S., Bravo-Marquez, F., & Keegan, T. T. (2020). Hybrid hashtags: #YouKnowYoureAKiwiWhen your tweet contains Maori and English Front. Artificial Intelligence, 3, 15. Verhoeven, B., Daelemans, W., & Plank, B. (2016). Twisty: a multilingual twitter stylometry corpus for gender and personality profiling. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 1632–1637). https://aclanthology.org/L16-1258/ Waitangi Tribunal. (1986). Report of the Waitangi Tribunal on The Te Reo Māori Claim. Retrieved from https://forms.justice.govt.nz/search/Documents/WT/wt_DOC_68482156/Report%20on%20the%20Te%20Reo%20Maori%20Claim%20W.pdf. Waitoa, J., Scheyvens, R., & Warren, T. R. (2015). E-Whanaungatanga: The role of social media in Māori political empowerment. AlterNative, 11(1), 45–58. https://doi.org/10.1177/117718011501100104 Whaanga, H. (2020). AI: a new (r)evolution or the new colonizer for indigenous peoples. In J. Lewis (Ed.), Position paper on Indigenous Protocol and Artificial Intelligence (pp. 34–38). The Initiative for Indigenous Futures and the Canadian Institute for Advanced Research (CIFAR). Zaghouani, W., & Charfi, A. (2018). Arap-Tweet: A large multi-dialect Twitter corpus for gender, age and language variety identification. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). https://aclanthology.org/L18-1111. Zuckermann, G. A. (2020). Revivalistics: From the genesis of Israeli to language reclamation in Australia and beyond. Oxford University Press. https://doi.org/10.1093/oso/9780199812776.001.0001