Nhận diện sự kiện có thể giải thích

Imran Khan1, Kashif Ahmad2, Namra Gul3, Talhat Khan1, Nasir Ahmad1, Ala Al-Fuqaha4
1Department of Computer Systems Engineering, University of Engineering and Technology, Peshawar, Pakistan
2Department of Computer Science, Munster Technological University, Cork, Ireland
3School of Electrical Engineering and Computer Science (SEECS), National University of Sciences and Technology, Islamabad, Pakistan
4Hamad Bin Khalifa University, Doha, Qatar

Tóm tắt

Tài liệu cho thấy khả năng nổi bật của Mạng Nơ-ron Tích chập (CNN) trong việc nhận diện sự kiện trong hình ảnh. Tuy nhiên, có rất ít nỗ lực được thực hiện để phân tích những nguyên nhân tiềm tàng đứng sau các quyết định của các mô hình và khám phá xem liệu những dự đoán có dựa trên các đối tượng/khu vực nổi bật trong sự kiện hay không? Để khám phá khía cạnh quan trọng này của nhận diện sự kiện, trong công trình này, chúng tôi đề xuất một khuôn khổ nhận diện sự kiện có thể giải thích dựa trên Grad-CAM và mô hình CNN dựa trên kiến trúc Xception. Các thí nghiệm được thực hiện trên bốn tập dữ liệu quy mô lớn bao gồm một tập hợp đa dạng các thảm họa thiên nhiên, các sự kiện xã hội và thể thao. Tổng thể, mô hình cho thấy khả năng tổng quát xuất sắc với các điểm F1 tổng thể lần lượt là 0.91, 0.94 và 0.97 cho các thảm họa thiên nhiên, các sự kiện xã hội và thể thao. Hơn nữa, nhằm phân tích chủ quan về các bản đồ kích hoạt được tạo ra thông qua Grad-CAM cho các mẫu dự đoán của mô hình, một nghiên cứu crowdsourcing được thực hiện để phân tích xem liệu các dự đoán của mô hình có dựa trên các đối tượng/khu vực liên quan đến sự kiện hay không. Kết quả của nghiên cứu cho thấy 78%, 84% và 78% các quyết định của mô hình đối với các tập dữ liệu thảm họa thiên nhiên, thể thao và sự kiện xã hội, tương ứng, đều dựa trên các đối tượng/khu vực liên quan đến sự kiện.

Từ khóa

#Nhận diện sự kiện #Mạng Nơ-ron Tích chập #Grad-CAM #Thảm họa thiên nhiên #Sự kiện xã hội #Sự kiện thể thao

Tài liệu tham khảo

Adadi A, Berrada M (2020) Explainable ai for healthcare: from black box to interpretable models. In: Embedded systems and artificial intelligence, pp 327–337. Springer Afridi YS, Ahmad K, Hassan L (2021) Artificial intelligence based prognostic maintenance of renewable energy systems: a review of techniques, challenges, and future research directions. International Journal of Energy Research Ahmad K, Conci N (2019) How deep features have improved event recognition in multimedia: a survey. ACM Trans Multimed Comput Commun Applic (TOMM) 15(2):1–27 Ahmad K, Conci N, Boato G, De Natale F (2016) Used: a large-scale social event detection dataset. In: Proceedings of the 7th international conference on multimedia systems, pp 1–6 Ahmad K, Conci N, De Natale F (2018) A saliency-based approach to event recognition. Signal Process Image Commun 60:42–51 Ahmad K, Maabreh M, Ghaly M, Khan K, Qadir J, Al-Fuqaha A (2022) Developing future human-centered smart cities: critical analysis of smart city security, data management, and ethical challenges. Comput Sci Rev 43 (100):452 Ahmad K, Mekhalfi ML, Conci N, Boato G, Melgani F, De Natale F (2017) A pool of deep models for event recognition. In: 2017 IEEE international conference on image processing (ICIP), pp 2886–2890. IEEE Ahmad K, Mekhalfi ML, Conci N, Melgani F, Natale FD (2018) Ensemble of deep models for event recognition. ACM Trans Multimed Comput Commun Applic (TOMM) 14(2):1–20 Ahmad K, Pogorelov K, Riegler M, Conci N, Halvorsen P (2019) Social media and satellites: disaster event detection, linking and summarization. Multimed Tools Appl 78(3):2837–2875 Ahmad K, Sohail A, Conci N, De Natale F (2018) A comparative study of global and deep features for the analysis of user-generated natural disaster related images. In: 2018 IEEE 13th image, video, and multidimensional signal processing workshop (IVMSP), pp 1–5. IEEE Ahsan U, Sun C, Hays J, Essa I (2017) Complex event recognition from images with few training examples. In: 2017 IEEE winter conference on applications of computer vision (WACV), pp 669–678. IEEE Baro X, Gonzalez J, Fabian J, Bautista MA, Oliu M, Jair Escalante H, Guyon I, Escalera S (2015) Chalearn looking at people 2015 challenges: action spotting and cultural event recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pp 1–9 Chandrakala S, Venkatraman M, Shreyas N, Jayalakshmi S (2021) Multi-view representation for sound event recognition. SIViP, 1–9 Chollet F (2017) Xception: deep learning with depthwise separable convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1251–1258 Deng J, Dong W, Socher R, Li LJ, Li K, Fei-Fei L (2009) Imagenet: a large-scale hierarchical image database. In: IEEE Conference on computer vision and pattern recognition, 2009. CVPR 2009, pp 248–255. IEEE Fiok K, Farahani FV, Karwowski W, Ahram T (2021) Explainable artificial intelligence for education and training. The Journal of Defense Modeling and Simulation, 15485129211028651 Francois AR, Nevatia R, Hobbs J, Bolles RC, Smith JR (2005) Verl: an ontology framework for representing and annotating video events. IEEE Multimed 12(4):76–86 Gade K, Geyik SC, Kenthapadi K, Mithal V, Taly A (2019) Explainable ai in industry. In: Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, pp 3203–3204 Gan C, Wang N, Yang Y, Yeung DY, Hauptmann AG (2015) Devnet: a deep event network for multimedia event detection and evidence recounting. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2568–2577 Li LJ, Fei-Fei L (2007) What, where and who? Classifying events by scene and object recognition. In: 2007 IEEE 11th international conference on computer vision, pp 1–8. IEEE Liu M, Liu X, Li Y, Chen X, Hauptmann AG, Shan S (2015) Exploiting feature hierarchies with convolutional neural networks for cultural event recognition. In: Proceedings of the IEEE international conference on computer vision workshops, pp 32–37 Mattivi R, Uijlings J, De Natale F, Sebe N (2011) Exploitation of time constraints for (sub-) event recognition. In: Proceedings of the 2011 joint ACM workshop on modeling and representing events, pp 7–12 Papadopoulos S, Troncy R, Mezaris V, Huet B, Kompatsiaris I (2011) Social event detection at mediaeval 2011: challenges, dataset and evaluation. In: MediaEval Park S, Kwak N (2015) Cultural event recognition by subregion classification with convolutional neural network. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pp 45–50 Rosani A, Boato G, De Natale F (2015) Eventmask: a game-based framework for event-saliency identification in images. IEEE Trans Multimed 17 (8):1359–1371 Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M et al (2015) Imagenet large scale visual recognition challenge. Int J Comput Vis 115(3):211–252 Said N, Ahmad K, Riegler M, Pogorelov K, Hassan L, Ahmad N, Conci N (2019) Natural disasters detection in social media and satellite imagery: a survey. Multimed Tools Applic 78(22):31,267–31,302 Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D (2017) Grad-cam: visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE international conference on computer vision, pp 618–626 Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556 Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A et al (2015) Going deeper with convolutions. Cvpr Wang L, Wang Z, Du W, Qiao Y (2015) Object-scene convolutional neural networks for event recognition in images. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pp 30–35 Wang L, Wang Z, Qiao Y, Van Gool L (2018) Transferring deep object and scene representations for event recognition in still images. Int J Comput Vis 126(2):390–409 Wei X, Gao BB, Wu J (2015) Deep spatial pyramid ensemble for cultural event recognition. In: Proceedings of the IEEE international conference on computer vision workshops, pp 38–44 Xiong Y, Zhu K, Lin D, Tang X (2015) Recognize complex events from static images by fusing deep channels. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Yang S, Gao T, Wang J, Deng B, Lansdell B, Linares-Barranco B (2021) Efficient spike-driven learning with dendritic event-based processing. Front Neurosci 15:97 Yang S, Wang J, Hao X, Li H, Wei X, Deng B, Loparo KA (2021) Bicoss: toward large-scale cognition brain with multigranular neuromorphic architecture. IEEE Transactions on Neural Networks and Learning Systems Yang S, Wang J, Zhang N, Deng B, Pang Y, Azghadi MR (2021) Cerebellumorphic: large-scale neuromorphic model and architecture for supervised motor learning. IEEE Transactions on Neural Networks and Learning Systems Zhou B, Khosla A, Lapedriza A, Oliva A, Torralba A (2016) Learning deep features for discriminative localization. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2921–2929 Zhou B, Lapedriza A, Xiao J, Torralba A, Oliva A (2014) Learning deep features for scene recognition using places database. In: Advances in neural information processing systems, pp 487–495