Phát hiện điểm nổi bật trong video dựa trên sở thích của người dùng thông qua học sâu tăng cường

Multimedia Tools and Applications - Tập 79 - Trang 15015-15024 - 2020
Han Wang1, Kexin Wang1, Yuqing Wu1, Zhongzhi Wang1, Ling Zou2
1School of Information Science and Technology, Beijing Forestry University, Beijing, China
2Digital Media School, Beijing Film Academy, Beijing, China

Tóm tắt

Phát hiện điểm nổi bật trong video là một kỹ thuật nhằm truy xuất các đoạn video ngắn thu hút sự chú ý hoặc quan tâm chính của người dùng trong một video chưa chỉnh sửa. Có một sự quan tâm đáng kể trong việc tự động hóa phát hiện điểm nổi bật để tạo điều kiện cho việc duyệt video hiệu quả. Nghiên cứu gần đây thường tập trung vào việc tìm ra một cách khách quan các khung hình có tính đại diện trực quan cũng như tính đa dạng để hình thành các điểm nổi bật. Tuy nhiên, sở thích của người dùng là tương đối chủ quan và có thể thay đổi từ người này sang người khác. Do đó, không phải là một vấn đề đơn giản để tìm ra các điểm nổi bật khác nhau cho cùng một video đối với các người dùng khác nhau. Bài báo này mô tả một khung học dựa trên học sâu tăng cường cho phép phát hiện các điểm nổi bật khác nhau theo sở thích khác nhau của người dùng. Trong khung này, một hàm thưởng mới tính đến mức độ liên quan của sở thích người dùng với các điểm nổi bật ứng cử được giới thiệu. Trong quá trình huấn luyện, khung này cố gắng kiếm được phần thưởng cao hơn bằng cách học cách phát hiện các điểm nổi bật đa dạng hơn và chú ý hơn tới sở thích. Hiệu quả của phương pháp đề xuất được minh họa khi áp dụng vào các loại phim thực tế khác nhau, và cho thấy rằng nó đạt được kết quả tiên tiến nhất.

Từ khóa

#Phát hiện video #Học sâu tăng cường #Sở thích người dùng

Tài liệu tham khảo

Araujo A, Girod B (2018) Large-scale video retrieval using image queries. IEEE Trans Circ Sys Video Technol 28(6):1406–1420 He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770–778 Hosu IA, Rebedea T (2016) Playing atari games with deep reinforcement learning and human checkpoint replay. arXiv:1312.5602 Jianping G, Hongxing M, Weihua O, Shaoning Z, Yunbo R, Hebiao Y (2019) A generalized mean distance-based k-nearest neighbor classifier. Expert Syst Appl 115:356–372 Kawai Y, Sumiyoshi H, Yagi N (2007) Automated production of tv program trailer using electronic program guide. In: Proceedings of the 6th ACM international conference on Image and video retrieval. ACM, pp 49–56 Koutras P, Zlatintsi A, Iosif E, Katsamanis A, Maragos P, Potamianos A (2015) Predicting audio-visual salient events based on visual, audio and text modalities for movie summarization. In: 2015 IEEE international conference on image processing (ICIP). IEEE, pp 4361–4365 Lan X, Wang H, Gong S, Zhu X (2017) Deep reinforcement learning attention selection for person re-identification, BMVC Lei J, Luan Q, Song X, Liu X, Tao D, Song M (2018) Action parsing driven video summarization based on reinforcement learning. IEEE Trans Circ Sys Video Technol Li Y (2017) Attention-aware deep reinforcement learning for video face recognition. In: ICCV 2017, pp 3951–3960 Li Y (2017) Deep reinforcement learning: an overview. arXiv:1701.07274 Li Y, Wang R, Huang Z, Shan S, Chen X (2015) Face video retrieval with image query via hashing across euclidean space and riemannian manifold. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4758–4767 Liu Q, Lu X, He Z, Zhang C, Chen W (2017) Deep convolutional neural networks for thermal infrared object tracking. Knowledge-Based Systems 134:189–198 Masumitsu K, Echigo T (2000) Video summarization using reinforcement learning in eigenspace. In: Proceedings 2000 international conference on image processing (Cat. No. 00CH37101), vol 2. IEEE, pp 267–270 Ou W, Yuan D, Liu Q, Cao Y (2018) Object tracking based on online representative sample selection via non-negative least square. Multimed Tools Appl 77 (9):10569–10587 Quan Z, Yang W, Gao G, Ou W, Lu H, Jie C, Latecki LJ (2018) Multi-scale deep context convolutional neural networks for semantic segmentation. World Wide Web-Internet and Web Information Systems 22(7):1–16 Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M et al (2015) Imagenet large scale visual recognition challenge. Int J Comput Vis 115(3):211–252 Sharghi A, Laurel JS, Gong B (2017) Query-focused video summarization: dataset, evaluation, and a memory network based approach. In: IEEE conference on computer vision pattern recognition Smith JR, Joshi D, Huet B, Hsu W, Cota J (2017) Harnessing ai for augmenting creativity: application to movie trailer creation. In: Proceedings of the 25th ACM international conference on multimedia. ACM, pp 1799–1808 Song X, Chen K, Lei J, Sun L, Wang Z, Xie L, Song M (2016) Category driven deep recurrent neural network for video summarization. IEEE Int Conf Multimed Expo Workshops Sutton RS, Barto AG (1998) Reinforcement learning: an introduction. IEEE Trans Neural Netw 9(5):1054–1054 Suykens JA, Vandewalle J (1999) Least squares support vector machine classifiers. Neural Process Lett 9(3):293–300 Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhutdinov R, Zemel R, Bengio Y (2015) Show, attend and tell: neural image caption generation with visual attention. In: ICML, pp 2048–2057 Yang H, Wang B, Lin S, Wipf D, Guo M, Guo B (2015) Unsupervised extraction of video highlights via robust recurrent auto-encoders. In: Proceedings of the IEEE international conference on computer vision, pp 4633–4641 Zhang K, Chao W-L, Sha F, Grauman K (2016) Video summarization with long short-term memory. In: European conference on computer vision. Springer, pp 766–782 Zhou K, Qiao Y, Xiang T (2018) Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. In: Proceedings of the thirty-second AAAI conference on artificial intelligence, (AAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pp 7582–7589