Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phát hiện điểm nổi bật trong video dựa trên sở thích của người dùng thông qua học sâu tăng cường
Tóm tắt
Phát hiện điểm nổi bật trong video là một kỹ thuật nhằm truy xuất các đoạn video ngắn thu hút sự chú ý hoặc quan tâm chính của người dùng trong một video chưa chỉnh sửa. Có một sự quan tâm đáng kể trong việc tự động hóa phát hiện điểm nổi bật để tạo điều kiện cho việc duyệt video hiệu quả. Nghiên cứu gần đây thường tập trung vào việc tìm ra một cách khách quan các khung hình có tính đại diện trực quan cũng như tính đa dạng để hình thành các điểm nổi bật. Tuy nhiên, sở thích của người dùng là tương đối chủ quan và có thể thay đổi từ người này sang người khác. Do đó, không phải là một vấn đề đơn giản để tìm ra các điểm nổi bật khác nhau cho cùng một video đối với các người dùng khác nhau. Bài báo này mô tả một khung học dựa trên học sâu tăng cường cho phép phát hiện các điểm nổi bật khác nhau theo sở thích khác nhau của người dùng. Trong khung này, một hàm thưởng mới tính đến mức độ liên quan của sở thích người dùng với các điểm nổi bật ứng cử được giới thiệu. Trong quá trình huấn luyện, khung này cố gắng kiếm được phần thưởng cao hơn bằng cách học cách phát hiện các điểm nổi bật đa dạng hơn và chú ý hơn tới sở thích. Hiệu quả của phương pháp đề xuất được minh họa khi áp dụng vào các loại phim thực tế khác nhau, và cho thấy rằng nó đạt được kết quả tiên tiến nhất.
Từ khóa
#Phát hiện video #Học sâu tăng cường #Sở thích người dùngTài liệu tham khảo
Araujo A, Girod B (2018) Large-scale video retrieval using image queries. IEEE Trans Circ Sys Video Technol 28(6):1406–1420
He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770–778
Hosu IA, Rebedea T (2016) Playing atari games with deep reinforcement learning and human checkpoint replay. arXiv:1312.5602
Jianping G, Hongxing M, Weihua O, Shaoning Z, Yunbo R, Hebiao Y (2019) A generalized mean distance-based k-nearest neighbor classifier. Expert Syst Appl 115:356–372
Kawai Y, Sumiyoshi H, Yagi N (2007) Automated production of tv program trailer using electronic program guide. In: Proceedings of the 6th ACM international conference on Image and video retrieval. ACM, pp 49–56
Koutras P, Zlatintsi A, Iosif E, Katsamanis A, Maragos P, Potamianos A (2015) Predicting audio-visual salient events based on visual, audio and text modalities for movie summarization. In: 2015 IEEE international conference on image processing (ICIP). IEEE, pp 4361–4365
Lan X, Wang H, Gong S, Zhu X (2017) Deep reinforcement learning attention selection for person re-identification, BMVC
Lei J, Luan Q, Song X, Liu X, Tao D, Song M (2018) Action parsing driven video summarization based on reinforcement learning. IEEE Trans Circ Sys Video Technol
Li Y (2017) Attention-aware deep reinforcement learning for video face recognition. In: ICCV 2017, pp 3951–3960
Li Y (2017) Deep reinforcement learning: an overview. arXiv:1701.07274
Li Y, Wang R, Huang Z, Shan S, Chen X (2015) Face video retrieval with image query via hashing across euclidean space and riemannian manifold. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4758–4767
Liu Q, Lu X, He Z, Zhang C, Chen W (2017) Deep convolutional neural networks for thermal infrared object tracking. Knowledge-Based Systems 134:189–198
Masumitsu K, Echigo T (2000) Video summarization using reinforcement learning in eigenspace. In: Proceedings 2000 international conference on image processing (Cat. No. 00CH37101), vol 2. IEEE, pp 267–270
Ou W, Yuan D, Liu Q, Cao Y (2018) Object tracking based on online representative sample selection via non-negative least square. Multimed Tools Appl 77 (9):10569–10587
Quan Z, Yang W, Gao G, Ou W, Lu H, Jie C, Latecki LJ (2018) Multi-scale deep context convolutional neural networks for semantic segmentation. World Wide Web-Internet and Web Information Systems 22(7):1–16
Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z, Karpathy A, Khosla A, Bernstein M et al (2015) Imagenet large scale visual recognition challenge. Int J Comput Vis 115(3):211–252
Sharghi A, Laurel JS, Gong B (2017) Query-focused video summarization: dataset, evaluation, and a memory network based approach. In: IEEE conference on computer vision pattern recognition
Smith JR, Joshi D, Huet B, Hsu W, Cota J (2017) Harnessing ai for augmenting creativity: application to movie trailer creation. In: Proceedings of the 25th ACM international conference on multimedia. ACM, pp 1799–1808
Song X, Chen K, Lei J, Sun L, Wang Z, Xie L, Song M (2016) Category driven deep recurrent neural network for video summarization. IEEE Int Conf Multimed Expo Workshops
Sutton RS, Barto AG (1998) Reinforcement learning: an introduction. IEEE Trans Neural Netw 9(5):1054–1054
Suykens JA, Vandewalle J (1999) Least squares support vector machine classifiers. Neural Process Lett 9(3):293–300
Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhutdinov R, Zemel R, Bengio Y (2015) Show, attend and tell: neural image caption generation with visual attention. In: ICML, pp 2048–2057
Yang H, Wang B, Lin S, Wipf D, Guo M, Guo B (2015) Unsupervised extraction of video highlights via robust recurrent auto-encoders. In: Proceedings of the IEEE international conference on computer vision, pp 4633–4641
Zhang K, Chao W-L, Sha F, Grauman K (2016) Video summarization with long short-term memory. In: European conference on computer vision. Springer, pp 766–782
Zhou K, Qiao Y, Xiang T (2018) Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. In: Proceedings of the thirty-second AAAI conference on artificial intelligence, (AAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pp 7582–7589