Mô hình hóa bối cảnh bằng mạng nơ-ron tích chập sâu

Multimedia Tools and Applications - Tập 79 - Trang 11083-11105 - 2019
Midhula Vijayan1, R. Mohan1, Preeth Raguraman1
1Department of Computer Science and Engineering, National Institute of Technology, Tiruchirappalli, India

Tóm tắt

Phát hiện đối tượng chuyển động là một vấn đề quan trọng trong thị giác máy tính. Điều này ảnh hưởng đến hiệu suất của hệ thống tổng thể trong các ứng dụng giám sát. Trong bài báo này, một Mạng Nơ-ron Tích chập sâu với phương pháp hoàn toàn tích chập được đề xuất. Các mạng tích chập là những mô hình mạnh mẽ để trích xuất các đặc trưng không được xây dựng thủ công theo cấp bậc. Mục tiêu chính của bài báo là xây dựng một hệ thống phân đoạn tiền cảnh chính xác với sự can thiệp hạn chế từ người dùng. Công trình được trình bày tập trung vào việc xây dựng một mạng hoàn toàn tích chập với kiến trúc bỏ qua để xác định các đối tượng chuyển động trong các kịch bản phức tạp. Mạng được mô hình hóa dưới dạng một mạng hoàn toàn tích chập đầu cuối, và phương pháp này bao gồm một lớp pooling theo cấp bậc mới để tận dụng thông tin ngữ cảnh toàn cục. Mô hình được trình bày sử dụng mô hình VGG-19 đã được huấn luyện trước để xây dựng mô hình Mạng Nơ-ron Tích chập sâu (Deep-CNN). Các đặc trưng tinh vi và thô được kết hợp lại bằng kiến trúc bỏ qua để cải thiện việc đại diện cho các đặc trưng. Hiệu suất định tính và định lượng của kiến trúc Deep-CNN được thử nghiệm trên tập dữ liệu ChangeDetection.net-2014. Các kết quả do phương pháp Deep-CNN tạo ra được so sánh với các kỹ thuật trong tài liệu gần đây. Phương pháp Deep-CNN vượt trội hơn các phương pháp tiên tiến mà không dựa vào bất kỳ kỹ thuật hậu xử lý nào.

Từ khóa

#Phát hiện đối tượng chuyển động #mạng nơ-ron tích chập #phân đoạn tiền cảnh #kiến trúc bỏ qua #thông tin ngữ cảnh toàn cục

Tài liệu tham khảo

Ambikapathy B, Kirshnamurthy K, Venkatesan R (2018) Assessment of electromyograms using genetic algorithm and artificial neural networks. Evol Intel: 1–11 Amin J, Sharif M, Yasmin M, Fernandes SL (2018) Big data analysis for brain tumor detection: deep convolutional neural networks. Futur Gener Comput Syst Babaee M, Dinh DT, Rigoll G (2018) A deep convolutional neural network for video sequence background subtraction. Pattern Recogn 76:635–649 Bakiya A, Kamalanand K, Rajinikanth V, Nayak RS, Kadry S (2018) Deep neural network assisted diagnosis of time-frequency transformed electromyograms. Multimed Tools Appl: 1–17 Barnich O, Van Droogenbroeck M (2011) Vibe: a universal background subtraction algorithm for video sequences. IEEE Trans Image Process 20(6):1709–1724 Braham M, Van Droogenbroeck M (2016) Deep background subtraction with scene-specific convolutional neural networks. In: 2016 International conference on systems, signals and image processing (IWSSIP). IEEE, pp 1–4 CDnet: http://changedetection.net/. Accessed October-2017 Chen Y, Wang J, Lu H (2015) Learning sharable models for robust background subtraction. In: 2015 IEEE International conference on multimedia and expo (ICME). IEEE, pp 1–6 Chen Z, Ellis T (2014) A self-adaptive gaussian mixture model. Comput Vis Image Underst 122:35–46 Choudhury SK, Sa PK, Bakshi S, Majhi B (2016) An evaluation of background subtraction for object detection vis-a-vis mitigating challenging scenarios. IEEE Access 4:6133–6150 Cinelli LP, Thomaz LA, da Silva AF, da Silva EAB, Netto SL (2017) Foreground segmentation for anomaly detection in surveillance videos using deep residual networks Gao F, Wu T, Li J, Zheng B, Ruan L, Shang D, Patel B (2018) Sd-cnn: a shallow-deep cnn for improved breast cancer diagnosis. arXiv:1803.00663 Goodfellow I, Bengio Y, Courville A, Bengio Y (2016) Deep learning, vol 1. MIT Press, Cambridge Goyette N, Jodoin PM, Porikli F, Konrad J, Ishwar P, et al. (2012) Changedetection. net: a new change detection benchmark dataset. In: CVPR workshops, 2012, pp 1–8 Guo JM, Hsia CH, Liu YF, Shih MH, Chang CH, Wu JY (2013) Fast background subtraction based on a multilayer codebook model for moving object detection. IEEE Trans Circuits Syst Video Technol 23(10):1809–1821 Haines TS, Xiang T (2014) Background subtraction with dirichletprocess mixture models. IEEE Trans Pattern Anal Mach Intell 36(4):670–683 Harville M, Gordon G, Woodfill J (2001) Foreground segmentation using adaptive mixture models in color and depth. In: IEEE Workshop on detection and recognition of events in video, 2001. Proceedings. IEEE, pp 3–11 He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770–778 Heikkila M, Pietikainen M (2006) A texture-based method for modeling the background and detecting moving objects. IEEE Trans Pattern Anal Mach Intell 28(4):657–662 Hofmann M, Tiefenbacher P, Rigoll G (2012) Background segmentation with feedback: the pixel-based adaptive segmenter. In: 2012 IEEE Computer society conference on computer vision and pattern recognition workshops (CVPRW). IEEE, pp 38–43 Hu G, Peng X, Yang Y, Hospedales TM, Verbeek J (2018) Frankenstein: learning deep face representations using small data. IEEE Trans Image Process 27(1):293–303 Jiang S, Lu X (2017) Wesambe: a weight-sample-based method for background subtraction. IEEE Trans Circuits Syst Video Technol Khaire P, Kumar P, Imran J (2018) Combining cnn streams of rgb-d and skeletal data for human activity recognition. Pattern Recogn Lett Khatami A, Babaie M, Tizhoosh HR, Khosravi A, Nguyen T, Nahavandi S (2018) A sequential search-space shrinking using cnn transfer learning and a radon projection pool for medical image retrieval. Expert Syst Appl 100:224–233 Kim K, Chalidabhongse TH, Harwood D, Davis L (2005) Real-time foreground–background segmentation using codebook model. Real-Time Image 11(3):172–185 Kingma DP, Ba J (2014) Adam: a method for stochastic optimization. arXiv:1412.6980 Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems, pp 1097–1105 Long J, Shelhamer E, Darrell T (2015) Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3431– 3440 Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vis 60(2):91–110 Maddalena L, Petrosino A (2008) A self-organizing approach to background subtraction for visual surveillance applications. IEEE Trans Image Process 17(7):1168–1177 Mayer BA, Mundy JL (2014) Duration dependent codebooks for change detection. In: BMVC Moshe Y, Hel-Or H, Hel-Or Y (2012) Foreground detection using spatiotemporal projection kernels. In: 2012 IEEE Conference on computer vision and pattern recognition (CVPR). IEEE, pp 3210– 3217 Pinheiro P, Collobert R (2014) Recurrent convolutional neural networks for scene labeling. In: International conference on machine learning, pp 82–90 Radenović F, Tolias G, Chum O (2018) Fine-tuning cnn image retrieval with no human annotation. IEEE Trans Pattern Anal Mach Intell Raza M, Sharif M, Yasmin M, Khan MA, Saba T, Fernandes SL (2018) Appearance based pedestrians’ gender recognition by employing stacked auto encoders in deep learning. Futur Gener Comput Syst 88:28–39 Ruder S (2016) An overview of gradient descent optimization algorithms. arXiv:1609.04747 Saravanakumar S, Vadivel A, Ahmed CS (2010) Multiple human object tracking using background subtraction and shadow removal techniques. In: 2010 International conference on signal and image processing (ICSIP). IEEE, pp 79–84 Seeliger K, Fritsche M, Güçlü U, Schoenmakers S, Schoffelen JM, Bosch S, van Gerven M (2018) Convolutional neural network-based encoding and decoding of visual object recognition in space and time. NeuroImage 180:253–266 Shahbaz A, Hariyono J, Jo KH (2015) Evaluation of background subtraction algorithms for video surveillance. In: 2015 21st Korea-Japan joint workshop on frontiers of computer vision (FCV). IEEE, pp 1–4 Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556 St-Charles PL, Bilodeau GA, Bergevin R (2015) Subsense: a universal change detection method with local adaptive sensitivity. IEEE Trans Image Process 24(1):359–373 St-Charles PL, Bilodeau GA, Bergevin R (2016) Universal background subtraction using word consensus models. IEEE Trans Image Process 25(10):4768–4781 Stauffer C, Grimson WEL (1999) Adaptive background mixture models for real-time tracking. In: IEEE Computer society conference on computer vision and pattern recognition, 1999, vol 2. IEEE, pp 246–252 Suresh S, Deepak P, Chitra K (2014) An efficient low cost background subtraction method to extract foreground object during human tracking. In: 2014 International conference on circuit, power and computing technologies (ICCPCT). IEEE, pp 1432–1436 Vijayan M, Ramasundaram M (2018) A fast dgpso-motion saliency map based moving object detection. Multimed Tools Appl: 1–21 Vijayan M, Ramasundaram M (2018) Moving object detection using vector image model. Optik 168:963–973 Wang X, Gao L, Song J, Shen H (2017) Beyond frame-level cnn: saliency-aware 3-d cnn with lstm for video action recognition. IEEE Signal Process Lett 24(4):510–514 Wang Y, Jodoin PM, Porikli F, Konrad J, Benezeth Y, Ishwar P (2014) Cdnet 2014: an expanded change detection benchmark dataset. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pp 387–394 Wang Y, Luo Z, Jodoin PM (2017) Interactive deep learning method for segmenting moving objects. Pattern Recogn Lett 96:66–75 Yang L, Li J, Luo Y, Zhao Y, Cheng H, Li J (2018) Deep background modeling using fully convolutional network. IEEE Trans Intell Transp Syst 19(1):254–262 Yu R, Wang H, Davis LS (2018) Remotenet: Efficient relevant motion event detection for large-scale home surveillance videos. arXiv:1801.02031 Zhu Q, Song Z, Xie Y, Wang L (2012) A novel recursive bayesian learning-based method for the efficient and accurate segmentation of video with dynamic background. IEEE Trans Image Process 21(9):3865–3876