Xác định tự động loài động vật trong hình ảnh từ bẫy camera

Xiaoyuan Yu1, Jiangping Wang2, Roland Kays3, Patrick A. Jansen3, Tianjiang Wang1, Thomas S. Huang2
1Department of Computer Science, Huazhong University of Science and Technology, Wuhan, Hubei, China
2Beckman Institute, University of Illinois at Urbana-Champaign, urbana, IL, USA
3Smithsonian Tropical Research Institute (STRI), Balboa, Ancon Panama, Republic of Panama

Tóm tắt

Tóm tắt Các cảm biến hình ảnh ngày càng được sử dụng nhiều trong việc giám sát đa dạng sinh học, với mỗi nghiên cứu tạo ra hàng nghìn hoặc hàng triệu bức ảnh. Việc xác định hiệu quả loài bị ghi lại trong mỗi hình ảnh là một thách thức quan trọng cho sự phát triển của lĩnh vực này. Ở đây, chúng tôi trình bày một phương pháp xác định loài tự động cho những bức ảnh động vật hoang dã được ghi lại bởi các bẫy camera từ xa. Quy trình của chúng tôi bắt đầu với những hình ảnh đã được cắt ra khỏi nền. Chúng tôi sau đó sử dụng mã hóa thưa cải tiến kiểu kim tự tháp không gian (ScSPM), mà trích xuất đặc trưng SIFT dày đặc và LBP cấu trúc ô (cLBP) như các đặc trưng địa phương, tạo ra đặc trưng toàn cầu thông qua mã hóa thưa có trọng số và max pooling sử dụng nhân kim tự tháp nhiều tỷ lệ, và phân loại các hình ảnh bằng thuật toán máy vector hỗ trợ tuyến tính. Mã hóa thưa có trọng số được sử dụng để đảm bảo cả tính thưa thớt và tính địa phương của mã hóa trong không gian đặc trưng. Chúng tôi đã thử nghiệm phương pháp trên một tập dữ liệu với hơn 7.000 hình ảnh từ bẫy camera của 18 loài từ hai địa điểm nghiên cứu khác nhau, và đạt được độ chính xác phân loại trung bình là 82%. Phân tích của chúng tôi cho thấy sự kết hợp giữa SIFT và cLBP có thể là một kỹ thuật hữu ích cho việc nhận diện loài động vật trong những tình huống thực tế, phức tạp.

Từ khóa


Tài liệu tham khảo

Committee on Grand Challenges in Environmental Sciences NRCUC: Grand Challenges in Environmental Sciences. National Academies Press, Washingthon, DC; 2001.

Porter J, Arzberger P, Braun H, Bryant P, Gage S, Hansen T, Hanson P, Lin C, Lin F, Kratz T, Williams T, Shapiro S, King H, Michener W: Wireless sensor networks for ecology. BioScience 2005, 55(7):561-572. 10.1641/0006-3568(2005)055[0561:WSNFE]2.0.CO;2

Kays R, Tilak S, Kranstauber B, Jansen P, Carbone C, Rowcliffe M, Fountain T, Eggert J, He Z: Monitoring wild animal communities with arrays of motion sensitive camera traps. Int J Res Rev Wireless Sensor Netw 2011, 1: 19-29.

Aguzzi J, Costa C, Fujiwara Y, Iwase R, Menesatti P, Ramirez-E Llorda: A novel morphometry-based protocol of automated video-image analysis for species recognition and activity rhythms monitoring in deep-sea fauna. Sensors 2009, 9(11):8438-8455. 10.3390/s91108438

Fegraus E, Lin K, Ahumada J, Baru C, Chandra S, Youn C: Data acquisition and management software for camera trap data: a case study from the TEAM Network. Ecol. Inform 2011, 6(6):345-353. 10.1016/j.ecoinf.2011.06.003

Yang J, Yu K, Gong Y, Huang T: Linear spatial pyramid matching using sparse coding for image classification. In IEEE Conference on Computer Vision and Pattern Recognition. Miami; 20-25 June 2009:1794-1801.

Wang J, Yang J, Yu K, Lv F, Huang T, Gong Y: Locality-constrained linear coding for image classification. In 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA; 13-18 June 2010:3360-3367.

Lowe D: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis 2004, 60(2):91-110.

Ahonen T, Hadid A, Pietikainen M: Face description with local binary patterns: application to face recognition. Pattern Anal. Mach. Intell, IEEE Trans 2006, 28(12):2037-2041.

Bolger B, Morrison DT, Vance TA, Lee D, Farid H: A computer-assisted system for photographic mark–recapture analysis. Methods Ecol. Evol 2012, 3(5):813-822. 10.1111/j.2041-210X.2012.00212.x

Serre T, Wolf L, Poggio T: Object recognition with features inspired by visual cortex. In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA; 20-26 June 2005:994-1000.

Lazebnik S, Schmid C, Ponce J: Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York; 17-22 June 2006:2169-2178.

Wang X, Han T, Yan S: An HOG-LBP human detector with partial occlusion handling. In 2009 IEEE 12th International Conference on Computer Vision. Kyoto, Japan; 27 September - 4 October, 2009:32-39.

Zhang J, Huang K, Yu Y, Tan T: Boosted local structured HOG-LBP for object localization. In 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),. Colorado Springs, Colorado; 20-25 June 2011:1393-1400.

Ojala T, Pietikäinen M, Harwood D: A comparative study of texture measures with classification based on featured distributions. Pattern Recognit 1996, 29: 51-59. 10.1016/0031-3203(95)00067-4

Lee H, Battle A, Raina R, Ng A: Efficient sparse coding algorithms. Adv. Neural Inf. Process. Syst 2007, 19: 801.

Mairal J, Bach F, Ponce J: Task-driven dictionary learning. Pattern Anal. Mach. Intell, IEEE Trans 2012, 34(4):791-804.

Yang J, Wang J, Huang T: Learning the sparse representation for classification. In 2011 IEEE International Conference on Multimedia and Expo (ICME). Barcelona; 11-15 July 2011:1-6.