Đề xuất hình ảnh dựa trên mô hình phân tầng mới lấy cảm hứng từ sinh học

Multimedia Tools and Applications - Tập 77 - Trang 4323-4337 - 2017
Yan-Feng Lu1, Hong Qiao2,3, Yi Li4, Li-Hao Jia1
1Research Center for Brain-inspired Intelligence, Institute of Automation, Chinese Academy of Sciences, Beijing, China
2The State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China
3CAS Center for Excellence in Brain Science and Intelligence Technology, Shanghai, China
4School of Information Engineering, Nanchang University, Nanchang, China

Tóm tắt

Đề xuất hình ảnh đã trở thành một vấn đề ngày càng quan trọng gần đây, do nhu cầu mạnh mẽ trong việc nhanh chóng tìm ra những hình ảnh quan tâm từ khối lượng lớn thư viện hình ảnh. Chúng tôi mô tả một mô hình phân tầng lấy cảm hứng từ sinh học để đề xuất hình ảnh. Mô hình lấy cảm hứng từ sinh học (BIM) cho biểu diễn đặc trưng không thay đổi đã thu hút được sự quan tâm rộng rãi, mô phỏng gần giống như tổ chức của vỏ não thị giác. BIM là một kiến trúc tính toán với bốn lớp. Khi kích thước dữ liệu hình ảnh tăng lên, cấu trúc bốn lớp dễ bị hiện tượng quá khớp, điều này hạn chế ứng dụng của nó. Để giải quyết vấn đề này, chúng tôi đề xuất một mô hình phân tầng lấy cảm hứng từ sinh học (BIHM) cho biểu diễn đặc trưng, thêm hai lớp phân biệt vào cấu trúc bốn lớp truyền thống. Khác với BIM truyền thống mà mô phỏng vỏ não thái dương dưới, tương ứng với đặc trưng mức độ thấp, BIHM đề xuất thêm hai lớp nữa vào mô hình truyền thống để mô phỏng vỏ não gian dưới, khám phá tính không thay đổi và khả năng chọn lọc của đặc trưng mức độ cao hơn. Hơn nữa, chúng tôi lần đầu tiên ứng dụng BIHM trong việc đề xuất hình ảnh. Để chứng minh hiệu quả của mô hình này, chúng tôi sử dụng nó cho các nhiệm vụ phân loại và truy xuất hình ảnh và tiến hành thí nghiệm trên các tập dữ liệu CalTech5, Imagenet và CalTech256. Kết quả thí nghiệm cho thấy BIHM có hiệu suất tốt hơn so với mô hình truyền thống trong các nhiệm vụ và rất cạnh tranh với những kiến trúc hiện có.

Từ khóa

#đề xuất hình ảnh #mô hình phân tầng #sinh học #biểu diễn đặc trưng #thị giác #kiến trúc tính toán #vỏ não thị giác #học máy

Tài liệu tham khảo

Azzopardi G et al (2015) Trainable COSFIRE filters for vessel delineation with application to retinal images. Med Image Anal 19(1):46–57 Babenko A et al (2014) Neural codes for image retrieval. European Conference on Computer Vision. Springer International Publishing Bhagyalakshmi A, Vijayachamundeeswan V (2014) A survey on content based image retrieval using various operators. 2014 International Conference on Computer Communication and Systems. IEEE Chang C, Lin C (2011) LIBSVM: a library for support vector machines. ACM Trans Intell Syst Technol 2(3):27 Csurka G et al (2004) Visual categorization with bags of keypoints. Workshop on statistical learning in computer vision, ECCV. 1(1-22) Deng J et al (2009) Imagenet: a large-scale hierarchical image database. IEEE Conf Comput Vis Pattern Recognit, 2009. CVPR 2009. IEEE Dharani T, Laurence Aroquiaraj I (2013) A survey on content based image retrieval. 2013 International Conference on Pattern Recognition, Informatics and Mobile Engineering (PRIME). IEEE Donahue J et al (2015) Long-term recurrent convolutional networks for visual recognition and description. Proc IEEE Conf Comput Vis Pattern Recognit Eitz M, Hays J, Alexa M (2012) How do humans sketch objects? ACM Trans Graph 31(4):44–41 Griffin G, Holub A, Perona P (2007) Caltech-256 object category dataset Habibian A, van de Sande KEA, Snoek CGM (2013) Recommendations for video event recognition using concept vocabularies. Proceedings of the 3rd ACM conference on International conference on multimedia retrieval. ACM He K et al (2016) Deep residual learning for image recognition. Proc IEEE Conf Comput Vis Pattern Recognit Huang K et al (2011) Biologically inspired features for scene classification in video surveillance. IEEE Trans Syst Man Cybernet B Cybern 41(1):307–313 Hubel DH, Wiesel TN (1959) Receptive fields of single neurones in the cat's striate cortex. J Physiol 148(3):574–591 Hubel DH, Wiesel TN (1962) Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. J Physiol 160(1):106–154 Juneja K et al (2015) A survey on recent image indexing and retrieval techniques for low-level feature extraction in CBIR systems. 2015 I.E. International Conference on Computational Intelligence & Communication Technology (CICT). IEEE Kim M, Park SO (2013) Group affinity based social trust model for an intelligent movie recommender system. Multimed Tools Appl 64(2):505–516 Kobatake E, Wang G, Tanaka K (1998) Effects of shape-discrimination training on the selectivity of inferotemporal cells in adult monkeys. J Neurophysiol 80(1):324–330 Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. Adv Neural Inf Process Syst Lazebnik S, Schmid C, Ponce J (2005) A maximum entropy framework for part-based texture and object recognition. Int Conf Comp Vis 832–838 Lazebnik S, Schmid C, Ponce J (2006) Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. 2006 I.E. computer society conference on computer vision and pattern recognition. Vol. 2. IEEE Li Y et al (2015) Free-hand sketch recognition by multi-kernel feature learning. Comput Vis Image Underst 137:1–11 Liu G-H, Yang J-Y (2013) Content-based image retrieval using color difference histogram. Pattern Recogn 46(1):188–198 Liu S, Wang Y, Hongfang et al (2016) MayoBMI at ImageCLEF 2016 handwritten document retrieval task. Proceedings of CLEF eHealth Long F, Zhang H, Feng DD (2003) Fundamentals of content-based image retrieval. Multimedia Information Retrieval and Management. Springer Berlin Heidelberg, p 1-26 Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vis 60(2):91–110 Lu Y, Zhang H et al (2014) Extended biologically inspired model for object recognition based on oriented Gaussian–Hermite moment. Neurocomputing 139:189–201 Lu Y, Zhang H et al (2015) Enhanced hierarchical model of object recognition based on a novel patch selection method in salient regions. IET Comput Vis 9(5):663–672 Lu Y, Zhang H et al (2016) Dominant orientation patch matching for HMAX. Neurocomputing 193:155–166 Lu Y et al (2017) A novel biologically inspired hierarchical model for image recommendation. International Symposium on Neural Networks. Springer International Publishing Murala S, Maheshwari RP, Balasubramanian R (2012) Local tetra patterns: a new feature descriptor for content-based image retrieval. IEEE Trans Image Process 21(5):2874–2886 Mutch J, Lowe DG (2006) Multiclass object recognition with sparse, localized features. 2006 I.E. Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). Vol. 1. IEEE Oliva A, Torralba A (2006) Building the gist of a scene: The role of global image features in recognition. Prog Brain Res 155:23–36 Plant W, Lumsden J, Nabney IT (2013) The Mosaic Test: measuring the effectiveness of colour-based image retrieval. Multimed Tools Appl 64(3):695–716 Poggio T, Girosi F (1990) Networks for approximation and learning. Proc IEEE 78(9):1481–1497 Qiao H et al (2014) Introducing memory and association mechanism into a biologically inspired visual model. IEEE Trans Cybernet 44(9):1485–1496 Riesenhuber M, Poggio T (1999) Hierarchical models of object recognition in cortex. Nat Neurosci 2(11):1019–1025 Schneider RG, Tuytelaars T (2014) Sketch classification and classification-driven analysis using fisher vectors. ACM Trans Graph 33(6):174 Serre T (2006) Learning a dictionary of shape-components in visual cortex: comparison with neurons, humans and machines Serre T, Riesenhuber M (2004) Realistic modeling of simple and complex cell tuning in the HMAX model, and implications for invariant object recognition in cortex. Massachusetts Inst of Tech Cambridge Computer Science and Artificial Intelligence Lab Serre T, Wolf L, Bileschi S et al (2007) Robust object recognition with cortex-like mechanisms. IEEE Trans Pattern Anal Mach Intell 29(3) Szegedy C et al (2015) Going deeper with convolutions. Proc IEEE Conf Comput Vis Pattern Recognit Tam K-P (2013) Concepts and measures related to connection to nature: Similarities and differences. J Environ Psychol 34:64–78 Viana W, Braga R, Lemos FD, de Souza JM, Carmo RA, Andrade RM, Martin H (2014) Mobile Photo Recommendation and Logbook Generation Using Context-Tagged Images. IEEE Multimedia 21(1):24–34 Wan J et al (2014) Deep learning for content-based image retrieval: a comprehensive study. Proceedings of the 22nd ACM international conference on Multimedia. ACM Wang J (2015) Support recovery with orthogonal matching pursuit in the presence of noise. IEEE Trans Signal Process 63(21):5868–5877 Wang J, Shim B (2012) On the recovery limit of sparse signals using orthogonal matching pursuit. IEEE Trans Signal Process 60(9):4973–4976 Wang J, Kwon S, Shim B (2012) Generalized orthogonal matching pursuit. IEEE Trans Signal Process 60(12):6202–6216 Wang Y, Wu S et al (2016) A Part-Of-Speech term weighting scheme for biomedical information retrieval. J Biomed Inform 63:379–389 Wu L, Jin R, Jain AK (2013) Tag completion for image retrieval. IEEE Trans Pattern Anal Mach Intell 35(3):716–727 Zhang H, Lu Y et al (2016) B-HMAX: A fast binary biologically inspired model for object recognition. Neurocomputing 218:242–250 Zhu S, Wang B, Liu Y (2012) Spreading activation theory based image annotation. 2012 I.E. International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE