Khôi phục hình dạng 3D chi tiết dựa trên phác thảo với sự định vị không gian

Neural Computing and Applications - Tập 35 - Trang 16607-16617 - 2023
Xu Chen1, Zheng Zhong1, Dongbo Zhou1
1The Faculty of Artificial Intelligence in Education, Central China Normal University, Wuhan, China

Tóm tắt

Khôi phục hình dạng 3D chi tiết hỗ trợ tìm kiếm một mô hình 3D cụ thể để phục vụ các ứng dụng VR/AR. Các phác thảo có thể truyền đạt các khái niệm khó diễn đạt bằng lời nói, mặc dù rất súc tích và trừu tượng, làm cho nó trở thành một công cụ phù hợp để truy xuất các hình dạng 3D. So với khôi phục hình dạng 3D dựa trên phác thảo, khôi phục hình dạng 3D chi tiết dựa trên phác thảo vẫn là một vấn đề tương đối chưa được nghiên cứu kỹ lưỡng. Các công trình trước đây về FG-SBSR chủ yếu tập trung vào việc căn chỉnh góc nhìn của các phác thảo và các phép chiếu hình dạng 3D trong quá trình truy xuất. Tuy nhiên, việc căn chỉnh không gian giữa các mô hình đang bị bỏ qua, điều này rất hữu ích để trích xuất các đặc trưng chi tiết. Để giải quyết vấn đề căn chỉnh không gian, chúng tôi đề xuất một mạng căn chỉnh không gian đa vùng đầu cuối (MRSAN) học cách biểu diễn đặc trưng phân biệt đa vùng được căn chỉnh theo không gian giữa các phác thảo và các phép chiếu từ hình dạng 3D. Đồng thời, để xử lý biến thể giữa các miền, chúng tôi thiết kế mất mát nhất quán danh tính và mất mát tương đồng vùng từ ba khía cạnh: danh tính, khoảng cách đặc trưng và phân bố đặc trưng. Thay vì kết hợp các đặc trưng đa góc nhìn trước khi xếp hạng, một phương pháp xếp hạng dựa trên tổng hợp tương đồng đa góc nhìn được đề xuất, sử dụng thông tin đa góc nhìn liên quan đến góc nhìn truy vấn và không cần tính toán lại các biểu diễn đặc trưng của các hình dạng 3D cho mỗi truy vấn. Các đánh giá so sánh hệ thống thực hiện trên các bộ dữ liệu Ghế và Đèn cho thấy phương pháp của chúng tôi đạt được hiệu suất vượt trội so với các phương pháp hiện tại. Ví dụ, trên bộ dữ liệu Ghế, chúng tôi đạt được độ chính xác Top-1 là (82.59 + 0.49)% và độ chính xác Top-5 là (94.20 + 2.81)% .

Từ khóa

#Hình dạng 3D chi tiết #khôi phục hình dạng 3D #phác thảo #căn chỉnh không gian #mô hình đa vùng #phương pháp xếp hạng.

Tài liệu tham khảo

Qi A, Gryaditskaya Y, Song J, Yang Y, Qi Y, Hospedales TM, Xiang T, Song Y-Z (2021) Toward fine-grained sketch-based 3D shape retrieval. IEEE Trans Image Process 30:8595–8606 Song J, Yu Q, Song Y-Z, Xiang T, Hospedales TM (2017) Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval. In: 2017 IEEE International Conference on Computer Vision (ICCV), pp. 5552–5561. IEEE, Venice Hermans A, Beyer L, Leibe B (2017) In defense of the triplet loss for person re-identification Su H, Maji S, Kalogerakis E, Learned-Miller E (2015) Multi-view Convolutional Neural Networks for 3D Shape Recognition. In: 2015 IEEE International Conference on Computer Vision (ICCV), pp. 945–953. IEEE, Santiago, Chile Johns E, Leutenegger S, Davison AJ (2016) Pairwise Decomposition of Image Sequences for Active Multi-view Recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3813–3822. IEEE, Las Vegas, NV, USA Qi CR, Su H, NieBner M, Dai A, Yan M, Guibas LJ (2016) Volumetric and Multi-view CNNs for Object Classification on 3D Data. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5648–5656. IEEE, Las Vegas, NV, USA He X, Huang T, Bai S, Bai X (2019) View N-Gram Network for 3D Object Retrieval. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pp. 7514–7523. IEEE, Seoul, Korea (South) Charles RQ, Su H, Kaichun M, Guibas LJ (2017) PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 77–85 Qi CR, Yi L, Su H, Guibas LJ (2017) PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. In: Proceedings of the 31st International Conference on Neural Information Processing Systems.NIPS’17, pp. 5105–5114. Curran Associates Inc., Red Hook, NY, USA. event-place: Long Beach, California, USA Uy MA, Huang J, Sung M, Birdal T, Guibas L (2020) Deformation-aware 3D model embedding and retrieval. In: Vedaldi A, Bischof H, Brox T, Frahm J-M (eds) Computer Vision - ECCV 2020, vol 12352. Lecture Notes in Computer Science, Springer, Cham. Series Title, pp 397–413 Riegler G, Ulusoy AO, Geiger A (2017) Octnet: Learning deep 3d representations at high resolutions. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6620–6629 Graham B (2015) Sparse 3D convolutional neural networks. In: Xianghua Xie,M.W.J., Tam,G.K.L. (eds.) Proceedings of the British Machine Vision Conference (BMVC), pp. 150–11509. BMVA Press, ??? Park JJ, Florence P, Straub J, Newcombe R, Lovegrove S (2019) DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation, pp. 165–174 Dai G, Xie J, Fang Y (2018) Deep correlated holistic metric learning for sketch-based 3D shape retrieval. IEEE Trans Image Process 27(7):3374–3386 Bai J, Wang M, Kong D (2019) Deep common semantic space embedding for sketch-based 3D model retrieval. Entropy 21(4):369 Dai G, Xie J, Zhu F, Fang Y (2017) Deep Correlated Metric Learning for Sketch-Based 3D Shape Retrieval. In: Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence(AAAI17), San Francisco, California, USA, pp. 4002–4008 Chen J, Fang Y (2018) Deep Cross-Modality Adaptation via Semantics Preserving Adversarial Learning for Sketch-Based 3D Shape Retrieval. In: Ferrari,V., Hebert,M., Sminchisescu,C., Weiss,Y. (eds.) Computer Vision - ECCV 2018 vol. 11217, pp. 624–640. Springer, Cham. Series Title: Lecture Notes in Computer Science Chen J, Qin J, Liu L, Zhu F, Shen F, Xie J, Shao L (2019) Deep Sketch-Shape Hashing With Segmented 3D Stochastic Viewing. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 791–800. IEEE, Long Beach, CA, USA Xu R, Han Z, Hui L, Qian J, Xie J (2022) Domain Disentangled Generative Adversarial Network for Zero-Shot Sketch-Based 3D Shape Retrieval. arXiv:2202.11948 Xie J, Dai G, Zhu F, Fang Y (2017) Learning Barycentric Representations of 3D Shapes for Sketch-Based 3D Shape Retrieval. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3615–3623. IEEE, Honolulu, HI Zhu F, Xie J, Fang Y (2016) Learning Cross-Domain Neural Networks for Sketch-Based 3D Shape Retrieval. In: Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. AAAI’16, pp. 3683–3689 Wang Fang, Kang Le, Li Yi (2015) Sketch-based 3D shape retrieval using Convolutional Neural Networks. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1875–1883. IEEE, Boston, MA, USA Xu Y, Hu J, Wattanachote K, Zeng K, Gong Y (2020) Sketch-based shape retrieval via best view selection and a cross-domain similarity measure. IEEE Trans Multim, 1–1 Li Y (2014) Fine-grained sketch-based image retrieval by matching deformable part models. In: BMVC, pp. 1–12 Sangkloy P, Burnell N, Ham C, Hays J (2016) The sketchy database: learning to retrieve badly drawn bunnies. ACM Trans Graphics 35(4):1–12 Yu Q, Liu F, Song Y-Z, Xiang T, Hospedales TM, Loy CC (2016) Sketch Me That Shoe. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, Las Vegas, NV, USA, pp 799–807 Pang K, Yang Y, Hospedales TM, Xiang T, Song Y-Z (2020) Solving Mixed-Modal Jigsaw Puzzle for Fine-Grained Sketch-Based Image Retrieval. In: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10344–10352. IEEE, Seattle, WA, USA He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770–778 Gretton A, Borgwardt KM, Rasch MJ, Schölkopf B, Smola A (2012) A kernel two-sample test. J Mach Learn Res 13(null), 723–773 Yuan Z, Zhang W, Tian C, Mao Y, Zhou R, Wang H, Fu K, Sun X (2022) Mcrn: a multi-source cross-modal retrieval network for remote sensing. Int J Appl Earth Obs Geoinf 115:103071 Wang T, Xu X, Yang Y, Hanjalic A, Shen HT, Song J (2019) Matching images and text with multi-modal tensor fusion and re-ranking. Proceedings of the 27th ACM International Conference on Multimedia Yuan Z, Zhang W, Tian C, Rong X, Zhang Z, Wang H, Fu K, Sun X (2022) Remote sensing cross-modal text-image retrieval based on global and local information. IEEE Trans Geosci Remote Sens 60:1–16 Esteves C, Allen-Blanchette C, Makadia A, Daniilidis K (2018) Learning SO(3) Equivariant Representations with Spherical CNNs. In: Ferrari,V., Hebert,M., Sminchisescu,C., Weiss,Y. (eds.) Computer Vision - ECCV 2018 vol. 11217, pp. 54–70. Springer, Cham. Series Title: Lecture Notes in Computer Science