FuseNet: Mạng Phát Hiện Đối Tượng 3D với Thông Tin Kết Hợp cho Điểm Lidar

Springer Science and Business Media LLC - Tập 54 - Trang 5063-5078 - 2022
Biao Liu1, Bihao Tian1, Hengyang Wang1, Junchao Qiao1, Zhi Wang2
1School of Electrical Engineering, Beijing Jiaotong University, Beijing, China
2School of Science, Beijing Jiaotong University, Beijing (China)

Tóm tắt

Phát hiện đối tượng 3D từ đám mây điểm lidar đóng một vai trò quan trọng trong hệ thống cảm biến môi trường của các phương tiện tự lái. Trong bài báo này, chúng tôi đề xuất hai mô-đun cho công việc phát hiện đối tượng thông qua việc trích xuất thông tin voxel ban đầu chi tiết hơn và kết hợp đầy đủ thông tin ngữ cảnh. Ngoài ra, chúng tôi trích xuất thông tin mật độ như là đặc trưng ban đầu của các voxel và kết hợp hoàn toàn thông tin tọa độ và mật độ bằng phương pháp dựa trên điểm để giảm thiểu mất mát dữ liệu gốc do quá trình voxel hóa. Thứ hai, chúng tôi trích xuất các đặc trưng voxel với một mạng nơ-ron nền tảng dựa trên tích chập thưa 3D. Chúng tôi đề xuất một Mạng Đề Xuất Khu Vực Kết Nối Chéo để tích hợp các đặc trưng khu vực nhiều quy mô và nhiều độ sâu, nhằm thu được các khu vực đề xuất 3D chất lượng cao. Thêm vào đó, chúng tôi mở rộng chiến lược tạo mục tiêu trong thuật toán phát hiện đối tượng 3D dựa trên neo, điều này ổn định hiệu suất của mạng đối với nhiều đối tượng. Các mô-đun của chúng tôi có thể được áp dụng linh hoạt cho các mô hình tiên tiến nhất và cải thiện hiệu suất của mạng một cách hiệu quả, điều này chứng minh tính hiệu quả của các mô-đun mà chúng tôi đã đề xuất.

Từ khóa

#phát hiện đối tượng 3D #đám mây điểm lidar #mạng nơ-ron #thông tin ngữ cảnh #voxel hóa

Tài liệu tham khảo

Xiaozhi C, Huimin M, Ji W, Bo L, Tian X (2017) Multi-view 3D object detection network for autonomous driving, Spotlight 4–2B—YouTube. Comput Videos 1907–1915. Available: https://www.youtube.com/watch?v=ChkgSvxAvMg. Ku J, Mozifian M, Lee J, Harakeh A, Waslander SL (2018) Joint 3D proposal generation and object detection from view aggregation. IEEE Int Conf Intell Robot Syst. https://doi.org/10.1109/IROS.2018.8594049 Girshick R (2015) Fast R-CNN. Proc IEEE Int Conf Comput Vis. https://doi.org/10.1109/ICCV.2015.169 Deng J, Shi S, Li P, Zhou W, Zhang Y, Li H (2020) Voxel R-CNN: towards high performance voxel-based 3D object detection. Available: http://arxiv.org/abs/2012.15712. Yan Y, Mao Y, Li B (2018) Second: Sparsely embedded convolutional detection. Sensors (Switzerland) 18(10):1–17. https://doi.org/10.3390/s18103337 Shi S, Wang Z, Shi J, Wang X, Li H (2020) From points to parts: 3D object detection from point cloud with part-aware and part-aggregation network. IEEE Trans Pattern Anal Mach Intell. https://doi.org/10.1109/tpami.2020.2977026 Geiger A, Lenz P, Urtasun R (2012) Are we ready for autonomous driving? the KITTI vision benchmark suite. Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit. https://doi.org/10.1109/CVPR.2012.6248074 Qi CR, Su H, Mo K, Guibas LJ (2017) Pointnet: Deep learning on point sets for 3D classification and segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 652-660). https://doi.org/10.1109/CVPR.2017.16 Qi CR, Yi L, Su H, Guibas LJ (2017) PointNet++: Deep hierarchical feature learning on point sets in a metric space. Adv Neural Inf Process Syst 30:5100–5109 Qi CR, Liu W, Wu C, Su H, Guibas LJ (2018) Frustum pointnets for 3D object detection from Rgb-D data. In: Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 918-927). https://doi.org/10.1109/CVPR.2018.00102. Jaritz M, Gu J, Su H (2019) Multi-view pointnet for 3d scene understanding. In: Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops 2019 (pp. 0-0). https://doi.org/10.1109/ICCVW.2019.00494. Yang Z, Sun Y, Liu S, Shen X, Jia J (2019) Std: Sparse-to-dense 3d object detector for point cloud. In: Proceedings of the IEEE/CVF International Conference on Computer Vision 2019 (pp. 1951-1960). https://doi.org/10.1109/ICCV.2019.00204. Liang M, Yang B, Wang S, Urtasun R (2018) Deep continuous fusion for multi-sensor 3D object detection. Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics). https://doi.org/10.1007/978-3-030-01270-0_39. He C, Zeng H, Huang J, Hua XS, Zhang L (2020) Structure aware single-stage 3D object detection from point cloud. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11873-11882). https://doi.org/10.1109/CVPR42600.2020.01189. Shi S, et al. (2020) Pv-rcnn: Point-voxel feature set abstraction for 3d object detection. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10529-10538)., https://doi.org/10.1109/CVPR42600.2020.01054. Lang AH, Vora S, Caesar H, Zhou L, Yang J, Beijbom O (2019) Pointpillars: Fast encoders for object detection from point clouds. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12697-12705). https://doi.org/10.1109/CVPR.2019.01298. Shi S, Wang X, Li H (2019) Pointrcnn: 3D object proposal generation and detection from point cloud. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 770-779). https://doi.org/10.1109/CVPR.2019.00086. Ren S, He K, Girshick R, Sun J (2017) Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell 39(6):1137–1149. https://doi.org/10.1109/TPAMI.2016.2577031 Zheng W, Tang W, Jiang L, Fu C-W (2021) SE-SSD: Self-ensembling single-stage object detector from point cloud (pp. 14494–14503). Available: http://arxiv.org/abs/2104.09804.s Simon M, et al. (2018) Complex-YOLO: Real-time 3D object detection on point clouds. Yang B, Luo W, Urtasun R (2019) PIXOR: Real-time 3D object detection from point clouds. In: 2018 IEEE/CVF conference on computer vision and pattern recognition IEEE. Li C et al (2021) HDNet: Hybrid distance network for semantic segmentation. Neurocomputing 447:129–144 Zhang S, Wen L, Bian X, Lei Z, Li SZ (2018) RefinementNet. In: Proceeding IEEE conference computer visual pattern recognition (pp. 4203–4212) Li Z, Yao Y, Quan Z, Yang W, Xie J (2021) SIENet: spatial information enhancement network for 3D object detection from point cloud (pp. 32–34). Available: http://arxiv.org/abs/2103.15396. Tan M, Pang R, Le QV (2020) Efficientdet: Scalable and efficient object detection. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10781-10790). https://doi.org/10.1109/CVPR42600.2020.01079. Yang Z, Sun Y, Liu S, Jia J (2020) 3DSSD: Point-based 3d single stage object detector. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 11040-11048). https://doi.org/10.1109/CVPR42600.2020.01105. Liu Z, Zhao X, Huang T, Hu R, Zhou Y, Bai X (2020) Tanet: Robust 3d object detection from point clouds with triple attention. In Proceedings of the AAAI Conference on Artificial Intelligence 34(07): 11677-11684. https://doi.org/10.1609/aaai.v34i07.6837 Chen Q, Sun L, Wang Z, Jia K, Yuille A (2020) Object as hotspots: an anchor-free 3D object detection approach via firing of hotspots. Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics). https://doi.org/10.1007/978-3-030-58589-1_5 Wang Z, Jia K (2019) Frustum convnet: Sliding frustums to aggregate local point-wise features for amodal 3D object detection. In: 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp. 1742-1749). IEEE. https://doi.org/10.1109/IROS40897.2019.8968513. Shi W, Rajkumar R (2020) Point-gnn: Graph neural network for 3d object detection in a point cloud. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1711-1719). https://doi.org/10.1109/CVPR42600.2020.00178.