Tăng cường dữ liệu ảnh tàu thuyền chụp từ UAV trong giám sát hàng hải sử dụng mô hình ngôn ngữ đa phương thức và mô hình khuếch tán

Journal of Military Science and Technology - Số IITE - Trang 160-168 - 2025

Le Thi Thu Hong¹, Pham Thu Huong¹, Doan Quang Tu¹, Nguyen Chi Thanh¹

¹Institute of Information Technology and Electronics, Academy of Military Science and Technology

Tóm tắt

Trong lĩnh vực giám sát hàng hải, việc phát hiện tàu thuyền từ ảnh chụp bởi thiết bị bay không người lái (UAV) đóng vai trò quan trọng trong đảm bảo an ninh và an toàn trên biển. Tuy nhiên, sự hạn chế về số lượng và tính đa dạng của dữ liệu gán nhãn thường làm giảm hiệu suất của các mô hình trong môi trường hàng hải phức tạp. Nghiên cứu này giới thiệu một quy trình tăng cường dữ liệu mới, sử dụng các mô hình sinh đa phương thức để tạo ra các mẫu tổng hợp chân thực nhằm mở rộng tập huấn luyện. Mô tả cảnh được tự động sinh từ ảnh UAV bằng Gemma, một mô hình ngôn ngữ đa phương thức gọn nhẹ, sau đó được dùng để hướng dẫn FLUX, một mô hình khuếch tán chuyển văn bản thành hình ảnh, tạo ra các cảnh có tàu trong nhiều điều kiện môi trường khác nhau. Chiến lược gán nhãn lai được áp dụng, kết hợp giữa dự đoán ban đầu của YOLO-World và tinh chỉnh thủ công nhằm đảm bảo độ chính xác của nhãn. Tập dữ liệu tổng hợp sau đó được kết hợp với dữ liệu gốc để huấn luyện mô hình phát hiện tàu. Thí nghiệm trên bộ dữ liệu VESSELImg cho thấy phương pháp đề xuất giúp mô hình YOLOv11 tăng chỉ số mAP từ 0.775 lên 0.805 ở ngưỡng IoU 0.50:0.95. Kết quả này khẳng định hiệu quả của việc tích hợp mô hình ngôn ngữ và khuếch tán đa phương thức trong tăng cường dữ liệu chuyên biệt, giúp cải thiện khả năng khái quát và độ bền vững của hệ thống phát hiện tàu từ UAV.

Từ khóa

#Diffusion; Image synthesis; Data augmentation; Vessel detection.

Tài liệu tham khảo

[1]. Cheng, S., Zhu, Y., & Wu, S. “Deep learning based efficient ship detection from drone-captured images for maritime surveillance.” Ocean engineering, 285, 115440, (2023).

[2]. Shorten, C., & Khoshgoftaar, T. M. “A survey on image data augmentation for deep learning.” Journal of big data, 6(1), 1–48, (2019).

[3]. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, (2022).

[4]. Team, G et al. “Gemma: Open models based on gemini research and technology.” arXiv preprint arXiv:2403.08295, (2024).

[5]. Black Forest Lab. “FLUX.”, (2024). https://github.com/black-forest-labs/flux.

[6]. Cheng, T., Song, L., Ge, Y., Liu, W., Wang, X., & Shan, Y. “Yolo-world: Real-time open-vocabulary object detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, –, 16901–16911, (2024).

[7]. Glenn, J., & Jing, Q. “Ultralytics YOLO11.”, (2024). https://github.com/ultralytics/ultralytics.

[8]. Goodfellow. I et al. “Generative adversarial nets.” Advances in neural information processing systems, pp. 2672–2680, (2014).

[9]. Xu, M., Xie, L., Liu, Y., Wang, S., & Zhang, Y. “Generative adversarial networks in remote sensing: A review.” ISPRS journal of photogrammetry and remote sensing, 166, 296–312, (2020).

[10]. Zhang, Y., Zhang, C., Zhang, Q., & Xie, W. “Data augmentation with conditional GAN for aerial scene classification.” Remote sensing, 11(3), 243, (2019).

[11]. Dhariwal, P., & Nichol, A. “Diffusion models beat GANs on image synthesis.” Advances in neural information processing systems, 34, 8780–8794, (2021).

[12]. Ho, J., Jain, A., & Abbeel, P. “Denoising diffusion probabilistic models.” arXiv preprint arXiv:2006.11239, (2020).

[13]. Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E., Salimans, T., Ho, J., Fleet, D., & Norouzi, M. “Imagen: Text-to-image diffusion models.” International conference on machine learning (ICML), (2022).

[14]. Wolleb, J., Dejakum, K., Sandkühler, P., Reich, M., Lunz, S., & Cattin, P. C. “Diffusion models for medical anomaly detection.” Medical image analysis, 76, 102327, (2022).

[15]. Rubis, B., Cacace, J., Rodriguez, J., Company, R., Tanner, M., Arzo, R., & Cayero, J. “VESSELImg: A large UAV-based vessel image dataset for port surveillance.” International conference on unmanned aircraft systems (ICUAS), 76–83, (2024).

[16]. https://huggingface.co/google/gemma-3-4b-it

[17]. https://huggingface.co/black-forest-labs/FLUX.1-dev

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA