Cải tiến và tối ưu hoá thuật toán của lõi IP nhân chập ma trận trong mạng nơ-ron trên FPGA

Journal of Military Science and Technology - Số IITE - Trang 123-130 - 2025

Phan Hong Minh¹, Nguyen Tien Viet², Do Doanh Dien¹

¹Institute of Information Technology and Electronics, Academy of Military Science and Technology

²Information Technology Office, Military Region 2

Tóm tắt

Bài báo trình bày một phương pháp tối ưu hoá lõi IP nhân ma trận trên FPGA thông qua việc biến đổi phép tích chập thành phép nhân ma trận. Giải pháp đề xuất khai thác cơ chế tính toán song song kết hợp nạp dữ liệu đồng thời trong cùng một chu kỳ xử lý, giúp giảm nhu cầu bộ nhớ và độ trễ tính toán. Ngoài ra, việc ép kiểu dữ liệu đầu ra từ 64-bit xuống 32-bit góp phần thu nhỏ bộ đệm kết quả, qua đó tiết kiệm đáng kể tài nguyên phần cứng. Kết quả mô phỏng trên ModelSim và Vivadol-Vitis cho thấy thiết kế đạt hiệu suất tính toán và hiệu quả tài nguyên vượt hơn so với các cách triển khai truyền thống, đồng thời vẫn đảm bảo thời gian tính toán ổn định. Công trình này hướng tới thiết kế chip tăng tốc suy luận CNN trên FPGA cho các ứng dụng AI biên, nơi hạn chế về tài nguyên và điện năng là các ràng buộc quan trọng.

Từ khóa

#IP cores; Matrix multiplication; FPGA-CNN; MAC; Vivado-Vitis.

Tài liệu tham khảo

[1]. Nguyen, X.-Q. and Pham-Quoc, C., “An FPGA-base Convolution IP Core for Deep Neural Networks Acceleration,” Rev Journal on Electronics and Communications, Vol. 12, No. 1–2, pp. 1–6 (2022). DOI: 10.21553/rev-jec.286.

[2]. Han, S., Pool, J., Tran, J., and Dally, W. J., “Learning Both Weights and Connections for Efficient Neural Networks,” Neural Information Processing Systems (NeurIPS), Vol. 28 (2015).

[3]. Wen, W., Wu, C., Wang, Y., Chen, Y., and Li, H., “Learning Structured Sparsity in Deep Neural Networks,” Advances in Neural Information Processing Systems (NeurIPS) (2016).

[4]. Gschwend, D., “ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network,” arXiv Preprint, arXiv:2005.06892 (2020).

[5]. Li, Y., et al., “Implementation of Energy‐Efficient Fast Convolution Algorithm for Deep Convolutional Neural Networks Based on FPGA,” Electronics Letters, Vol. 56, No. 5, pp. 234–236 (2020).

[6]. Liu, X et al., “WinoCNN: Kernel Sharing Winograd Systolic Array for Efficient Convolutional Neural Network Acceleration on FPGAs,” Proceedings of the International Conference on Application-Specific Systems, Architectures and Processors (ASAP) (2021).

[7]. Zhang, Y., et al., “An Efficient Convolutional Neural Network Accelerator Design on FPGA Using the Layer-to-Layer Unified Input Winograd Architecture,” Electronics, Vol. 14, No. 6, Article 1182 (2025). DOI: 10.3390/electronics14061182.

[8]. Taka, E., Huang, N.-C., Chang, C.-C., Wu, K.-C., Arora, A., and Marculescu, D., “Systolic Sparse Tensor Slices: FPGA Building Blocks for Sparse and Dense AI Acceleration,” arXiv Preprint, arXiv:2502.03763v1 [cs.AR] (2025).

[9]. https://www.fpga4student.com/2016/11/matrix-multiplier-core-design.html

[10]. https://people.ece.cornell.edu/land/courses/ece5760/FinalProjects/f2020/bjd86_lgp36/bjd86_lgp36/index.html

[11]. https://www.mathworks.com/help/hdlverifier/xilinxfpgaboards/ug/large-matrix-multiplication-using-ethernet-aximaster.html

Scholar Hub - Công cụ hỗ trợ trích dẫn và phân tích khoa học Việt Nam

Về chúng tôi

Scholar Hub là công cụ hỗ trợ trích dẫn và phân tích các bài báo, công bố khoa học Việt Nam. Công cụ trợ giúp người nghiên cứu, tạp chí, đơn vị nghiên cứu tra cứu, phân tích và thống kê dữ liệu nghiên cứu khoa học tại Việt Nam và quốc tế.
ScholarHub KHÔNG đăng thông tin tổng hợp, KHÔNG đăng lại nội dung từ các trang báo chí Việt Nam hoặc trang thông tin điện tử khác tại Việt Nam.

Thông tin, cập nhật

Đăng ký Tạp chí tham gia vào Scholar Hub

Phản hồi ý kiến về Scholar Hub

Bài viết, nội dung cập nhật

Chủ đề khoa học

Website liên kết

Hệ thống CSDL Khoa học & Công nghệ

Phần mềm kiểm tra trùng lặp Kiểm Tra Tài Liệu

Phần mềm xuất bản tạp chí điện tử VOJS

Nền tảng trắc nghiệm và đề thi đa lĩnh vực LetQA