Một Phương Pháp Lập Kế Hoạch Đường Đi Dựa Trên Học Tăng Cường Sâu Hiệu Quả Cho Các Cánh Tay Robot Trong Môi Trường Động

Journal of Intelligent and Robotic Systems - Tập 107 - Trang 1-17 - 2023
Li Zheng1, YaHao Wang1, Run Yang1, Shaolei Wu2, Rui Guo3, Erbao Dong1
1CAS Key Laboratory of Mechanical Behavior and Design of Materials, Department of Precision Machinery and Precision Instrumentation, University of Science and Technology of China, Hefei, China
2State Grid Anhui Electric Power Company Electric Power Research Institute, Hefei, China
3State Grid Intelligent Technology Co, Jinan, China

Tóm tắt

Gần đây, các phương pháp lập kế hoạch đường đi dựa trên học tăng cường sâu (DRL) đã được thiết kế cho lập kế hoạch đường đi của các cánh tay robot, với tiềm năng giải quyết vấn đề lập kế hoạch đường đi không gian đa chiều. Tuy nhiên, nhiều mô hình DRL đã được đề xuất cho các cánh tay robot hoạt động trong môi trường động gặp khó khăn trong việc đạt được chiến lược tối ưu, dẫn đến việc chúng không đạt được hội tụ do việc khám phá không hiệu quả và thưởng thưa. Trong nghiên cứu này, chúng tôi giải quyết vấn đề hội tụ không hiệu quả ở hai cấp độ là chiến lược lựa chọn hành động và hàm thưởng. Đầu tiên, bài báo thiết kế chiến lược lựa chọn hành động động giúp tăng khả năng cung cấp mẫu tích cực trong giai đoạn tiền huấn luyện bằng cách sử dụng mục hướng dẫn biến đổi và giảm thiểu việc khám phá không hợp lệ. Thứ hai, nghiên cứu đề xuất một hàm thưởng tổ hợp kết hợp phương pháp trường tiềm năng nhân tạo với hàm thời gian-năng lượng, từ đó cải thiện đáng kể hiệu quả và tính ổn định của các phương pháp dựa trên DRL cho lập kế hoạch đường đi của các cánh tay robot trong môi trường làm việc động. Các thí nghiệm rộng rãi đã được tiến hành sử dụng mô hình mô phỏng CoppeliaSim với chướng ngại vật di chuyển tự do và cánh tay robot 6-DOF. Kết quả cho thấy chiến lược lựa chọn hành động động và hàm thưởng tổ hợp đề xuất có thể cải thiện tỷ lệ hội tụ trên các thuật toán DRL DDPG, TD3 và SAC lên đến 3-5 lần. Hơn nữa, giá trị trung bình của hàm thưởng tăng lên đến 1.47-2.70 lần và độ lệch chuẩn giảm từ 27.56% đến 56.60%.

Từ khóa


Tài liệu tham khảo

Brogåardh, T.: Present and future robot control development—an industrial perspective. Annu. Rev. Control. 31(1), 69–79 (2007) Wonsick, M., Long, P., Önol, A.Ö., Wang, M., Padır, T.: A holistic approach to human-supervised humanoid robot operations in extreme environments. Front. Robot. and AI 8, 148 (2021) Gonçalves R.S., Carvalho, J.C.M.: Review and latest trends in mobile robots used on power transmission lines. Int. J. Adv. Robot. Syst. 10(12), 408 (2013) Mgbemena, E.: Man-machine systems : a review of current trends and applications. FUPRE J. Sci Ind. Res. (FJSIR) 4(2), 91–117 (2020) Robla-Gomeź, S., Becerra, V.M., Llata, J.R., Gonzalez-Sarabia, E., Torre-Ferrero, C., Perez-Oria, J.: Working together : a review on safe human-robot collaboration in industrial environments. IEEE Access 5, 26754–26773 (2017) Ata, A.A.: Optimal trajectory planning of manipulators : a review. J. Eng. Sci. Technol. 2(1), 32–54 (2007) Wang, T., Wang, W., Wei, F.: An overview of control strategy and trajectory planning of visual servoing. In: Recent Featured Applications of Artificial Intelligence Methods. LSMS 2020 and ICSEE 2020 Workshops, pp. 358–370. Springer (2020) Gasparetto, A., Boscariol, P., Lanzutti, A., Vidoni, R.: Path planning and trajectory planning algorithms: a general overview. Motion Oper. Plan. Robot. Syst. 3–27 (2015) Guan, Y., Yokoi, K., Stasse, O., Kheddar, A.: On robotic trajectory planning using polynomial interpolations. In: 2005 IEEE International Conference on Robotics and Biomimetics-ROBIO, pp. 111–116. IEEE (2005) Fang, S., Ma, X., Zhao, Y., Zhang, Q., Li, Y.: Trajectory planning for seven-dof robotic arm based on quintic polynormial. In: 2019 11th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC), vol. 2, pp. 198–201. IEEE (2019) Wang, H., Wang, H., Huang, J., Zhao, B., Quan, L.: Smooth point-to-point trajectory planning for industrial robots with kinematical constraints based on high-order polynomial curve. Mech. Mach. Theory 139, 284–293 (2019) Guldner, J.R., Utkin, V.I., Hashimoto H.: Robot obstacle avoidance in n-dimensional space using planar harmonic artificial potential fields (1997) Guernane, R., Belhocine, M.: A smoothing strategy for prm paths application to six-axes motoman sv3x manipulator. In: 2005 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 4155–4160. IEEE (2005) Kuwata, Y., Teo, J., Fiore, G., Karaman, S., Frazzoli, E., How, J. P.: Real-time motion planning with applications to autonomous urban driving. IEEE Trans. Control Syst. Technol. 17(5), 1105–1118 (2009) Sepehri, A., Moghaddam, A.M.: A motion planning algorithm for redundant manipulators using rapidly exploring randomized trees and artificial potential fields. IEEE Access 9, 26059–26070 (2021) Qureshi, A.H., Nakamura, Y., Yoshikawa, Y., Ishiguro, H.: Robot gains social intelligence through multimodal deep reinforcement learning. In: 2016 IEEE-RAS 16th International Conference on Humanoid Robots (Humanoids), pp. 745–751. IEEE (2016) Kahn, G., Villaflor, A., Ding, B., Abbeel, P., Levine, S.: Self-supervised deep reinforcement learning with generalized computation graphs for robot navigation. In: 2018 IEEE International Conference on Robotics and Automation (ICRA), pp. 5129–5136. IEEE (2018) Tai, L., Paolo, G., Liu, M.: Virtual-to-real deep reinforcement learning : Continuous control of mobile robots for mapless navigation. In: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 31–36. IEEE (2017) Chen, X., Ghadirzadeh, A., Folkesson, J., Björkman, M., Jensfelt, P.: Deep reinforcement learning to acquire navigation skills for wheel-legged robots in complex environments. In: 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 3110–3116. IEEE (2018) Zhao, T., Deng, M., Li, Z., Hu, Y.: Cooperative manipulation for a mobile dual-arm robot using sequences of dynamic movement primitives. IEEE Trans. Cogn. Dev. Syst. 12(1), 18–29 (2018) Rahatabad, F.N., Rangraz, P.: Combination of reinforcement learning and bee algorithm for controlling two-link arm with six muscle: simplified human arm model in the horizontal plane. Phys. Eng. Sci. Med. 43(1), 135–142 (2020) Liu, C., Gao, J., Bi, Y., Shi, X., Tian, D.: A multitasking-oriented robot arm motion planning scheme based on deep reinforcement learning and twin synchro-control. Sensors 20(12), 3515 (2020) Wu, Y.-H., Yu, Z.-C., Li, C.-Y., He, M.-J., Hua, B., Chen, Z.-M.: Reinforcement learning in dual-arm trajectory planning for a free-floating space robot. Aerosp. Sci. Technol. 98, 105657 (2020) Chen, S., Yan, D., Zhang, Y., Tan, Y., Wang, W.: Live working manipulator control model based on dppo-dqn combined algorithm. In: 2019 IEEE 4th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), vol. 1, pp. 2620–2624. IEEE (2019) Rohmer, E., Singh, S.P., Freese, M.: V-rep : a versatile and scalable robot simulation framework. In: 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 1321–1326. IEEE (2013) Freese, M., Singh, S., Ozaki, F., Matsuhira, N.: Virtual robot experimentation platform v-rep : a versatile 3d robot simulator. In: International Conference on Simulation, Modeling, and Programming for Autonomous Robots, pp. 51–62. Springer (2010) Lillicrap, T.P., Hunt, J.J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., Wierstra, D.: Continuous control with deep reinforcement learning. arXiv:1509.02971 (2015) Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M.G., Graves, A., Riedmiller, M., Fidjeland, A.K., Ostrovski, G., et al.: Human-level control through deep reinforcement learning. Nature 518(7540), 529–533 (2015) Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., Horgan, D., Piot, B., Azar, M., Silver, D.: Rainbow: combining improvements in deep reinforcement learning. In: Thirty-Second AAAI Conference on Artificial Intelligence (2018) Fujimoto, S., Hoof, H., Meger, D.: Addressing function approximation error in actor-critic methods. In: International Conference on Machine Learning, pp. 1587–1596. PMLR (2018) Haarnoja, T., Zhou, A., Abbeel, P., Levine, S.: Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In: International Conference on Machine Learning, pp. 1861–1870. PMLR (2018)