Điều khiển tối ưu thích nghi cho các hệ thống tuyến tính theo thời gian rời rạc không xác định với mức độ ổn định được quy định đảm bảo bằng phương pháp học củng cố

International Journal of Dynamics and Control - Tập 10 - Trang 870-878 - 2021
Seyed Ehsan Razavi1, Mohammad Amin Moradi2, Saeed Shamaghdari2, Mohammad Bagher Menhaj1
1School of Electrical Engineering, Amirkabir University of Technology, Tehran, Iran
2School of Electrical Engineering, Iran University of Science and Technology, Tehran, Iran

Tóm tắt

Bài báo này đề xuất một giải pháp không mô hình để giải quyết vấn đề điều chỉnh tối ưu cho hệ thống tuyến tính không đổi theo thời gian trong điều kiện thời gian rời rạc, khác với các phương pháp trước đây, cung cấp một tỷ lệ hội tụ được đảm bảo cho các biến trạng thái như cần thiết trong một nhóm các bài toán. Ban đầu, bài toán Điều khiển Đường Trình Bình Phương (LQR) với tỷ lệ hội tụ được đảm bảo cho trạng thái được thiết lập cho một hệ thống với động lực học đã biết và phương trình Riccati liên quan được suy diễn. Việc giải phương trình Riccati và tìm kiếm lợi ích phản hồi trạng thái yêu cầu phải nắm rõ động lực học của hệ thống. Để vượt qua vấn đề này, thuật toán Học Củng Cố Lặp Chính Sách (PI) được xây dựng để giải quyết vấn đề LQR với tỷ lệ hội tụ được đảm bảo, và lợi ích phản hồi trạng thái tối ưu được suy diễn mà không cần bất kỳ kiến thức nào về động lực học của hệ thống, chỉ thông qua việc đo lường trạng thái của hệ thống. Cuối cùng, tính hợp lệ của các kết quả được chứng minh thông qua mô phỏng.

Từ khóa

#điều khiển tối ưu #học củng cố #động lực học hệ thống #hội tụ #phương trình Riccati

Tài liệu tham khảo

Kleinman D (1968) On an iterative technique for Riccati equation computations. IEEE Trans Autom Control 13:114–115 Tao G (2003) Adaptive control design and analysis. Wiley, Hoboken Bhasin S et al (2011) Asymptotic tracking by a reinforcement learning-based adaptive critic controller. J Control Theory Appl 9:400–409 Jiang Y et al (2019) Optimal output regulation of linear discrete-time systems with unknown dynamics using reinforcement learning. IEEE Trans Cybern Zhang H et al (2017) Data-based adaptive dynamic programming for a class of discrete-time systems with multiple delays. IEEE Trans Syst Man Cybern Syst 1–10 Sutton RS, Barto AG (2018) Reinforcement learning: an introduction. MIT Press, Cambridge Vamvoudakis KG et al (2017) Game theory-based control system algorithms with real-time reinforcement learning: how to solve multiplayer games online. IEEE Control Syst Mag 37:33–52 Kiumarsi B et al (2018) Optimal and autonomous control using reinforcement learning: a survey. IEEE Trans Neural Netw Learn Syst 29:2042–2062 Lewis FL et al (2012) Optimal control. Wiley, Hoboken Gao W, Jiang Z-P (2016) Adaptive dynamic programming and adaptive optimal output regulation of linear systems. IEEE Trans Autom Control 61:4164–4169 Moghadam R, Lewis FL (2019) Output-feedback H∞ quadratic tracking control of linear systems using reinforcement learning. Int J Adapt Control Signal Process 33:300–314 Modares H et al (2015) ${H} _ {{\infty}} $ Tracking control of completely unknown continuous-time systems via off-policy reinforcement learning. IEEE Trans Neural Netw Learn Syst 26:2550–2562 Zhang H et al (2017) Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method. IEEE Trans Industr Electron 64:4091–4100 Modares H et al (2016) Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning. Automatica 71:334–341 Barto AG et al (1983) Neuronlike adaptive elements that can solve difficult learning control problems. IEEE Trans Syst Man Cybern 834–846. Sutton RS (1988) Learning to predict by the methods of temporal differences. Mach Learn 3:9–44 Werbos PJ (1989) Neural networks for control and system identification. In: Proceedings of the 28th IEEE conference on decision and control. IEEE, pp 260–265 Werbos PJ et al (1990) A menu of designs for reinforcement learning over time. In: Neural networks for control, pp 67–95 Werbos P (1992) Approximate dynamic programming for realtime control and neural modelling. In: Handbook of intelligent control: neural, fuzzy and adaptive approaches, pp 493–525 Bertsekas DP, Tsitsiklis JN (1995) Neuro-dynamic programming: an overview. In: Proceedings of 1995 34th IEEE conference on decision and control. IEEE, pp 560–564 Zhang H et al (2009) Neural-network-based near-optimal control for a class of discrete-time affine nonlinear systems with control constraints. IEEE Trans Neural Netw 20:1490–1503 Lewis FL, Vrabie D (2009) Reinforcement learning and adaptive dynamic programming for feedback control. IEEE Circuits Syst Mag 9:32–50 Leake R, Liu R-W (1967) Construction of suboptimal control sequences. SIAM J Control 5:54–63 Howard RA (1972) Dynamic programming and markov processes. The MIT Press, Cambridge Kiumarsi-Khomartash B et al (2013) Optimal tracking control for linear discrete-time systems using reinforcement learning, 52nd IEEE Conference on Decision and Control. IEEE, pp 3845–3850 Kiumarsi B et al (2014) Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics. Automatica 50:1167–1175 Kiumarsi B et al (2015) Optimal tracking control of unknown discrete-time linear systems using input-output measured data. IEEE Trans Cybern 45:2770–2779 Gao W, Jiang Z-P (2018) Learning-based adaptive optimal tracking control of strict-feedback nonlinear systems. IEEE Trans Neural Netw Learn Syst 29:2614–2624 Jiang Y, Jiang Z-P (2012) Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics. Automatica 48:2699–2704 Modares H et al (2016) Optimal output-feedback control of unknown continuous-time linear systems using off-policy reinforcement learning. IEEE Trans Cybern 46:2401–2410 Zhang H et al (2016) Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method. IEEE Trans Industr Electron 64:4091–4100 Zhang H et al (2018) H∞ consensus for linear heterogeneous multiagent systems based on event-triggered output feedback control scheme. IEEE Trans Cybern 1–12 Zhang H et al (2018) Data-driven distributed optimal consensus control for unknown multiagent systems with input-delay. IEEE Trans Cybern 1–11. Modares H et al (2018) Optimal synchronization of heterogeneous nonlinear systems with unknown dynamics. IEEE Trans Autom Control 63:117–131 Modares H et al (2018) Static output-feedback synchronisation of multi-agent systems: a secure and unified approach. IET Control Theory Appl 12:1095–1106 Kiumarsi B, Lewis FL (2017) Output synchronization of heterogeneous discrete-time systems: a model-free optimal approach. Automatica 84:86–94 Kiumarsi B et al (2017) H∞ control of linear discrete-time systems: off-policy reinforcement learning. Automatica 78:144–152