Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Điều khiển tối ưu thích nghi cho các hệ thống tuyến tính theo thời gian rời rạc không xác định với mức độ ổn định được quy định đảm bảo bằng phương pháp học củng cố
Tóm tắt
Bài báo này đề xuất một giải pháp không mô hình để giải quyết vấn đề điều chỉnh tối ưu cho hệ thống tuyến tính không đổi theo thời gian trong điều kiện thời gian rời rạc, khác với các phương pháp trước đây, cung cấp một tỷ lệ hội tụ được đảm bảo cho các biến trạng thái như cần thiết trong một nhóm các bài toán. Ban đầu, bài toán Điều khiển Đường Trình Bình Phương (LQR) với tỷ lệ hội tụ được đảm bảo cho trạng thái được thiết lập cho một hệ thống với động lực học đã biết và phương trình Riccati liên quan được suy diễn. Việc giải phương trình Riccati và tìm kiếm lợi ích phản hồi trạng thái yêu cầu phải nắm rõ động lực học của hệ thống. Để vượt qua vấn đề này, thuật toán Học Củng Cố Lặp Chính Sách (PI) được xây dựng để giải quyết vấn đề LQR với tỷ lệ hội tụ được đảm bảo, và lợi ích phản hồi trạng thái tối ưu được suy diễn mà không cần bất kỳ kiến thức nào về động lực học của hệ thống, chỉ thông qua việc đo lường trạng thái của hệ thống. Cuối cùng, tính hợp lệ của các kết quả được chứng minh thông qua mô phỏng.
Từ khóa
#điều khiển tối ưu #học củng cố #động lực học hệ thống #hội tụ #phương trình RiccatiTài liệu tham khảo
Kleinman D (1968) On an iterative technique for Riccati equation computations. IEEE Trans Autom Control 13:114–115
Tao G (2003) Adaptive control design and analysis. Wiley, Hoboken
Bhasin S et al (2011) Asymptotic tracking by a reinforcement learning-based adaptive critic controller. J Control Theory Appl 9:400–409
Jiang Y et al (2019) Optimal output regulation of linear discrete-time systems with unknown dynamics using reinforcement learning. IEEE Trans Cybern
Zhang H et al (2017) Data-based adaptive dynamic programming for a class of discrete-time systems with multiple delays. IEEE Trans Syst Man Cybern Syst 1–10
Sutton RS, Barto AG (2018) Reinforcement learning: an introduction. MIT Press, Cambridge
Vamvoudakis KG et al (2017) Game theory-based control system algorithms with real-time reinforcement learning: how to solve multiplayer games online. IEEE Control Syst Mag 37:33–52
Kiumarsi B et al (2018) Optimal and autonomous control using reinforcement learning: a survey. IEEE Trans Neural Netw Learn Syst 29:2042–2062
Lewis FL et al (2012) Optimal control. Wiley, Hoboken
Gao W, Jiang Z-P (2016) Adaptive dynamic programming and adaptive optimal output regulation of linear systems. IEEE Trans Autom Control 61:4164–4169
Moghadam R, Lewis FL (2019) Output-feedback H∞ quadratic tracking control of linear systems using reinforcement learning. Int J Adapt Control Signal Process 33:300–314
Modares H et al (2015) ${H} _ {{\infty}} $ Tracking control of completely unknown continuous-time systems via off-policy reinforcement learning. IEEE Trans Neural Netw Learn Syst 26:2550–2562
Zhang H et al (2017) Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method. IEEE Trans Industr Electron 64:4091–4100
Modares H et al (2016) Optimal model-free output synchronization of heterogeneous systems using off-policy reinforcement learning. Automatica 71:334–341
Barto AG et al (1983) Neuronlike adaptive elements that can solve difficult learning control problems. IEEE Trans Syst Man Cybern 834–846.
Sutton RS (1988) Learning to predict by the methods of temporal differences. Mach Learn 3:9–44
Werbos PJ (1989) Neural networks for control and system identification. In: Proceedings of the 28th IEEE conference on decision and control. IEEE, pp 260–265
Werbos PJ et al (1990) A menu of designs for reinforcement learning over time. In: Neural networks for control, pp 67–95
Werbos P (1992) Approximate dynamic programming for realtime control and neural modelling. In: Handbook of intelligent control: neural, fuzzy and adaptive approaches, pp 493–525
Bertsekas DP, Tsitsiklis JN (1995) Neuro-dynamic programming: an overview. In: Proceedings of 1995 34th IEEE conference on decision and control. IEEE, pp 560–564
Zhang H et al (2009) Neural-network-based near-optimal control for a class of discrete-time affine nonlinear systems with control constraints. IEEE Trans Neural Netw 20:1490–1503
Lewis FL, Vrabie D (2009) Reinforcement learning and adaptive dynamic programming for feedback control. IEEE Circuits Syst Mag 9:32–50
Leake R, Liu R-W (1967) Construction of suboptimal control sequences. SIAM J Control 5:54–63
Howard RA (1972) Dynamic programming and markov processes. The MIT Press, Cambridge
Kiumarsi-Khomartash B et al (2013) Optimal tracking control for linear discrete-time systems using reinforcement learning, 52nd IEEE Conference on Decision and Control. IEEE, pp 3845–3850
Kiumarsi B et al (2014) Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics. Automatica 50:1167–1175
Kiumarsi B et al (2015) Optimal tracking control of unknown discrete-time linear systems using input-output measured data. IEEE Trans Cybern 45:2770–2779
Gao W, Jiang Z-P (2018) Learning-based adaptive optimal tracking control of strict-feedback nonlinear systems. IEEE Trans Neural Netw Learn Syst 29:2614–2624
Jiang Y, Jiang Z-P (2012) Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics. Automatica 48:2699–2704
Modares H et al (2016) Optimal output-feedback control of unknown continuous-time linear systems using off-policy reinforcement learning. IEEE Trans Cybern 46:2401–2410
Zhang H et al (2016) Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method. IEEE Trans Industr Electron 64:4091–4100
Zhang H et al (2018) H∞ consensus for linear heterogeneous multiagent systems based on event-triggered output feedback control scheme. IEEE Trans Cybern 1–12
Zhang H et al (2018) Data-driven distributed optimal consensus control for unknown multiagent systems with input-delay. IEEE Trans Cybern 1–11.
Modares H et al (2018) Optimal synchronization of heterogeneous nonlinear systems with unknown dynamics. IEEE Trans Autom Control 63:117–131
Modares H et al (2018) Static output-feedback synchronisation of multi-agent systems: a secure and unified approach. IET Control Theory Appl 12:1095–1106
Kiumarsi B, Lewis FL (2017) Output synchronization of heterogeneous discrete-time systems: a model-free optimal approach. Automatica 84:86–94
Kiumarsi B et al (2017) H∞ control of linear discrete-time systems: off-policy reinforcement learning. Automatica 78:144–152
