Kiểm Soát Tối Ưu Các Quy Trình Markov Nhìn Thấy Một Phần Trong Thời Gian Hữu Hạn

Operations Research - Tập 21 Số 5 - Trang 1071-1088 - 1973
Richard D. Smallwood1, Edward J. Sondik2
1Stanford University, Stanford, California, and Xerox Palo Alto Research Center, Palo Alto, California
2Stanford University, Stanford, California

Tóm tắt

Bài báo này thiết lập vấn đề kiểm soát tối ưu cho một lớp mô hình toán học trong đó hệ thống cần kiểm soát được đặc trưng bởi một quá trình Markov rời rạc với trạng thái hữu hạn. Các trạng thái của quá trình nội bộ này không thể quan sát trực tiếp từ bộ điều khiển; thay vào đó, bộ điều khiển có một tập hợp đầu ra có thể quan sát mà chỉ có mối quan hệ xác suất với trạng thái nội tại của hệ thống. Phương pháp thiết lập được minh họa bằng một ví dụ đơn giản về bảo trì máy móc, và các lĩnh vực ứng dụng cụ thể khác cũng được thảo luận. Bài báo chứng minh rằng, nếu chỉ còn một số lượng hữu hạn các khoảng thời gian kiểm soát, thì hàm chi trả tối ưu là một hàm lồi, tuyến tính từng đoạn của xác suất trạng thái hiện tại của quá trình Markov nội bộ. Ngoài ra, một thuật toán để sử dụng thuộc tính này nhằm tính toán chính sách kiểm soát tối ưu và hàm chi trả cho bất kỳ khoảng thời gian hữu hạn nào được phác thảo. Những kết quả này được minh họa bằng một ví dụ số cho vấn đề bảo trì máy móc.

Từ khóa


Tài liệu tham khảo