Kỹ thuật lập kế hoạch đường đi cho tác nhân tự động thông minh kết hợp nhận thức/phản ứng trong môi trường phân phối không cấu trúc

Springer Science and Business Media LLC - Tập 59 - Trang 1188-1217 - 2010
Dalila B. Megherbi1, Vikram Malayia1
1CMINDS Research Center, Electrical & Computer Engineering Department, University of Massachusetts, Lowell, USA

Tóm tắt

Bài báo này đề xuất một kỹ thuật lập kế hoạch đường đi cho các tác nhân tự động nằm trong một môi trường phân phối không cấu trúc, nơi mà mỗi tác nhân chỉ có kiến thức hạn chế và không đầy đủ về môi trường. Mỗi tác nhân chỉ nắm bắt được những thông tin có sẵn trong bộ nhớ phân phối của nút tính toán mà tác nhân đang hoạt động và các tác nhân sẽ chia sẻ một số thông tin học được qua một mạng lưới phân phối. Cụ thể, môi trường được chia thành nhiều khu vực và mỗi khu vực nằm trên một nút tính toán phân phối riêng biệt. Chúng tôi xem xét các tác nhân phản ứng-không nhận thức lai, nơi mà chúng tôi sử dụng lập kế hoạch chuyển động của tác nhân tự động dựa trên mô hình trường tiềm năng kết hợp với việc học tăng cường cũng như các thuật toán phát hiện biên giới. Các trường tiềm năng được sử dụng để hội tụ nhanh chóng đến một con đường trong môi trường phân phối trong khi học tăng cường được sử dụng để đảm bảo sự đa dạng trong hành vi và hội tụ nhất quán trong một môi trường phân phối. Chúng tôi chứng minh cách mà quá trình ra quyết định của tác nhân được cải tiến nhờ sự kết hợp của hai kỹ thuật trong môi trường phân phối. Hơn nữa, việc theo dõi lại đường đi là một vấn đề thách thức trong môi trường phân phối, vì tác nhân không có kiến thức đầy đủ về môi trường. Chúng tôi đề xuất một kỹ thuật lùi để giữ cho tác nhân phân phối luôn được thông tin về đường đi của nó và số bước đi, bao gồm cả khi di chuyển từ nút này sang nút khác. Lưu ý rằng không có nút nào biết toàn bộ đường đi toàn cầu từ nguồn đến đích khi đích đó nằm trên một nút riêng biệt. Mỗi tác nhân chỉ có kiến thức về một phần đường đi (nội bộ của một nút) và số bước liên quan tương ứng với phần đường mà tác nhân đã đi qua khi hoạt động trên nút. Cụ thể, chúng tôi cho thấy cách mà mỗi tác nhân, bắt đầu từ một trong nhiều khu vực mà không có kiến thức ban đầu về môi trường, thông qua kỹ thuật phân phối đề xuất, phát triển trí thông minh của nó dựa trên kinh nghiệm và phát hiện một cách liền mạch đường đi toàn cầu ngắn nhất đến mục tiêu, được đặt tại một nút khác, đồng thời tránh bất kỳ chướng ngại vật nào mà nó gặp trên đường đi, bao gồm cả khi chuyển tiếp và di chuyển từ một nút tính toán phân phối này sang nút khác. Các tác nhân sử dụng giao thức truyền tin nhiều vòng chứng chỉ (MPI) để thực hiện giao tiếp giữa các nút. Cuối cùng, kết quả thí nghiệm của phương pháp đề xuất cho thấy rằng các tác nhân đơn và nhiều tác nhân chia sẻ cùng một mục tiêu và hoạt động trên cùng một hoặc các nút khác nhau phối hợp thành công việc chia sẻ trạng thái/thông tin của môi trường tương ứng của họ để thực hiện các nhiệm vụ của họ một cách hợp tác. Kết quả cũng cho thấy rằng việc chia sẻ thông tin giữa nhiều tác nhân phân phối làm tăng tốc độ hội tụ đến đường đi ngắn nhất tối ưu đến mục tiêu lên một bậc so với trường hợp tác nhân đơn lẻ hoặc trường hợp nhiều tác nhân không chia sẻ thông tin.

Từ khóa

#tác nhân tự động #lập kế hoạch đường đi #mô hình trường tiềm năng #học tăng cường #môi trường phân phối #giao tiếp phân phối

Tài liệu tham khảo

AAAI (1995) In: Lessor V (ed) Proceedings of the first international conference on multi-agent systems, Menlo Park, CA, June. AAAI Press, Menlo Park Al-Dayaa HS, Megherbi DB (2006) Fast reinforcement learning technique via multiple lookahead levels. In: Proceedings of the 2006 international conference on machine learning; models, technologies & applications, Nevada, USA Araabi BN, Mastoureshgh S, Ahmadabadi MN (2007) A study on expertise of agents and its effects on cooperative Q-learning. IEEE Trans Syst Man Cybern, Part B, Cybern 32(2):398–409 Bond AH, Gasser L (eds) (1988) Readings in distributed artificial intelligence. Morgan Kaufmann, San Mateo Cao J, Spooner DP, Jarvis SA, Nudd GR (2005) Grid load balancing using intelligent agents. J Future Gener Comput Syst Clausen C, Wechsler H (2000) Quad-Q-learning. IEEE Trans Neural Netw 11(2):279–294 Dai X, Li C-K, Rad AB (2005) An approach to tune fuzzy controllers based on reinforcement learning for autonomous vehicle control. IEEE Trans Intell Transp Syst 6(3):285–293 Decker KS, Williamson M (1987) Intelligent adaptive information agents. The Robotics Institute, Carnegie Mellon University (decker,sycara,mikew)@cs.cmu.edu Durfee EH, Lesser VR, Corkill DD (1989) Trends in cooperative distributed problem solving. IEEE Trans Data Knowl Eng Ferber J (1999) Multi-agent systems, an introduction to distributed artificial intelligence. Addison-Wesley, Reading Gropp W, Lusk E, Skjellum A (1999) Using MPI. MIT Press, Cambridge Guo M, Liu Y, Malec J (2004) A new Q-learning algorithm based on the metropolis criterion. IEEE Trans Syst Man Cybern, Part B, Cybern 34(5):2140–2143 Hadidi R, Jeyasurya B (2010) Selective initial state criteria to enhance convergence rate of Q-learning algorithm in power system stability application. In: IEEE Canadian conference Hartvigsen G, Johansen D (2010) Co-operation in distributed artificial intelligence environment—the StromCast application Hu L, Zhou C, Sun Z (2008) Estimating biped gait using spline-based probability distribution function with Q-learning. IEEE Trans Ind Electron 55(3):1444–1452 Khatib O (1986) Real-time obstacle avoidance for manipulators and mobile robots. Int J Robot Res Khosla P, Volpe R (1998) Superquadratic artificial potentials for obstacle avoidance and approach. In: Proc. IEEE international conference of robotics and automation, Philadelphia, PA Megherbi DB, Malayia V (2007) An autonomous hybrid cognitive/reactive agent path planning technique in a networked distributed unstructured environment for reinforcement learning. In: Proceedings of the international conference on parallel and distributed processing techniques and applications, Las Vegas, June Megherbi DB, Radumilo-Franklin J (2009) An intelligent multi-agent distributed battlefield via multi-token message passing. In: IEEE international conference on computational intelligence for measurement systems and applications, China, May 2009 Megherbi DB, Teirelbar A, Boulenouar AJ (2001) A time-varying-environment machine learning technique for autonomous agent shortest path planning. In: Proceedings of the SPIE international conference on defense sensing, unmanned ground vehicle technology, Orlando, Florida, April, pp 419–428 Mitchell TM (1997) Machine learning. McGraw Hill, New York Newman WS, Hogan N (1985) High-speed robot control and obstacle avoidance using dynamic potential functions. In: Proc IEEE conf on robotics & automation Parker L (2000) Current state of the art in distributed robot systems. In: Parker LE, Bekey G, Barhen J (eds) Distributed autonomous robotic systems 4. Springer, Berlin Riolo R (1991) Lookahead planning and latent learning in a classifier system. In: Proceedings of the int conf on the simulation of adaptive behavior So Y, Durfee E (1992) A distributed problem solving infrastructure for computer network management. Int J Intell Comp Inf Syst Stone P, Veloso M (2000) Multiagent system: a survey from a machine learning. Auton Robot 8 Sutton RS (1990) Integrated architectures for learning, planning, and reaction based on approximating dynamic programming. In: Proceedings of the seventh international conference on machine learning, pp 216–224 Sutton RS (1991) Dyna, an integrated architecture for learning, planning, and reacting. In: Working notes of 1991 AAAI spring symposium, pp 151–155 Sutton RS, Barto AG (1998) Reinforcement learning: an introduction. MIT Press, Cambridge Sutton RS, Barto AG, Williams RJ (1992) Reinforcement learning is direct adaptive optimal control. IEEE Control Syst Mag 12(2):19–22 Tan M (1993) Multi-agent reinforcement learning: independent vs. cooperative agents. Readings in agents. Morgan Kaufmann, San Mateo Valasek J, Doebbler J, Tandale MD, Meade AJ (2008) Improved adaptive–reinforcement learning control for morphing unmanned air vehicles. IEEE Trans Syst Man Cybern, Part B, Cybern 38(4):1014–1020 Van Dyke Parunak H (1996) In: ICMAS proceedings of the second international conference on multi-agent systems Watkins C, Dayan P (1992) Q-learning. Mach Learn 8:279–292 Weiss G (1999) A multiagent framework for planning, reacting and learning. Technical Report FKI-233-99 Weiss G (1999) Multiagent systems a modern approach to distributed artificial intelligence. MIT Press, Cambridge Weiss G (1998) A multi-agent perspective of parallel and distributed machine learning. http://wwwbrauer.in.tum.de/~weissg/Docs/weissgaa98.pdf Wiering MA, van Hasselt H (2008) Ensemble algorithms in reinforcement learning. IEEE Trans Syst Man Cybern, Part B, Cybern 38(4):930–936