Điều khiển tối ưu bám quỹ đạo cho USV có động lực học bất định và nhiễu biến thiên theo thời gian bằng thuật toán PI và IRL
Từ khóa:
Tóm tắt
Bài báo trình bày một khung điều khiển tối ưu phi mô hình cho bài toán bám quỹ đạo của tàu mặt nước không người lái (USVs) hoạt động trong điều kiện động lực học chưa biết và nhiễu biến thiên theo thời gian, được phát triển thông qua thuật toán Học tăng cường tích phân (IRL) và lặp chính sách (PI). Bộ điều khiển IRL-PI được thiết kế dựa trên kỹ thuật giảm bậc và cấu trúc mạng nơ-ron Actor-Critic chính sách ngoại tuyến, cho phép xấp xỉ nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) trong thời gian thực mà không cần biết trước mô hình hệ thống. Kết quả mô phỏng trên mô hình USV ba bậc tự do (3-DOF) cho thấy phương pháp được đề xuất vượt trội hơn các bộ điều khiển truyền thống về cả độ chính xác bám quỹ đạo và tính bền vững. Những kết quả này khẳng định tiềm năng của bộ điều khiển IRL-PI trong việc phát triển các giải pháp điều khiển bền vững cho các hệ thống hàng hải phức tạp hoạt động trong môi trường bất định và biến động.