Sistema de Control Basado en Aprendizaje por Refuerzo Profundo para el Control de una Flota de Vehículos Autónomos de Superficie (VAS) Aplicando Técnicas de Comportamientos Emergentes
Author:
Climent Gómez, MiguelDirector:
Peralta Samaniego, Federico DanielDate:
2026-01Abstract:
Este trabajo presenta el desarrollo de un sistema de control para flotas de Vehículos Autónomos de Superficie (ASV) basado en Aprendizaje por Refuerzo Profundo (DRL), orientado a la generación de comportamientos emergentes. La utilización de DRL permite dotar a la flota de una mayor adaptabilidad en entornos acuáticos dinámicos y parcialmente desconocidos. La arquitectura propuesta emplea el algoritmo Proximal Policy Optimization (PPO) bajo un esquema deentrenamiento centralizado. El objetivo principal es que los agentes converjan hacia una formación de enjambre (flocking) regida por las tres reglas de: cohesión, alineación y separación, integrando adicionalmente una tarea de seguimiento de líder. Para garantizar la convergencia, se diseñó una función de recompensa multidimensional, se implementó una estrategia de aprendizaje por currículo (curriculum learning) y se realizó un ajuste fino de hiperparámetros. El sistema fue validado en el entorno de simulación Unity mediante el paquete ML-Agents. Los resultados demuestran la eficacia de la solución, logrando mantener la energía de desviación de la flota y los errores de seguimiento (distancia y velocidad) en valores próximos a cero, garantizando una navegación coordinada y estable.
Este trabajo presenta el desarrollo de un sistema de control para flotas de Vehículos Autónomos de Superficie (ASV) basado en Aprendizaje por Refuerzo Profundo (DRL), orientado a la generación de comportamientos emergentes. La utilización de DRL permite dotar a la flota de una mayor adaptabilidad en entornos acuáticos dinámicos y parcialmente desconocidos. La arquitectura propuesta emplea el algoritmo Proximal Policy Optimization (PPO) bajo un esquema deentrenamiento centralizado. El objetivo principal es que los agentes converjan hacia una formación de enjambre (flocking) regida por las tres reglas de: cohesión, alineación y separación, integrando adicionalmente una tarea de seguimiento de líder. Para garantizar la convergencia, se diseñó una función de recompensa multidimensional, se implementó una estrategia de aprendizaje por currículo (curriculum learning) y se realizó un ajuste fino de hiperparámetros. El sistema fue validado en el entorno de simulación Unity mediante el paquete ML-Agents. Los resultados demuestran la eficacia de la solución, logrando mantener la energía de desviación de la flota y los errores de seguimiento (distancia y velocidad) en valores próximos a cero, garantizando una navegación coordinada y estable.
Collections
Files in this item



