Diseño de recompensas mediante LLMs para tareas de manipulación robótica

Autores/as

  • Moisés Fernández Herrero Universidad de Alicante – Escuela Politécnica Superior, Grado en Ingeniería Robótica
  • Santiago Puente AUtomatics, RObotics, and Artificial Vision Lab. University Institute for Computer Research. University of Alicante. San Vicente, Spain. https://orcid.org/0000-0002-6175-600X
  • Ignacio de Loyola Páez Ubieta AUtomatics, RObotics, and Artificial Vision Lab. University Institute for Computer Research. University of Alicante. San Vicente, Spain. https://orcid.org/0000-0001-9901-7264

Palabras clave:

Aprendizaje por Refuerzo, Robots inteligentes, Grandes Modelos de Lenguaje, Diseño de Recompensas, Cadena de Razonamiento

Resumen

El diseño manual de funciones de recompensa para el Aprendizaje por Refuerzo (RL) en robótica es complejo y propenso a errores. Este trabajo investiga la automatización de dicho proceso mediante Grandes Modelos de Lenguaje (LLMs), ampliando la metodología Eureka. Se evaluó la capacidad de diversos LLMs del mercado, más allá de GPT-4 y GPT-3.5 estudiados en el trabajo original, para generar recompensas en tres tareas de manipulación robótica con las manos Shadow y Allegro en el simulador Isaac Gym. Los resultados muestran que los LLMs, especialmente modelos recientes y aquellos con razonamiento Chain-of-Thought, pueden superar las recompensas diseñadas por expertos humanos en el 100 % de las tareas evaluadas, logrando éxito en entornos de alta complejidad como pen spinning con la Allegro Hand. Modelos como O1 y algunas variantes de Claude destacan significativamente. El estudio confirma el gran potencial de los LLMs para optimizar el diseño de recompensas en RL aplicado a la realización de tareas complejas en robótica.

Descargas

Publicado

2025-06-03