LVLMs aplicados al refinamiento de mapas semánticos en robótica móvil

Autores/as

  • Adrián Torremocha Doblas Universidad de Málaga
  • Pepe Ojeda Morala
  • José Raúl Ruiz Sarmiento
  • Javier González Jiménez

DOI:

https://doi.org/10.64117/simposioscea.v1i1.56

Palabras clave:

Robótica inteligente, Aprendizaje automático, Métodos Bayesianos, Robots móviles autónomos, Construcción de mapas

Resumen

Los mapas semánticos son representaciones del entorno que incluyen información sobre la geometría de la escena y la clasificación en categorías de los objetos presentes.
En este trabajo se proponen técnicas para el refinamiento de mapas semánticos mediante la desambiguación de los objetos con alta incertidumbre en su clasificación semántica. Concretamente, nuestra propuesta consiste en la identificación sistemática de aquellas instancias que requieren un proceso adicional de desambiguación, y el empleo de un modelo de visión-lenguaje (LVLM) para llevar a cabo este proceso.
La implementación de nuestra propuesta se basa en Voxeland, un marco de trabajo que construye dichos mapas siguiendo un enfoque probabilístico, permitiendo así cuantificar la incertidumbre en las clasificaciones de objetos.
Las pruebas realizadas sobre el conjunto de datos de SceneNN validan la efectividad del método, mejorando la clasificación de los objetos y reduciendo la incertidumbre de los mapas semánticos.

Descargas

Publicado

2025-05-26