Señales que hablan: Percepción visual para describir escenas a partir de gestos deícticos en robótica social
Palabras clave:
Interacción humano-robot, Robots sociales, Percepción visual, Sistemas multimodales, Atención Compartida, Reconocimiento de gestos, Sistemas inteligentes integrados, Aplicaciones interactivas, Modelos lenguaje-visualResumen
La interacción humano-robot busca establecer una comunicación natural combinando elementos verbales y no verbales, siendo especialmente relevante coordinar la atención entre los agentes implicados, un proceso conocido como atención compartida. Aunque la atención compartida basada en el seguimiento de la mirada ha sido ampliamente explorada, el uso de gestos deícticos como mecanismo para guiar la atención ha sido poco abordado en el contexto de la interacción. Este artículo presenta una aplicación interactiva integrada en el robot social Mini, combinando nuestro método previo basado en visión por computador RGB-D para detectar donde señalan los usuarios con modelos generativos multimodales de visión y lenguaje. Nuestra propuesta utiliza la región señalada por el usuario como entrada directa al modelo, generando descripciones verbales coherentes y contextualizadas sobre dicha región. El sistema estima dicha región proyectando un cono tridimensional a partir del brazo del usuario sobre la nube de puntos capturada por el robot, identificando el punto de intersección como foco de atención y definiendo en torno a él una región de interés. Los resultados muestran que el sistema permite al robot generar descripciones precisas y relevantes sobre la zona indicada, mejorando la fluidez y coherencia de la interacción.