Señales que hablan: Percepción visual para describir escenas a partir de gestos deícticos en robótica social

Jesús García-Martínez; Javier Sevilla-Salcedo; Jos´é Carlos Castillo Montoya; Álvaro Castro-González; Miguel Ángel Salichs

doi:10.64117/simposioscea.v1i1.34

Autores/as

Jesús García-Martínez Departamento de Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid. Avenida de la Universidad, 30. 28911 Leganés, Madrid. España. https://orcid.org/0000-0003-3615-3722
Javier Sevilla-Salcedo Departamento de Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid. Avenida de la Universidad, 30. 28911 Leganés, Madrid. España. https://orcid.org/0000-0001-9214-4973
Jos´é Carlos Castillo Montoya Departamento de Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid. Avenida de la Universidad, 30. 28911 Leganés, Madrid. España. https://orcid.org/0000-0003-0454-9466
Álvaro Castro-González Departamento de Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid. Avenida de la Universidad, 30. 28911 Leganés, Madrid. España. https://orcid.org/0000-0002-5189-0002
Miguel Ángel Salichs Departamento de Ingeniería de Sistemas y Automática, Universidad Carlos III de Madrid. Avenida de la Universidad, 30. 28911 Leganés, Madrid. España. https://orcid.org/0000-0002-0263-6606

DOI:

https://doi.org/10.64117/simposioscea.v1i1.34

Palabras clave:

Interacción humano-robot, Robots sociales, Percepción visual, Sistemas multimodales, Atención Compartida, Reconocimiento de gestos, Sistemas inteligentes integrados, Aplicaciones interactivas, Modelos lenguaje-visual

Resumen

La interacción humano-robot busca establecer una comunicación natural combinando elementos verbales y no verbales, siendo especialmente relevante coordinar la atención entre los agentes implicados, un proceso conocido como atención compartida. Aunque la atención compartida basada en el seguimiento de la mirada ha sido ampliamente explorada, el uso de gestos deícticos como mecanismo para guiar la atención ha sido poco abordado en el contexto de la interacción. Este artículo presenta una aplicación interactiva integrada en el robot social Mini, combinando nuestro método previo basado en visión por computador RGB-D para detectar donde señalan los usuarios con modelos generativos multimodales de visión y lenguaje. Nuestra propuesta utiliza la región señalada por el usuario como entrada directa al modelo, generando descripciones verbales coherentes y contextualizadas sobre dicha región. El sistema estima dicha región proyectando un cono tridimensional a partir del brazo del usuario sobre la nube de puntos capturada por el robot, identificando el punto de intersección como foco de atención y definiendo en torno a él una región de interés. Los resultados muestran que el sistema permite al robot generar descripciones precisas y relevantes sobre la zona indicada, mejorando la fluidez y coherencia de la interacción.

Señales que hablan: Percepción visual para describir escenas a partir de gestos deícticos en robótica social

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Publicado

Número

Sección

Número actual

Información

Enviar un artículo