Segmentaci´on sem´antica de instancias de objetos empleando un vocabulario abierto

Autores/as

  • Macorís Decena Giménez MAPIR UMA
  • Jesús Moncada Ramírez Grupo de Percepción Artificial y Robótica Inteligente (MAPIR), Dept. de Ingeniería de Sistemas y Automática, Instituto Universitario en Ingeniería Mecatrónica y Sistemas Ciberfísicos (IMECH.UMA), Universidad de Málaga, Bulevar Louis Pasteur, 35, 29071 Málaga, España.
  • José Raúl Ruiz Sarmiento Grupo de Percepción Artificial y Robótica Inteligente (MAPIR), Dept. de Ingeniería de Sistemas y Automática, Instituto Universitario en Ingeniería Mecatrónica y Sistemas Ciberfísicos (IMECH.UMA), Universidad de Málaga, Bulevar Louis Pasteur, 35, 29071 Málaga, España.
  • Antonio Javier González Jiménez Grupo de Percepción Artificial y Robótica Inteligente (MAPIR), Dept. de Ingeniería de Sistemas y Automática, Instituto Universitario en Ingeniería Mecatrónica y Sistemas Ciberfísicos (IMECH.UMA), Universidad de Málaga, Bulevar Louis Pasteur, 35, 29071 Málaga, España.

Palabras clave:

Visión por Computador, Reconocimiento de Objetos, Aprendizaje Profundo, Segmentación de Imágenes

Resumen

La segmentación semántica de instancias tradicional, basada en modelos como Detectron2, está restringida por un “vocabulario cerrado” derivado de sus datos de entrenamiento (p. ej. COCO), lo que limita su capacidad para reconocer objetos de categorías no consideradas. Para superar esta limitación, presentamos TALOS, un método modular y flexible para la segmentación semántica de instancias con vocabulario abierto. TALOS ejecuta una secuencia de tres etapas: Tagging (extracción de etiquetas semánticas de las clases de objetos presentes), Location (localización de bounding boxes para cada instancia mediante visual grounding basado en las etiquetas) y Segmentation (generación de máscaras de píxeles precisas de forma agnóstica a la categoría). La modularidad permite integrar diversas tecnologías de vanguardia. Evaluaciones cualitativas demuestran que TALOS identifica y segmenta correctamente objetos de categorías ajenas a COCO, superando a Detectron2 en riqueza semántica y calidad de las máscaras, especialmente en escenas complejas.

Descargas

Publicado

2025-05-26