DiffSeg: Segmentación Zero-Shot No Supervisada Utilizando Difusión Estable ❤️ 2025

En el campo de los modelos basados en visión computacional, una de las tareas más difíciles es la creación de máscaras de segmentación de alta calidad. Recientemente, se han realizado avances importantes en el entrenamiento supervisado a gran escala que han permitido la segmentación zero-shot en diversos estilos de imágenes. Además, la capacitación no supervisada ha simplificado la segmentación sin requerir anotaciones detalladas. Sin embargo, a pesar de estos avances, construir un marco de visión computacional capaz de segmentar cualquier objeto en un entorno sin anotaciones sigue siendo una tarea compleja. La segmentación semántica, una técnica fundamental en los modelos de visión computacional, implica dividir una imagen en regiones más pequeñas con semántica uniforme. Este método establece la base para numerosas tareas posteriores como la imaginería médica, la edición de imágenes, la conducción autónoma y mucho más.

Para avanzar en el desarrollo de los modelos de visión computacional, es crucial que la segmentación de imágenes no se limite a un conjunto de datos específico con categorías limitadas. En cambio, debería funcionar como una tarea fundamental para diversas otras aplicaciones. Sin embargo, el elevado costo de recolectar labels en base por píxel presenta un desafío importante, limitando el progreso de los métodos de segmentación supervisados y zero-shot que no requieren anotaciones y carecen de acceso previo al objetivo. En este artículo, discutiremos cómo las capas de auto-atención en los modelos de difusión estables pueden facilitar la creación de un modelo capaz de segmentar cualquier input en un entorno zero-shot, incluso sin las anotaciones correctas. Estas capas de auto-atención comprenden intrínsecamente los conceptos de objetos aprendidos por un modelo de difusión estable previamente entrenado.[automatic_youtube_gallery type="search" search="DiffSeg: Segmentación Zero-Shot No Supervisada utilizando Difusión Estable" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]

Reto de la segmentación semántica

La segmentación semántica es un proceso que divide una imagen en varias secciones, donde cada una comparte una semántica similar. Tal técnica forma la base para numerosas tareas posteriores. Tradicionalmente, las tareas de visión computacional zero-shot han dependido de la segmentación semántica supervisada, usando grandes conjuntos de datos con categorías etiquetadas y anotadas. Sin embargo, implementar una segmentación semántica no supervisada en un entorno zero-shot sigue siendo un reto. A pesar de que los métodos supervisados tradicionales son eficaces, el costo de su etiquetado por píxel es a menudo prohibitivo, lo que enfatiza la necesidad de desarrollar métodos de segmentación sin supervisión en un entorno zero-shot menos restrictivo, donde el modelo no requiere datos anotados ni conocimientos previos de los datos.

La introducción de DiffSeg

Para solventar esta limitación, DiffSeg presenta una estrategia de post-procesamiento novedosa, aprovechando las capacidades del marco de Difusión Estable para construir un modelo de segmentación genérico capaz de transferir zero-shot en cualquier imagen. Los marcos de difusión estable han demostrado su eficacia en la generación de imágenes de alta resolución en función de las condiciones de entrada. Para las imágenes generadas, estos marcos pueden producir máscaras de segmentación utilizando palabras clave correspondientes, que generalmente solo incluyen los objetos del primer plano que dominan.

Por otro lado, DiffSeg es un método innovador de post-procesamiento que genera máscaras de segmentación utilizando tensores de atención de las capas de auto-atención en un modelo de difusión. El algoritmo de DiffSeg se compone de tres componentes clave: fusión de atención iterativa, agregación de atención y supresión de no-máximo, como se ilustra en la siguiente imagen.

Funcionamiento del algoritmo DiffSeg

El algoritmo DiffSeg preserva la información visual en múltiples resoluciones mediante la agregación de los tensores de atención 4D con consistencia espacial y utilizando un proceso de fusión iterativa por medio de puntos de anclaje. Estos sirven como la base para las máscaras de atención de fusión con los mismos anclajes de objeto que se absorben finalmente. El marco DiffSeg controla el proceso de fusión con la ayuda del método de divergencia KL para medir la similitud entre dos mapas de atención.

En comparación con los métodos de segmentación no supervisados basados en clustering, los desarrolladores no tienen que especificar el número de clusters de antemano en el algoritmo DiffSeg, y sin tener ningún conocimiento previo, el algoritmo DiffSeg puede producir una segmentación sin utilizar recursos adicionales. En general, el algoritmo DiffSeg es “Un novedoso método de segmentación no supervisado y zero-shot que utiliza un modelo de Difusión Estable previamente entrenado, y puede segmentar imágenes sin recursos adicionales ni conocimiento previo.

Conceptos fundamentales de DiffSeg

DiffSeg es un algoritmo novedoso que se basa en el aprendizaje de modelos de difusión, la segmentación no supervisada y la segmentación zero-shot.

Modelos de Difusión

El algoritmo DiffSeg se basa en los conocimientos adquiridos de los modelos de difusión previamente entrenados. Los modelos de difusión es uno de los marcos generativos más populares para los modelos de visión computacional, y aprende el proceso de difusión hacia adelante y hacia atrás a partir de una imagen de ruido gaussiano isotrópico muestreado para generar una imagen. La difusión estable es la variante más popular de los modelos de difusión y se utiliza para realizar una amplia gama de tareas que incluyen la segmentación supervisada, la clasificación zero-shot, la correspondencia semántica, la segmentación eficiente en términos de etiquetas y la segmentación de vocabulario abierto. Sin embargo, el único problema con los modelos de difusión es que dependen de características visuales de alta dimensión para realizar estas tareas, y a menudo requieren un entrenamiento adicional para aprovechar al máximo estas características.

Segmentación no supervisada

El algoritmo DiffSeg está estrechamente relacionado con la segmentación no supervisada, una práctica de IA moderna que tiene como objetivo generar máscaras de segmentación densas sin emplear anotaciones. Sin embargo, para ofrecer un buen rendimiento, los modelos de segmentación no supervisados necesitan algún entrenamiento no supervisado previo en el conjunto de datos objetivo. Los marcos de IA basados en la segmentación no supervisada se pueden caracterizar en dos categorías: agrupación utilizando modelos previamente entrenados y agrupación basada en la invariancia. En la primera categoría, los marcos utilizan las características discriminativas aprendidas por los modelos previamente entrenados para generar máscaras de segmentación, mientras que los marcos de la segunda categoría utilizan un algoritmo de agrupación genérico que optimiza la información mutua entre dos imágenes para segmentar las imágenes en clusters semánticos y evitar la segmentación degenerativa.

Segmentación Zero-Shot

El algoritmo DiffSeg está estrechamente relacionado con los marcos de segmentación zero-shot, un método capaz de segmentar cualquier cosa sin ningún entrenamiento previo o conocimiento de los datos. Los modelos de segmentación zero-shot han demostrado capacidades excepcionales de transferencia zero-shot en tiempos recientes aunque requieren algún tipo de entrada de texto y prompts. A diferencia de esto, el algoritmo DiffSeg utiliza un modelo de difusión para generar una segmentación sin tener que generar y sintetizar múltiples imágenes y sin conocer el contenido del objeto.

Metodología y Arquitectura del DiffSeg

El algoritmo DiffSeg utiliza las capas de auto-atención en un modelo de difusión estable previamente entrenado para generar tareas de segmentación de alta calidad.

Modelo de Difusión Estable

La difusión estable es uno de los conceptos fundamentales en el marco del DiffSeg. La difusión estable es un marco de IA generativa, y uno de los modelos de difusión más populares. Una de las principales características de un modelo de difusión es un pase adelante y un pase inverso. En el paso hacia adelante, se añade una pequeña cantidad de ruido gaussiano a una imagen de manera iterativa en cada paso de tiempo hasta que la imagen se convierte en una imagen de ruido gaussiano isotrópico. Por otro lado, en el pase inverso, el modelo de difusión elimina iterativamente el ruido en la imagen de ruido gaussiano isotrópico para recuperar la imagen original sin ningún ruido gaussiano.

El marco de Difusión Estable emplea un codificador-decodificador, y un diseño U-Net con capa de atención donde utiliza un codificador para comprimir primero una imagen en un espacio latente con dimensiones espaciales más pequeñas, y utiliza el decodificador para descomprimir la imagen. La arquitectura U-Net consta de una pila de bloques modulares, donde cada bloque está compuesto por cualquiera de los dos componentes siguientes: una Capa Transformadora, y una Capa ResNet.

Componentes y Arquitectura

Las capas de auto-atención en los modelos de difusión agrupan la información de los objetos inherentes en forma de mapas de atención espaciales, y DiffSeg es un método novedoso de post-procesamiento para fusionar tensores de atención en una máscara de segmentación válida con un pipeline que consta de tres componentes principales: agregación de atención, supresión de no-máximo y atención iterativa.

Agregación de atención

Para una imagen de entrada que pasa a través de las capas U-Net y el codificador, el modelo de difusión estable genera un total de 16 tensores de atención, con 5 tensores para cada una de las dimensiones. El objetivo principal de la generación de 16 tensores es agregar estos tensores de atención con diferentes resoluciones en un tensor con la mayor resolución posible. Para lograr esto, el algoritmo DiffSeg trata las 4 dimensiones de manera diferente entre sí.

De las cuatro dimensiones, las dos últimas en los sensores de atención tienen diferentes resoluciones, pero son espacialmente consistentes ya que el mapa espacial 2D del marco DiffSeg corresponde a la correlación entre las ubicaciones y las ubicaciones espaciales. Como resultado, el marco DiffSeg muestrea estas dos dimensiones de todos los mapas de atención a la resolución más alta de todas, 64 x 64. Por otro lado, las dos primeras dimensiones indican la referencia de ubicación de los mapas de atención como se muestra