
Detección de Anomalías Industriales Mediante Modelos de Visión y Lenguaje de Amplio Alcance
En la vanguardia de la revolución tecnológica, los Modelos de Lenguaje de Visión de Gran Amplitud (LVLM), tales como LLava y MiniGPT-4, han probado su destreza en tareas que comprenden desde la interpretación hasta la identificación de imágenes, logrando resultados notables en precisión y rendimiento. No obstante, a pesar de las masivas bases de datos a su disposición, estos modelos enfrentan limitaciones cuando se trata de entender detalles minuciosos y adolecen de un conocimiento profundo en ámbitos especializados. Esta brecha se manifiesta especialmente en la detección de anomalías industriales (IAD). Mientras tanto, los sistemas IAD existentes, aun siendo competentes en identificar fuentes de irregularidades, dependen de la configuración manual de umbrales para discriminar entre lo normal y lo anómalo, lo que restringe su aplicabilidad en entornos reales.
La misión primordial de un sistema IAD radica en la detección y localización de anomalías dentro de escenarios industriales y de productos, tareas complejas por la diversidad y rareza de las imágenes del mundo real. Muchos modelos se entrenan únicamente con datos de muestras normales, y se fundamentan en identificar desviaciones respecto a lo típico para distinguir anomalías. Aunque los sistemas actuales entregan principalmente puntuaciones de anomalías, la especificación manual de umbrales necesaria para diferenciar entre lo normal y lo anómalo limita su practicidad.
Ante estos desafíos, emerge AnomalyGPT: un enfoque innovador para la IAD que, fundamentado en los LVLM, no solo detecta y localiza anomalías industrialmente relevante sino que también ofrece la capacidad para dialogar e interactuar con el usuario, permitiendo preguntas relacionadas con las anomalías detectadas.
Aplicaciones de los Modelos de Visión y Lenguaje en la IAD
Los sistemas actuales de IAD pueden clasificarse principalmente en dos grandes grupos: aquellos basados en reconstrucción y aquellos centrados en la obtención de características distintivas. Con técnicas que van desde las redes generativas adversarias (GAN) hasta transformadores, el objetivo de los primeros es reconstruir muestras atípicas y detectar anomalías analizando el error en dicha reconstrucción. Los métodos basados en características, por otro lado, buscan encapsular muestras normales en una distribución que permita detectar desvíos significativos. Si bien ambas metodologías se adhieren al principio de «un modelo por clase», implicando que requieren numerosas muestras normales para cada categoría de objeto, esto se traduce en una limitación práctica para categorías novedosas y entornos de productos en constante cambio. En contraste, AnomalyGPT adopta un enfoque de aprendizaje contextualizado que facilita la identificación de anomalías con apenas unas pocas muestras normales.
Los LVLM, por su parte, después de lograr un notable éxito en procesamiento de lenguaje natural (NLP), ahora se exploran en tareas visuales. Modelos como el BLIP-2 y MiniGPT muestran potenciales aplicaciones en este campo; sin embargo, su entrenamiento con datos generales y la falta de especialización limitan su adecuación a casos específicos.
Funcionamiento y Arquitectura de AnomalyGPT
Análisis y Descodificador de Imágenes
AnomalyGPT presenta una arquitectura novedosa donde las imágenes son procesadas por un codificador de imágenes especializado, para luego pasar a un decodificador que determina similitudes con textos descriptivos normales y anómalos, logrando así una precisa localización de anomalías. El sistema se complementa con un módulo de aprendizaje rápido que transforma la localización en incrustaciones de mensajes que, junto con las consultas del usuario, se introducen en el modelo LLM, posibilitando la detección de anomalías y una respuesta detallada para el usuario.
Aprendizaje Rápido y Simulación de Anomalías
Partiendo de métodos innovadores como NSA, AnomalyGPT simula datos anómalos a través de sofisticadas técnicas de edición de imágenes que reducen discontinuidades visibles y generan simulaciones más naturales y realistas. Esta estrategia de ‘Cortar y Pegar’, apoyada en la edición de Poisson, es clave para el mejoramiento del rendimiento de los modelos IAD.
Interacción Basada en Preguntas y Respuestas
Para afinar rápidamente el modelo, AnomalyGPT genera consultas textuales basadas en las imágenes de anomalías, dividiendo la imagen en una cuadrícula para que el modelo indique verbalmente la posición de las anomalías, mejorando así la comprensión de los componentes visuales.
Conjuntos de Datos y Evaluación del Rendimiento
AnomalyGPT se somete a pruebas en conjuntos de datos extensos como VisA y MVTec-AD, utilizando métricas como el AUC para evaluar la precisión en la detección y localización de anomalías, destacando por su capacidad de detectar anomalías sin configuraciones de umbrales manuales.
Análisis de Resultados y Proyección Futura
Comparativas Cuantitativas y Cualitativas
El modelo muestra resultados superiores tanto en modalidades de aprendizaje con pocas muestras como en enfoques no supervisados, en comparación con otros sistemas existentes. A través de representaciones gráficas y casos prácticos, AnomalyGPT demuestra su eficacia en proporcionar localizaciones precisas a nivel de píxeles, incluso en entornos con una única muestra de entrenamiento.
AnomalyGPT se posiciona así como un avance significativo en los modelos de lenguaje de visión para IAD, ofreciendo nuevas posibilidades para la detección precisa de anomalías, y estableciendo un precedente para futuras innovaciones en la inteligencia artificial aplicada a la industria.
LEE MÁS ARTÍCULOS SOBRE: Ciencia de Datos con IA.
LEE LA ENTRADA ANTERIOR: Reminders.