
Redimensionamiento inteligente de imágenes de alta resolución con métodos de aprendizaje automático
Una innovadora investigación realizada en el Reino Unido ha introducido una versión mejorada de algoritmo de aprendizaje automático para redimensionar imágenes. Lo innovador de este método es que toma en cuenta la relevancia determinada de los diferentes segmentos de la imagen en lugar de reducir ciegamente la resolución y, en consecuencia, la calidad y los detalles extraíbles de cada pixel de la imagen.
Este enfoque forma parte de los recientes desarrollos en sistemas de compresión guiados por inteligencia artificial y puede servir como base para el diseño de nuevos códecs de compresión para imágenes. Si bien el estudio está especialmente inspirado en el campo de la salud, donde la reducción indiscriminada de imágenes médicas de alta resolución podría ocasionar la pérdida de información vital, su aplicabilidad se extiende a otros dominios.
Límites de la resolución en la formación de visión por computadora
A pesar del avance de la tecnología, la formación de sistemas de visión por computadora sigue estando considerablemente limitada por la capacidad de las GPU. Aunque los conjuntos de datos pueden contener miles de imágenes de las cuales se necesitan extraer características, la realidad es que incluso las GPU de gama industrial raramente pueden superar los 24 GB de VRAM. A esto se suma la constante escasez que afecta la disponibilidad y el precio de estas GPUs.
Debido a estas limitaciones, los datos deben procesarse en lotes manejables para que puedan ser procesados por los núcleos Tensor de la GPU. En la práctica, esto significa que se procesan entre 8 y 16 imágenes en cada lote en la mayoría de los flujos de trabajo de entrenamiento de visión por computadora.
No existen soluciones sencillas a esta problemática. Incluso con una VRAM ilimitada y arquitecturas de CPU capaces de manejar ese rendimiento de GPU sin causar cuellos de botella, tamaños de lote excesivamente altos favorecerán la extracción de características de alto nivel en detrimento de las transformaciones más detallistas. Estas últimas pueden ser esenciales para la funcionalidad del algoritmo final.
Redimensionamiento inteligente de imágenes
Frente a estas limitaciones, los investigadores de la University College de Londres y del departamento de Inteligencia Sanitaria de Microsoft Cambridge sugieren un enfoque en el que solo las partes más relevantes de una imagen sean conservadas cuando sea necesario reducir la resolución de imágenes de alta calidad para ser procesadas en una pipeline de Machine Learning.
Este desafío es independiente del problema de la aparición de artefactos en los conjuntos de datos de aprendizaje automático, donde la calidad de la imagen se ve reducida durante el cambio de tamaño automatizado porque el códec de compresión descarta demasiada información.
Por el contrario, en este caso, incluso si se guarda en un formato de imagen sin pérdidas (como PNG con compresión LZW), no será posible recuperar la información que normalmente se desecha al redimensionar (por ejemplo) una imagen de resonancia magnética (MRI) de dimensiones récord a una resolución más estándar de 256×256 o 512×512 píxeles.
Además, dependiendo de los requisitos del framework, a menudo se añaden bordes negros a las imágenes de origen rectangulares como una tarea de preprocesamiento rutinaria, con el objetivo de producir un formato de entrada cuadrado para el procesamiento de redes neuronales, lo que reduce aún más el espacio disponible para datos potencialmente cruciales.
Ante este panorama, los investigadores proponen hacer el proceso de redimensionamiento más inteligente, aprovechando lo que siempre ha sido una etapa genérica en el proceso para destacar áreas de interés, liberando parte de la carga interpretativa del sistema de aprendizaje automático a través del cual pasarán las imágenes.
Submuestreador inteligente
El nuevo método reportado propone un submuestreador inteligente denominado módulo de deformación, que se entrena en conjunción con un módulo de segmentación paralelo. Por tanto, puede recibir información sobre áreas de interés identificadas mediante la segmentación semántica y darles prioridad durante el proceso de reducción de la resolución.
Los autores probaron el sistema en varios conjuntos de datos populares, incluyendo Paisajes Urbanos, Globo Profundo y un conjunto de datos local sobre la histología del cáncer de próstata, conocido como ‘PCa-Histo’.
Resultados obtenidos
El módulo de deformación en el nuevo sistema es una pequeña red neuronal convolucional (CNN), mientras que la capa de segmentación es una arquitectura CNN profunda que emplea HRNetV2-W48. Se utilizó la Red de análisis de escenas piramidales (PSP-net) como capa de control de cordura para las pruebas de CityScapes.
Los conjuntos de datos mencionados anteriormente se probaron con el nuevo framework, utilizando un remuestreo uniforme (el método habitual), el método de borde óptimo de 2019 y el aprovechamiento de la segmentación semántica del nuevo enfoque.
Los autores informan que el nuevo método muestra un avance significativo en la identificación y diferenciación de las clases clínicamente más importantes, con un aumento de precisión del 15-20%. También señalan que la distinción entre estas clases suele definirse como «el umbral entre la salud y el cáncer».
El informe propone que su método puede aprender una estrategia de reducción de resolución que consigue preservar la información de manera más efectiva, permitiendo una mejor compensación. En conclusión, el nuevo framework puede aprender eficientemente donde «invertir» el presupuesto limitado de píxeles en el redimensionamiento de resolución para lograr el mayor retorno global en términos de precisión de segmentación.
La imagen principal del artículo de este artículo se obtuvo de thispersondoesnotexist.com.
LEE MÁS ARTÍCULOS SOBRE: Multimedia con IA.
LEE LA ENTRADA ANTERIOR: IA que logra un triunfo en la detección de la osteoporosis.