
Experimentación de la visión por computadora con imágenes de ruido aleatorio
Expertos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han estado impulsando los límites de la visión por computadora, usando imágenes de ruido aleatorio en lugar de imágenes reales para entrenar modelos de visión por computadora. Sorprendentemente, incluso con este enfoque disruptivo, los modelos resultantes funcionan de manera brillante.
El uso de «basura visual» para modelos de visión por computadora
La integración de ‘basura visual’, es decir, imágenes de ruido aleatorio en las arquitecturas de visión por computadora es radicalmente innovadora. Esta idea va en contra de las preconcepciones convencionales sobre el entrenamiento de los sistemas de visión por computadora. Los investigadores descubrieron que, en lugar de producir modelos inutilizables, este nuevo método se desempeñaba adicionalmente bien.[automatic_youtube_gallery type="search" search="Entrenamiento de modelos de visión por computadora con ruido aleatorio en lugar de imágenes reales" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]
Estas imágenes generadas a partir de ruido aleatorio, aunque pueden parecer caóticas, cuando se utilizan para entrenar los modelos no deterioran las prestaciones. Sorprendentemente, la mayoría de los conjuntos de datos de ruido aleatorio utilizados alcanzan resultados de precisión dentro de límites respetables.
Lo que se quiere subrayar aquí no es que los resultados necesariamente se parezcan a un dominio específico, como puede ser el rostro de alguien o una imagen particular. Más bien, lo que los investigadores del MIT han logrado demostrar es que incluso a partir de datos aparentemente desorganizados se pueden derivar verdades fundamentales que son ampliamente aplicables.
Diversidad frente a naturalismo en la Inteligencia Artificial
La efectividad de este enfoque no puede ser reducida simplemente a sobreajuste, como se describe en una estimulante discusión entre los autores del estudio y los revisores de Open Review. Los investigadores encontraron que la combinación de diferentes tipos de imágenes de conjuntos de datos visuales muy variados en un conjunto de datos de entrenamiento mejoraba de hecho la precisión en estos experimentos. Lo que sugiere una revolucionaria idea de «infraadaptación», donde la «diversidad» parece ser más valiosa que el «naturalismo».
En uno de los hallazgos más sorprendentes, los resultados obtenidos apuntan a la posibilidad de que las redes neuronales basadas en imágenes y las imágenes del «mundo real» alimenten de forma alarmantemente cada vez mayores volúmenes de datos cada año. Ello sugiere que la necesidad de recoger, curar y discutir conjuntos de datos de imágenes a hiperescala podría eventualmente volverse redundante.
Por otra parte, sugiere que las arquitecturas de aprendizaje automático actuales pueden estar deduciendo algo mucho más fundamental a partir de las imágenes de lo que se cree, y que las imágenes «sin sentido» pueden enseñar mucho de este conocimiento de manera mucho más económica.
Según los investigadores, dos propiedades clave que constituyen buenos datos sintéticos son 1) naturalismo y 2) diversidad. Lo que es crucial no es que los datos sean reales, sino que parezcan naturales, es decir, deben capturar ciertas propiedades estructurales de los datos reales.
Un nuevo enfoque para la visión por computadora
El estudio, titulado «Aprender a ver mirando el ruido», fue presentado en la 35ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2021) en Sydney. Este innovador trabajo fue recomendado por consenso para una selección destacada en NeurIPS 2021, y los comentaristas caracterizaron el artículo como un «gran avance científico» que abre una «gran área de estudio».
En sus conclusiones, los autores del estudio abogan por el diseño de nuevos modelos generativos capaces de producir ruido estructurado para ayudar a lograr un rendimiento aún mayor en una diversidad de tareas visuales. Plantean la posibilidad de superar el rendimiento obtenido con el preentrenamiento de ImageNet, un hito importante en el campo de la visión por computadora, usando conjuntos de datos sintéticos en lugar de conjuntos de datos reales estándar.
