
Una investigación reciente proveniente de la Universidad de York ha evidenciado que las redes neuronales convolucionales profundas (DCNN) no se alinean con la percepción visual humana en lo que respecta al procesamiento de forma configural. Según James Elder, coautor del estudio y profesor de la institución, esto podría representar riesgos significativos en la aplicación de la IA en el escenario real.
Este estudio, denominado “Los modelos de aprendizaje automático profundo no capturan la naturaleza configural de la percepción de la forma humana”, ha sido publicado en la revista Cell Press iCiencia.
El estudio fue colaborativo, contando con la participación de Elder, ocupante de la cátedra de Investigación de York en Visión Humana y Computacional, y codirector del Centro para la Inteligencia Artificial y la Sociedad de York, junto con Nicholas Baker, profesor asistente de psicología y ex VISTA, becario postdoctoral en la misma universidad.
Los innovadores estímulos visuales “Frankensteins”
El equipo de investigadores utilizó estímulos visuales novedosos, llamados «Frankensteins», para indagar cómo tanto el cerebro humano como las DCNN procesan propiedades holísticas y configurales de los objetos.
«Los ‘Frankensteins’ son esencialmente objetos que han sido desmontados y reconstruidos de manera inversa», explica Elder. «Como resultado, tienen todas las características locales correctas, pero situadas de manera incorrecta».
La investigación reveló que los DCNN no se desorientan con los ‘Frankensteins’ al igual que lo hace el sistema visual humano. Esto pone de manifiesto una falta de sensibilidad hacia las propiedades configurales del objeto.
Según Elder, «Nuestros hallazgos aportan luz sobre por qué los modelos de Inteligencia Artificial profunda fallan en ciertas circunstancias, y subrayan la necesidad de contemplar tareas más allá del reconocimiento de objetos para entender el procesamiento visual en el cerebro. Estos modelos de aprendizaje automático profundo suelen tomar ‘atajos’ para resolver tareas complejas de reconocimiento. Aunque tales atajos pueden ser efectivos en la mayoría de los casos, pueden ser peligrosos en algunas aplicaciones de IA del mundo real con las que estamos trabajando actualmente con nuestros socios industriales y gubernamentales.

Imagen: Universidad de York
Consecuencias en la vida real
El Profesor Elder señala que una de las aplicaciones con posibles riesgos es la de los sistemas de seguridad inteligentes en el tráfico vial.
«Los objetos en una escena de tráfico congestionado (entre ellos, vehículos, bicicletas y peatones) se obstruyen entre sí y se presentan al conductor como un enredo de fragmentos desconectados», comenta. «El cerebro humano tiene la labor de agrupar correctamente esos fragmentos para identificar las categorías y posiciones correctas de los objetos. Un sistema de IA diseñado para monitorear la seguridad vial que solo es capaz de percibir los fragmentos de forma aisalda fallará en dicha tarea, esto podría interpretar incorrectamente los riesgos para los usuarios vulnerables de la carretera».
Los autores también indican que las modificaciones implementadas en el entrenamiento y en la arquitectura de las redes, con el objetivo de hacerlas más parecidas al cerebro humano, no lograron replicar el procesamiento configural. Ninguna de las redes logró prever correctamente los juicios sobre objetos humanos, prueba tras prueba.
«Hipotetizamos que, para lograr la misma sensibilidad configural que el humano, las redes deben ser entrenadas para resolver una variedad de tareas sobre objetos, que vaya más allá del simple reconocimiento de categorías», concluye Elder.
LEE MÁS ARTÍCULOS SOBRE: Noticias de IA.
LEE LA ENTRADA ANTERIOR: 张一鸣.