
Un colaborativo equipo de académicos del MIT, el MIT-IBM Watson AI Lab y diversas instituciones han innovado un enfoque inédito que otorga a los agentes de inteligencia artificial (IA) la capacidad de visionar de forma prospectiva. En síntesis, la IA está habilitada para prever un futuro distante evaluando cómo sus acciones puedan afectar los comportamientos de otros agentes de IA en la ejecución de una tarea.
El estudio se prevé que sea introducido en la relevante Conferencia sobre sistemas de procesamiento de información neuronal.[automatic_youtube_gallery type="search" search="Esta técnica permite que la Inteligencia Artificial piense en el futuro distante" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]
IA proyectando las decisiones futuras de otros agentes
El esquema de aprendizaje automático desarrollado por el equipo permite a los agentes IA, sean cooperativos o competitivos, anticipar las acciones futuras de otros agentes. Esto no se limita y se extiende más allá de los próximos movimientos, llevándolo hasta un horizonte temporal cercano al infinito. Los agentes ajustan sus comportamientos para potencialmente influir en los futuros comportamientos de otros agentes, colaborando así a la obtención de soluciones óptimas a largo plazo.
De acuerdo al equipo, este marco podría ser regulado, por ejemplificar, por un sistema de drones autónomos que trabajen en colaboración para localizar a una persona extraviada. Inclusive, podría ser aprovechado por vehículos autónomos para prever los futuros movimientos de otros vehículos y así mejorar la seguridad de los ocupantes.
Dong-Ki Kim es un destacado estudiante de posgrado en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT y autor principal del informe de investigación.
«En circunstancias en las que los agentes de IA cooperan o compiten, lo esencial es cuándo sus comportamientos convergen en un punto en el futuro», expresa Kim. “Hay muchos comportamientos transicionales a lo largo del camino que no tienen un gran peso a largo plazo. Lo que realmente nos incumbe es alcanzar este comportamiento convergente y ahora contamos con un método matemático para permitirlo”.
El desafío solucionado por los investigadores se llama aprendizaje por refuerzo de múltiples agentes, siendo el aprendizaje por refuerzo una modalidad de aprendizaje automático en el que los agentes de IA adquieren conocimientos a través de ensayo y error.
Cuando numerosos agentes cooperativos o competidores están en proceso de aprendizaje simultáneo, el proceso puede adquirir una mayor complejidad. A medida que los agentes tienen en cuenta un mayor número de futuros movimientos de otros agentes, así como su propio comportamiento y cómo esto influencia a los demás, el problema demanda una excesiva capacidad de cómputo.
IA ideando en torno al infinito
«La IA realmente aspira a idear en torno al final del juego, pero desconocen cuándo culminará», declara Kim. “Necesitan considerar cómo seguir adecuando su comportamiento en dirección al infinito para poder triunfar en un punto distante en el futuro. Nuestro artículo propone esencialmente un objetivo nuevo que permita a una IA contemplar hacia el infinito”.
Es inviable integrar el infinito en un algoritmo, por lo que el equipo confeccionó el sistema de tal manera que los agentes se enfoquen en un punto futuro donde su comportamiento convergerá con el de otros agentes. Esto es conocido como equilibrio, y un punto de equilibrio determina la performance a largo plazo de los agentes.
Es posible que existan equilibrios múltiples en un escenario de múltiples agentes, y cuando un agente eficiente influencia de manera activa los comportamientos futuros de otros agentes, pueden llegar a un equilibrio optimizable desde la perspectiva del agente. Cuando todos los agentes se influencian entre sí, convergen en un concepto general denominado «equilibrio activo».
Marco ADICIONAL
El marco de aprendizaje automático del equipo se denomina FURTHER y permite a los agentes aprender a ajustar sus comportamientos en función de sus interacciones con otros agentes para alcanzar un equilibrio activo.
El marco se basa en dos módulos de aprendizaje automático. El primero es un módulo de inferencia que permite a un agente presuponer los comportamientos futuros de otros agentes y los algoritmos de aprendizaje que emplean en base a acciones previas. Luego, la información es integrada en el módulo de aprendizaje por refuerzo, sobre el que el agente se funda para adaptar su comportamiento e influenciar a otros agentes.
“El desafío era proyectar hacia el infinito. Tuvimos que utilizar diversas herramientas matemáticas para conseguirlo y hacer ciertas suposiciones para hacerlo funcionar en la práctica”, afirma Kim.
El equipo puso a prueba su método frente a otros marcos de aprendizaje por refuerzo de múltiples agentes en distintos escenarios en los que los agentes de IA que utilizaron FURTHER resultaron exitosos.
El enfoque es descentralizado, de manera que los agentes aprenden a triunfar de forma autónoma. Además de eso, está mejor diseñado para escalar en comparación con otros métodos que requieren una computadora central para supervisar los agentes.
De acuerdo al equipo, FURTHER podría aplicarse en un amplio rango de problemas de múltiples agentes. Kim alberga especialmente esperanzas por sus aplicaciones en economía, donde podría utilizarse para desarrollar políticas sólidas en situaciones que involucran a muchas entidades que interactúan con comportamientos e intereses que cambian con el tiempo.
